- 0.1 课程及其配套在线资源介绍
- 1.1 大数据时代
- 1.2大数据概念和影响
- 1.3 大数据的应用
- 1.4大数据的关键技术
- 1.5.1云计算
- 1.5.2 物联网
- 2.1.1 Hadoop简介
- 2.1.2 Hadoop不同版本
- 2.2 Hadoop项目结构
- 2.3.1Hadoop安装之前的预备知识
- 2.3.2 Hadoop的安装和使用详解
- 2.4 Hadoop集群的部署和使用
- 3.1 分布式文件系统HDFS简介
- 3.2 HDFS相关概念
- 3.3 HDFS体系结构
- 3.4 HDFS存储原理
- 3.5.1 HDFS读数据过程
- 3.5.2 HDFS写数据过程
- 3.6 HDFS编程实践
- 4.1 HBase简介
- 4.2 HBase数据模型
- 4.3 HBase的实现原理
- 4.4 HBase运行机制
- 4.5 HBase应用方案
- 4.6 HBase安装配置和常用Shell命令
- 4.7 HBase常用Java API及应用实例
- 5.1 NoSQL概述
- 5.2 NoSQL与关系数据库的比较
- 5.3.1键值数据库和列族数据库
- 5.3.2文档数据库图数据库以及不同数据库比较分析
- 5.4.1 CAP理论
- 5.4.2 BASE和最终一致性
- 5.5 从NoSQL到NewSQL数据库
- 5.6 文档数据库MongoDB
- 6.1 云数据库概述
- 6.2 云数据库产品
- 6.3.1 UMP系统概述
- 6.3.2 UMP系统架构
- 6.3.3 UMP系统功能
- 6.4.1 Amazon和云计算的渊源
- 6.4.2 Amazon AWS
- 6.4.3 Amazon AWS平台上的云数据库
- 6.5 微软云数据库SQL Azure
- 6.6 云数据库实践
- 7.1 MapReduce概述 - 7.1.1 分布式并行编程
- 7.1 MapReduce概述 - 7.1.2 MapReduce模型简介
- 7.2 MapReduce的体系结构 - 7.2 MapReduce的体系结构
- 7.3 MapReduce工作流程 - 7.3 MapReduce工作流程
- 7.4 Shuffle过程原理 - 7.4 Shuffle过程原理
- 7.5 MapReduce应用程序执行过程 - 7.5 MapReduce应用程序执行过程
- 7.6 实例分析WordCount - 7.6 实例分析WordCount
- 7.7 MapReduce的具体应用 - 7.7 MapReduce的具体应用
- 7.8 MapReduce编程实践 - 7.8 MapReduce编程实践
- 8.1 数据仓库概念 - 8.1 数据仓库概念
- 8.2 Hive简介 - 8.2 Hive简介
- 8.3 SQL转换成MapReduce作业的原理 - 8.3 SQL转换成MapReduce作业的原理
- 8.4 Impala - 8.4.1 Impala简介
- 8.4 Impala - 8.4.2 Impala系统架构
- 8.4 Impala - 8.4.3 Impala查询执行过程
- 8.4 Impala - 8.4.4 Impala与Hive的比较
- 8.5 Hive编程实践 - 8.5.1 Hive安装与基本操作
- 8.5 Hive编程实践 - 8.5.2 Hive应用实例WordCount
- 9.1 Hadoop的优化与发展 - 9.1 Hadoop的优化与发展
- 9.2 HDFS2.0的新特性 - 9.2.1 HDFS HA
- 9.2 HDFS2.0的新特性 - 9.2.2 HDFS Federation
- 9.3 新一代资源管理调度框架YARN - 9.3.1MapReduce1.0的缺陷
- 9.3 新一代资源管理调度框架YARN - 9.3.2 YARN设计思路
- 9.3 新一代资源管理调度框架YARN - 9.3.3 YARN体系结构
- 9.3 新一代资源管理调度框架YARN - 9.3.4 YARN工作流程
- 9.3 新一代资源管理调度框架YARN - 9.3.5 YARN框架与MapReduce1.0框架的对比分析
- 9.3 新一代资源管理调度框架YARN - 9.3.6 YARN的发展目标
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.1 Pig
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.2 Tez
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.3 Spark和Kafka
- 10.1 Spark概述 - 10.1.1 Spark简介
- 10.1 Spark概述 - 10.1.2 Spark与Hadoop的对比
- 10.2 Spark生态系统 - 10.2 Spark生态系统
- 10.3 Spark运行架构 - 10.3.1 基本概念和架构设计
- 10.3 Spark运行架构 - 10.3.2 Spark运行基本流程
- 10.3 Spark运行架构 - 10.3.3 RDD概念
- 10.3 Spark运行架构 - 10.3.4 RDD特性
- 10.3 Spark运行架构 - 10.3.5 RDD的依赖关系和运行过程
- 10.4 Spark SQL - 10.4 Spark SQL
- 10.5 Spark的部署和应用方式 - 10.5 Spark的部署和应用方式
- 10.6 Spark编程实践 - 10.6.1 Spark安装和启动Spark Shell
- 10.6 Spark编程实践 - 10.6.2 Spark RDD基本操作
- 10.6 Spark编程实践 - 10.6.3 Spark应用程序
- 11.1 流计算概述 - 11.1.1 数据的处理模型
- 11.1 流计算概述 - 11.1.2 流计算概念与典型框架
- 11.3 流计算的应用 - 11.3 流计算的应用
- 11.4 开源流计算框架Storm - 11.4.1 Storm简介
- 11.4 开源流计算框架Storm - 11.4.2 Storm设计思想
- 11.4 开源流计算框架Storm - 11.4.3 Storm框架设计
- 11.5 Spark StreamingSamza以及三种流计算框架的比较 - 11.5 Spark StreamingSamza以及三种流计算框架的比较
- 11.6 Storm编程实践 - 11.6.1 编写Storm程序
- 11.6 Storm编程实践 - 11.6.2 安装Storm的基本过程和实例
- 12.1 图计算简介 - 12.1 图计算简介
- 12.2 Pregel简介 - 12.2 Pregel简介
- 12.3 Pregel图计算模型 - 12.3.1 有向图和顶点
- 12.3 Pregel图计算模型 - 12.3.2 Pregel的计算过程
- 12.3 Pregel图计算模型 - 12.3.3 Pregel实例
- 12.4 Pregel的C++ API - 12.4.1 定义Vertex基类
- 12.4 Pregel的C++ API - 12.4.2 消息传递机制和Combiner
- 12.4 Pregel的C++ API - 12.4.3 Aggregator拓扑改变和输入输出
- 12.5 Pregel的体系结构 - 12.5.1 Pregel的执行过程和容错性
- 12.5 Pregel的体系结构 - 12.5.2 WorkerMaster和Aggregator
- 12.6 Pregel的应用实例单源最短路径 - 12.6 Pregel的应用实例单源最短路径
- 12.7 Hama的安装和使用 - 12.7 Hama的安装和使用
- 13.1 大数据应用概览 - 13.1大数据应用概览
- 13.2 推荐系统 - 13.2.1 推荐系统概述
- 13.2 推荐系统 - 13.2.2 基于用户的协同过滤UserCF
- 13.2 推荐系统 - 13.2.3 基于物品的协同过滤ItemCF
- 13.2 推荐系统 - 13.2.4 UserCF算法和ItemCF算法的对比
- 13.3 大数据在智能医疗和智能物流领域运用 - 13.3 大数据在智能医疗和智能物流领域运用
大数据技术的发展,已被列为国家重大发展战略。而在过去的几年里,无论是聚焦大数据发展的《促进大数据发展行动纲要》还是《“十三五”规划》中都深刻体现了政府对大数据产业和应用发展的重视。目前国内大数据发展还处于加速期、转型期,数据与传统产业的融合还处于起步阶段,各行业对大数据分析和挖掘的应用还不理想。但随着市场竞争的加剧,各行业对大数据技术研究的热情越来越高,在未来几年,各领域的数据分析都将大规模应用。《大数据技术及应用》是计算机相关专业大学本科生及研究生选修的一门专业课程,通过本课程学习,使学生能较系统地掌握大数据的基本知识、原理和方法,初步具备大数据的应用、开发的能力,为从事大数据分析、建模、可视化奠定基础。目的是让学生了解并掌握四个领域即大数据系统的起源及系统特征;大数据系统的架构设计及功能目标设计;大数据系统程序开发;企业大数据案例分析的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;本课程重点让学生掌握三个方面的内容:(1)基础篇:主要包括HDFS使用操作、MapReduce开发;、HBase数据库的开发;(2)核心篇:YARN架构、Spark集群计算、Spark机器学习、Hive数据仓库开发;(3)应用篇:医药大数据案例分析。