- 1.1 大数据时代
- 1.2大数据概念和影响
- 1.3 大数据的应用
- 1.4大数据的关键技术
- 1.5.1云计算
- 1.5.2 物联网
- 2.1.1 Hadoop简介
- 2.1.2 Hadoop不同版本
- 2.2 Hadoop项目结构
- 2.3.1Hadoop安装之前的预备知识
- 2.3.2 Hadoop的安装和使用详解
- 2.4 Hadoop集群的部署和使用
- 3.1 分布式文件系统HDFS简介
- 3.2 HDFS相关概念
- 3.3 HDFS体系结构
- 3.4 HDFS存储原理
- 3.5.1 HDFS读数据过程
- 3.5.2 HDFS写数据过程
- 3.6 HDFS编程实践
- 4.1 HBase简介
- 4.2 HBase数据模型
- 4.3 HBase的实现原理
- 4.4 HBase运行机制
- 4.5 HBase应用方案
- 4.6 HBase安装配置和常用Shell命令
- 4.7 HBase常用Java API及应用实例
- 5.1 NoSQL概述
- 5.2 NoSQL与关系数据库的比较
- 5.3.1键值数据库和列族数据库
- 5.3.2文档数据库图数据库以及不同数据库比较分析
- 5.4.1 CAP理论
- 5.4.2 BASE和最终一致性
- 5.5 从NoSQL到NewSQL数据库
- 5.6 文档数据库MongoDB
- 6.1 云数据库概述
- 6.2 云数据库产品
- 6.3.1 UMP系统概述
- 6.3.2 UMP系统架构
- 6.3.3 UMP系统功能
- 6.4.1 Amazon和云计算的渊源
- 6.4.2 Amazon AWS
- 6.4.3 Amazon AWS平台上的云数据库
- 6.5 微软云数据库SQL Azure
- 6.6 云数据库实践
- 7.1 MapReduce概述 - 7.1.1 分布式并行编程
- 7.1 MapReduce概述 - 7.1.2 MapReduce模型简介
- 7.2 MapReduce的体系结构 - 7.2 MapReduce的体系结构
- 7.3 MapReduce工作流程 - 7.3 MapReduce工作流程
- 7.4 Shuffle过程原理 - 7.4 Shuffle过程原理
- 7.5 MapReduce应用程序执行过程 - 7.5 MapReduce应用程序执行过程
- 7.6 实例分析WordCount - 7.6 实例分析WordCount
- 7.7 MapReduce的具体应用 - 7.7 MapReduce的具体应用
- 7.8 MapReduce编程实践 - 7.8 MapReduce编程实践
- 8.1 数据仓库概念 - 8.1 数据仓库概念
- 8.2 Hive简介 - 8.2 Hive简介
- 8.3 SQL转换成MapReduce作业的原理 - 8.3 SQL转换成MapReduce作业的原理
- 8.4 Impala - 8.4.1 Impala简介
- 8.4 Impala - 8.4.2 Impala系统架构
- 8.4 Impala - 8.4.3 Impala查询执行过程
- 8.4 Impala - 8.4.4 Impala与Hive的比较
- 8.5 Hive编程实践 - 8.5.1 Hive安装与基本操作
- 8.5 Hive编程实践 - 8.5.2 Hive应用实例WordCount
- 9.1 Hadoop的优化与发展 - 9.1 Hadoop的优化与发展
- 9.2 HDFS2.0的新特性 - 9.2.1 HDFS HA
- 9.2 HDFS2.0的新特性 - 9.2.2 HDFS Federation
- 9.3 新一代资源管理调度框架YARN - 9.3.1MapReduce1.0的缺陷
- 9.3 新一代资源管理调度框架YARN - 9.3.2 YARN设计思路
- 9.3 新一代资源管理调度框架YARN - 9.3.3 YARN体系结构
- 9.3 新一代资源管理调度框架YARN - 9.3.4 YARN工作流程
- 9.3 新一代资源管理调度框架YARN - 9.3.5 YARN框架与MapReduce1.0框架的对比分析
- 9.3 新一代资源管理调度框架YARN - 9.3.6 YARN的发展目标
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.1 Pig
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.2 Tez
- 9.4 Hadoop生态系统中具有代表性的功能组件 - 9.4.3 Spark和Kafka
- 10.1 Spark概述 - 10.1.1 Spark简介
- 10.1 Spark概述 - 10.1.2 Spark与Hadoop的对比
- 10.2 Spark生态系统 - 10.2 Spark生态系统
- 10.3 Spark运行架构 - 10.3.1 基本概念和架构设计
- 10.3 Spark运行架构 - 10.3.2 Spark运行基本流程
- 10.3 Spark运行架构 - 10.3.3 RDD概念
- 10.3 Spark运行架构 - 10.3.4 RDD特性
- 10.3 Spark运行架构 - 10.3.5 RDD的依赖关系和运行过程
- 10.4 Spark SQL - 10.4 Spark SQL
- 10.5 Spark的部署和应用方式 - 10.5 Spark的部署和应用方式
- 10.6 Spark编程实践 - 10.6.1 Spark安装和启动Spark Shell
- 10.6 Spark编程实践 - 10.6.2 Spark RDD基本操作
- 10.6 Spark编程实践 - 10.6.3 Spark应用程序
- 11.1 流计算概述 - 11.1.1 数据的处理模型
- 11.1 流计算概述 - 11.1.2 流计算概念与典型框架
- 11.3 流计算的应用 - 11.3 流计算的应用
- 11.4 开源流计算框架Storm - 11.4.1 Storm简介
- 11.4 开源流计算框架Storm - 11.4.2 Storm设计思想
- 11.4 开源流计算框架Storm - 11.4.3 Storm框架设计
- 11.5 Spark StreamingSamza以及三种流计算框架的比较 - 11.5 Spark StreamingSamza以及三种流计算框架的比较
- 11.6 Storm编程实践 - 11.6.1 编写Storm程序
- 11.6 Storm编程实践 - 11.6.2 安装Storm的基本过程和实例
- 12.1 图计算简介 - 12.1 图计算简介
- 12.2 Pregel简介 - 12.2 Pregel简介
- 12.3 Pregel图计算模型 - 12.3.1 有向图和顶点
- 12.3 Pregel图计算模型 - 12.3.2 Pregel的计算过程
- 12.3 Pregel图计算模型 - 12.3.3 Pregel实例
- 12.4 Pregel的C++ API - 12.4.1 定义Vertex基类
- 12.4 Pregel的C++ API - 12.4.2 消息传递机制和Combiner
- 12.4 Pregel的C++ API - 12.4.3 Aggregator拓扑改变和输入输出
- 12.5 Pregel的体系结构 - 12.5.1 Pregel的执行过程和容错性
- 12.5 Pregel的体系结构 - 12.5.2 WorkerMaster和Aggregator
- 12.6 Pregel的应用实例单源最短路径 - 12.6 Pregel的应用实例单源最短路径
- 12.7 Hama的安装和使用 - 12.7 Hama的安装和使用
- 13.1 大数据应用概览 - 13.1大数据应用概览
- 13.2 推荐系统 - 13.2.1 推荐系统概述
- 13.2 推荐系统 - 13.2.2 基于用户的协同过滤UserCF
- 13.2 推荐系统 - 13.2.3 基于物品的协同过滤ItemCF
- 13.2 推荐系统 - 13.2.4 UserCF算法和ItemCF算法的对比
- 13.3 大数据在智能医疗和智能物流领域运用 - 13.3 大数据在智能医疗和智能物流领域运用
大数据技术原理与应用课程-厦门大学系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。
《大数据技术》是一门专业选修课,大数据技术入门课程,为学生搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据领域“深耕细作”奠定基础、指明方向。
课程将系统讲授大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用。在Hadoop、HDFS、HBase和MapReduce等重要章节,安排了入门级的实践操作,让学生更好地学习和掌握大数据关键技术。
课程内容(固定在每周一上午10点发布一章内容):
第一讲:大数据概述(2019年9月16日发布)
第二讲:大数据处理架构Hadoop(2019年9月23日发布)
第三讲:分布式文件系统HDFS(2019年9月30日发布)
第四讲:分布式数据库HBase(2019年10月7日发布)
第五讲:NoSQL数据库(2019年10月14日发布)
第六讲:云数据库(2019年10月21日发布)
第七讲:MapReduce(2019年10月28日发布)
第八讲:数据仓库Hive(2019年11月4日发布)
第九讲:Hadoop架构再探讨(2019年11月11日发布)
第十讲:Spark(2019年11月18日发布)
第十一讲:流计算(2019年11月25日发布)
第十二讲:图计算(2019年12月2日发布)
第十三讲:大数据在不同领域的应用(2019年12月9日发布)
期末考试:2019年12月16日上午10点到12月22日晚上11点