- 1、认识scala-1
- 2、安装开发环境-1
- 3、scala Shell、用idea创建maven项目-1
- 4、配置maven本地仓库、导入切换项目等其它配置-1
- 5、变量的声明-1
- 6、scala的7种值类型和条件表达式-1
- 7、for循环-1
- 8、方法和函数的声明以及方法转换成函数-1
- 9、数组-1
- 10、映射-1
- 11、元组-1
- 12、集合之seq-1
- 13、集合之set-1
- 14、集合之map-1
- 1、lazy关键字-1
- 2、函数式编程练习之常用方法-1
- 3、函数式编程之reduce-1
- 4、函数式编程之fold-1
- 5、函数式编程之aggregate-1
- 6、函数式编程之交并差集-1
- 7、scala实现wordcount-1
- 1、创建类、属性-1
- 2、构造器、辅助构造器-1
- 单例对象-1
- 4、伴生对象-1
- 5、apply和unapply方法-1
- 6、private关键字-1
- 7、特质、抽象类、继承、重写、实现等-1
- 8、模式匹配之匹配字符串-1
- 9、模式匹配之匹配类型-1
- 10、模式匹配之匹配数组、元组、集合-1
- 11、模式匹配之样例类-1
- 12、模式匹配之偏函数-1
- 作为值的函数-1
- 柯里化概念及声明方式-1
- 柯里化练习-1
- 隐式转换和隐式参数-1
- 隐式转换练习1-1
- 隐式转换练习2-1
- 泛型-1
- upperbound-1
- viewbound-1
- contextbound-1
- actor概念-1
- actor实例之创建actor-1
- actor实例之消息的接收与发送(异步没有返回值)-1
- actor实例之消息的接收与发送(同步有返回值)-1
- actor实例之消息的接收与发送(异步有返回值)-1
- actor实例之并行编程思想实现单词计数-1
- akka简介-1
- akka案例需求分析-1
- akka案例代码分析-1
- spark简介-1
- spark集群搭建、启动-1
- spark Shell启动和提交任务-1
- spark Wordcount-1
- 上传并执行任务-1
- 千锋1、rdd的概念-1
- 千锋2、生成rdd的两种方式-1
- 3、两种类型的算子:transformation和action-1
- 4、常用算子练习1-1
- 5、常用算子练习2-1
- 1、案例需求-求用户在某基站停留的时间-1
- 2、求用户在某基站停留的时间-1
- 3、案例实现-求用户访问学科的子网页top3-1
- 4、案例实现-求用户访问学科的子网页top3-chache
- 1、spark集群启动流程-1
- 2、spark任务提交流程-1
- 3、wordcount中创建了那些rdd-1
- 4、案例分析实现-按照ip统计区域访问量-1
- 1、rdd之间的依赖关系-1
- 2、dag的生成和stage的划分-1
- 3、webui观察stage划分和任务的生成-1
- 4、自定义二次排序-1
- 1、checkpoint-1
- 2、sparksql介绍-1
- 3、创建dataframe-1
- 4、dataframe常用操作-dsl风格语法-1
- 5、dataframe常用操作-sql风格语法-1
- 6、通过反射推断schema-1
- 7、通过structtype直接指定schema-1
- 8、hive-on-spark-1
- 1、sparkstreaming简介-1
- 实例分析:sparkstreaming获取netcat产生的数据进行实时分析-1
- 3、sparkstreaming实现按批次累加-1
- 4、窗口函数概念及使用场景-1
- 5、窗口函数实现wordcount-1
- 6、spark-on-yarn-1
- 7、补充:sparkstreaming依赖-1
- 1、关于查看源码的一些介绍-1
- 2、导入源码-1
- 3、集群启动流程-master类-1
- 4、集群启动流程-worker类-1
- 5、sparksubmit提交任务-1
- 6、sparkcontext-1
- 7、创建driveractor和clientactor的过程-1
- 8、clientactor向master注册任务信息过程-1
- 9、任务调度的两种方式及master通知worker启动executor的过程-1
- 10、executor向driveractor反向注册的过程-1
- 11、rdd生成和stage划分-1
- 12、生成任务并提交-1
- 13、task任务执行流程-1
- 14、总结-任务生成及提交流程-1
大数据终将主宰经济社会,消除个体差异,成就一元化的经济体系。网络经济时代,人们在经济社会中的诸种活动通过网络账户体系来实现,这些活动也就是所谓的网络账户活动,其基本内容更多地体现为账户间的关系。这些账户活动及其账户关系是由数字网络程序所设定的、驱动的,且被实时地记录下来。这就形成了所谓的“大数据”。因此,大数据来源于大量的网络账户的活动及其有效的记录,简言之,大数据是网络账户数据。
所谓大数据,麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围 的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据需要特殊的技术,以有效地处理大 量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
所谓大数据,麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围 的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据需要特殊的技术,以有效地处理大 量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
1.本视频面向拥有Java语言基础的同学,以Java语言为蓝本,深入浅出的讲解scala语言的语法和特征,并应用scala语言,讲解spark生态系统下的大数据开发技术。
2.视频讲解与实例练习相结合,通过看视频也能保证知识得到充分的实践,知识掌握更牢靠。
3.语言部分由浅入深,在掌握函数式编程和面向对象的基础上能够掌握高阶函数编程(作为值的函数、柯里化、隐式值、隐式转换),使得学生可以胜任项目中的开发之外,还可以读懂Spark源码,为以后研究Spark架构和自己编写架构奠定扎实的基础。
4.在综合案例实现过程中,通过使用Akka通信模型实现RPC远程通信框架,这样既可以深入了解Spark的通信机制,又提升了Scala语言的开发技能。