大数据Spark 视频教程（40讲）

《C 语言数据结构》非常棒的课程

课程定位本课程是计算机科学与技术、软件工程等专业的核心基础..

【国防科技大学】软件工程精品课

国防科技大学软件工程课程旨在培养德、智、体等方面全面发展，..

2025最全最细的Python零基础全套教程

在数字化浪潮中，Python 作为一门功能强大且简单易学的..

51单片机入门到高手课程

‌一、课程体系分阶段‌‌..

C语言程序设计从入门到进阶

入门阶段学习内容基础概念：了解 C 语言的发展历史、特点以..

汇编语言程序设计视频教程-视频教程网

&..

STM32入门详解

STM32 入门详解一、STM32 简介什么是 STM32..

C#语言入门详解

以下是 C# 语言入门详解：一、C# 语言概述C# 是一种..

【国内最强】Python入门到精通最全教程

&..

C++ 及C语言基础教程

&..

2025最全最细的Python零基础全套教程

在数字化浪潮中，Python 作为一门功能强大且简单易学的..

黑马python零基础学会编程视频教程

课程目标通过学习，让我们每个人都可以轻松的遨游在pytho..

python全栈高级就业班课程

如果要从科技领域找出最大的变化和革新，那么我们很难不说到“..

C语言程序设计从入门到进阶

入门阶段学习内容基础概念：了解 C 语言的发展历史、特点以..

C语言全套入门精通课程视频

C语言是嵌入式领域最重要也是最主要的编程语言，本课程从零开..

C#语言入门详解

以下是 C# 语言入门详解：一、C# 语言概述C# 是一种..

王家林：Spark亚太研究院院长和首席专家，中国目前唯一移动互联网和云计算大数据集大成者。Android架构师、高级工程师、咨询顾问、培训专家；通晓Android、HTML5、Hadoop，迷恋英语播音和健美；致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案。

Apache Spark是一个新兴的大数据处理的引擎，主要特点是提供了一个集群的分布式内存抽象，以支持需要工作集的应用。

这个抽象就是RDD（Resilient Distributed Dataset），RDD就是一个不可变的带分区的记录集合，RDD也是Spark中的编程模型。Spark提供了RDD上的两类操作，转换和动作。转换是用来定义一个新的RDD，包括map, flatMap, filter, union, sample, join, groupByKey, cogroup, ReduceByKey, cros, sortByKey, mapValues等，动作是返回一个结果，包括collect, reduce, count, save, lookupKey。

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一。

与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势。

首先，Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。

Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。

Spark让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。

除了Map和Reduce操作之外，它还支持SQL查询，流数据，机器学习和图表数据处理。开发者可以在一个数据管道用例中单独使用某一能力或者将这些能力结合在一起使用。

在这个Apache Spark文章系列的第一部分中，我们将了解到什么是Spark，它与典型的MapReduce解决方案的比较以及它如何为大数据处理提供了一套完整的工具。

热门课程