Big Data统计学基础课程在线播放

Big Data统计学基础课程

名称：Big Data统计学基础
分类：数据库
观看人数：加载中人
时间：2017/8/2 8:09:40

课程列表
课程详情

数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。但从狭义上来看，我认为数据科学就是解决三个问题：
1. data pre-processing;
2. data interpretation；
3.data modeling and analysis.
这也就是我们做数据工作的三个大步骤：
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程，才能形成高质量的数据；
2、我们想看看数据“长什么样”，有什么特点和规律；
3、按照自己的需要，比如要对数据贴标签分类，或者预测，或者想要从大量复杂的数据中提取有价值的且不易发现的信息，都要对数据建模，得到output。
这三个步骤未必严谨，每个大步骤下面可能依问题的不同也会有不同的小步骤，但按我这几年的经验来看，按照这个大思路走，数据一般不会做跑偏。
相对保守，发展趋势越来越精确。当然，这本身不是坏事，只有越精确，才能发现真理，但是一旦过度则是有害的。建立在数学背景下的统计，追求精确俨然是一种趋势。在采用一个方法之前，首先考虑的是证明它的正确性。而不是像计算机科学和机器学习注重自学习的过程，注重经验学习的过程。

尽管统计学的一些分支侧重于描述，也会存在一个核心的问题就是通过观察样本情况去推测总体。必然，这也是DM要做的事情。DM的特性：要处理一个大数据集。这就意味着，要考虑到可行性的问题，我们常常得到的只是一个样本，去描述这个样本来自的那个大数据集。这就是我们常说的：样本估计整体。不同点在于，数据挖掘往往可以得到数据总体。例如：一个公司所有职工的数据，数据库中的所有客户的资料，去年的所有业绩，销售记录等。在这种情形下，推断就没有价值了。这就意味着，建立的统计模型是通过一系列概率描述（如：一些参数接近于0，则会在模型中删除。其意思就是这个数据段发生的概率低，在统计学习分类的时候，在前期数据处理的过程中，这段数据就已经被清除了），但当总体数据可获得话，在数据挖掘过程中这就变的毫无意义。

课程评论

Big Data统计学基础课程

最新课程

热门课程