Big Data统计学基础课程

  • 名称:Big Data统计学基础
  • 分类:数据库  
  • 观看人数:加载中
  • 时间:2017/8/2 8:09:40

数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
这也就是我们做数据工作的三个大步骤:
1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;
2、我们想看看数据“长什么样”,有什么特点和规律;
3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。
这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。
   相对保守,发展趋势越来越精确。当然,这本身不是坏事,只有越精确, 才能发现真理,但是一旦过度则是有害的。建立在数学背景下的统计,追求精确俨然是一种趋势。在采用一个方法之前,首先考虑的是证明它的正确性。而不是像计算机科学和机器学习注重自学习的过程,注重经验学习的过程。

        尽管统计学的一些分支侧重于描述,也会存在一个核心的问题就是通过观察样本情况去推测总体。必然,这也是DM要做的事情。DM的特性:要处理一个大数据集。这就意味着,要考虑到可行性的问题,我们常常得到的只是一个样本,去描述这个样本来自的那个大数据集。这就是我们常说的:样本估计整体。不同点在于,数据挖掘往往可以得到数据总体。例如:一个公司所有职工的数据,数据库中的所有客户的资料,去年的所有业绩,销售记录等。在这种情形下,推断就没有价值了。这就意味着,建立的统计模型是通过一系列概率描述(如:一些参数接近于0,则会在模型中删除。其意思就是这个数据段发生的概率低,在统计学习分类的时候,在前期数据处理的过程中,这段数据就已经被清除了),但当总体数据可获得话,在数据挖掘过程中这就变的毫无意义。