统计学是研究数据的收集、整理、分析、解释和推断的科学,其核心是通过数据探索规律、解决问题。以下从基础框架出发,系统梳理统计学的核心知识:
一、统计学的基本概念与分支
1. 核心概念
数据(Data):对客观事物的属性或特征的记录,是统计学研究的基础。
总体(Population):研究对象的全部个体(或观察单位)的集合(如 “所有中国成年男性的身高”)。
样本(Sample):从总体中抽取的部分个体(如 “随机抽取 1000 名中国成年男性的身高”),用于推断总体特征。
参数(Parameter):描述总体特征的数值(如总体均值 μ、总体标准差 σ),通常未知,需通过样本推断。
统计量(Statistic):描述样本特征的数值(如样本均值
x
ˉ
、样本标准差 s),可直接计算。
2. 两大分支
描述统计(Descriptive Statistics):对数据进行整理、概括和展示,目的是 “描述数据本身的特征”(如计算平均分、画直方图)。
推断统计(Inferential Statistics):基于样本数据推断总体特征,目的是 “从部分推断整体”(如用样本均值估计总体均值、通过样本检验总体假设)。
二、描述统计:数据的整理与概括
1. 数据的类型
数据按测量尺度可分为三类,决定了后续分析方法:
定性数据(Qualitative Data):非数值型数据,描述 “属性”。
分类数据(如性别:男 / 女;职业:教师 / 医生):无顺序,仅能区分类别。
顺序数据(如满意度:高 / 中 / 低;成绩等级:A/B/C):有顺序,但无法量化差异(如 “高” 与 “中” 的差距不等于 “中” 与 “低”)。
定量数据(Quantitative Data):数值型数据,描述 “数量”,可进行数学运算。
离散数据(如家庭人口数:2/3/4):取值为整数,不可分割。
连续数据(如身高:175.5cm;体重:62.3kg):取值可无限细分。
2. 数据的整理与展示
频数分布表:将数据按类别 / 区间分组,记录每组的频数(出现次数)或频率(频数 / 总数)。
例:对 100 名学生的成绩分组(60 以下、60-80、80 以上),统计每组人数。
图形展示:
定性数据:条形图(对比类别频数)、饼图(展示类别占比)。
定量数据:直方图(展示连续数据的分布形状)、箱线图(展示数据的分布特征:中位数、四分位数、异常值)、折线图(展示数据随时间的变化趋势)。
3. 数据的数字特征
通过数值量化数据的分布特征,核心包括三大类:
(1)集中趋势:数据的 “中心位置”
均值(Mean):所有数据的算术平均(
x