kl800.com省心范文网

统计学第一二章


第一章
第一节

数据与统计学
统计数据与统计学

1.统计学是一门收集、整理、显示和分析统计数据的科学,目的是探索数据的内 在数量规律性。 2.研究过程:提出问题 解释数据(结果说明) 分析数据(研究数据) 整理数据(处理数据) 收集数据(取得数据) 解决问题

第二节

统计学的产生与发展

3.古典统计学阶段(17 世纪中叶~19 世纪初):(1)国势学派:使用记述、对 比的方法研究国家基本国情;(2)政治算术学派:使用数字、图表等统计方法, 研究英国、法国、荷兰三国的国情、国力;(3)概率论学派:研究随机现象 近代统计学阶段(19 世纪初~20 世纪初) 现代统计学阶段(20 世纪初至 今)

第三节 统计学的分科
4.从统计教育的角度,统计学可以分为描述统计和推断统计、理论统计和应用统 计 5.描述统计是指用图形、表格和概括性的数字对数据进行描述的统计方法。描述 统计学是研究数据收集、整理和描述的统计学分支 。 6.描述统计学的内容:(1)整理数据;(2)收集数据;(3)展示数据;(4) 描述性分析。 7.描述统计学的目的:(1)描述数据的基本特征;(2)找出数据的基本规律。 8.描述统计学的研究对象:确定性现象。 9.推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计 方法。 10.推断统计学的内容:(1)参数估计;(2)假设检验。 11.推断统计学的目的:对总体的基本特征做出推断。 12.推断统计学的研究对象:不确定性现象。 13.理论统计是研究统计学的一般理论,是研究统计方法的数学原理。应用统计 是研究统计学在各领域的具体应用。

第四节

数据的种类与来源

14.数据的种类按性质可以分为(1)定位数据,如坐标数据;(2)定性数据, 如表示事物属性的数据(城镇、河流、道路等);(3)定量数据,如面积,体 积,重量,速度等;(4)定时数据,如年,月、日等。 15.数据的种类按表现形式可分为(1)结构型数据,如各种数字、测量数据及其 解释;(2)非结构型数据,如网络日志、音频、视频、图片和地理信息等。 16.第一手数据(直接数据):统计数据来源于直接组织的调查、观察或科学试 验,第二手数据(间接数据):统计数据来源于已有的数据。 17.统计调查是按照预定的统计任务,运用科学的统计调查方法,有计划有组织 地向客观实际搜集资料的全过程。 18.统计调查包括(1)普查,普查是为了某一特定目的,专门组织的的一次性全

面调查。 通常是一次性或周期性的,非经常一般需要规定统一的标准调查时间数 据的规范化程度较高应用范围比较狭窄。 (2)抽样调查,抽样调查是从总体中随机抽取一部分单位作为样本进行调查, 并根据样本调查结果来推断总体特征的数据收集方法。特点:经济性、时效性、 适应面广、准确性高。(最重要的调查方法) (3)统计报表,统计报表是按国家统一规定的表式,统一的指标项目,统一的 报送时间,自下而上逐级定期提供基本统计资料的调查方法。 (4) 重点调查, 重点调查是在所要调查的总体中选择一部分重点单位进行调查。 重点单位是着眼于现象量的方面,尽管这些单位在全部单位中只占一部分,但是 它们的某一主要标志的标志总量在总体标志总量中有绝大比重。 (不带主观因素) (5)典型调查,典型调查是指有意识地选取若干具有代表性的单位进行调查和 研究,借以认识事物发展变化的规律。典型调查包括①解剖麻雀:总体内部个体 间差异很小;②划类选典:总体内部个体间差异较大。(虽然抽样调查、重点调 查、 典型调查都属于非全面调查,但是只有抽样调查可以用来推断总体的数量特 征。 重点调查和典型调查所得资料只能形成对总体的定性认识,不能上升为总体 的定量结果。) (6)科学试验,在自然科学和工程的研究领域,通常是通过科学试验的方法获 得研究的统计数据。 (7)网络获取等。 19.间接数据的获取渠道:(1)统计部门和政府部门公布的有关资料,如各类统 计年鉴; (2)各类专业期刊、报纸、书籍所提供的资料; (3)各种会议(博览会、展销会、交易会等)及专业性、学术性研讨会上交流 的有关资料; (4)从互联网或图书馆查阅到的相关资料。 20.文件检索:(1)系统检索,选取合适的数据库和检索的关键词; (2)追溯检索,Science Citation Index; (3)浏览检索,根据平时的积累。

第五节

统计数据的质量

21.统计调查阶段是统计研究的第一步,在这一阶段中,统计数据的误差从不同 的角度分类,可以分为非抽样误差与抽样误差。 22.抽样误差是指利用样本推断总体时产生的误差。影响抽样误差大小的因素: (1)样本容量的大小;(2)总体的变异性。抽样误差可以计算和控制。 23.非抽样误差是指由于调查过程中有关环节的失误造成的。从理论上来说,非 抽样误差是可以避免的。控制方法:(1)对调查员进行挑选;(2)对调查员进 行培训; (3)对调查过程进行控制;(4)对调查结果进行检验、评估。

第六节 统计学的基本概念
24.总体:是指所研究的所有个体(基本单位)的集合。总体中的每个个体称为 总体单位。总体单位的特点:大量性,同质性和异质性。 25.样本:是指从总体中抽取的一部分元素的集合。构成样本的元素的数目称为 样本容量。

26.标志(变量): 说明总体单位属性和特征的名称。标志包括(1)品质标志: 说明总体单位质的特征;(2)数量标志:说明总体单位量的特征。 27.指标:综合反应总体数量特征的概念和数值,具有可量性和综合性。指标包 括(1)理论指标:指标名称、核算方法、计量单位;( 2)实践指标:时间、 空间、数值。常用指标:总量指标、平均指标和相对指标。 例如:2014 年我国国内生产总值 568845 亿元(总量指标),按可比价格计算, 比上年增长 7.7%(相对指标)。全年全国粮食总产量达到 60194 万吨(总量指 标),比上年增加 1236 万吨(总量指标),增长 2.1%(相对指标)。全年城 镇居民人均总收入 29547 元 (总量指标) 。 其中, 城镇居民人均可支配收入 26955 元(总量指标),比上年名义增长 9.7%(相对指标),扣除价格因素实际增长 7.0%(相对指标)。全年农村居民人均纯收入 8896 元(总量指标),比上年名 义增长 12.4%(相对指标),扣除价格因素实际增长 9.3%(相对指标)。2013 年全国居民收入基尼系数为 0.473 (相对指标)。

第二章

统计数据的描述
数据的预处理 统计数据的整理

第〇节 第一节

1.数据的审核包括逻辑审核和计算检查,目的:保证数据的完整性和准确性

2.统计调查阶段是统计研究的第一步,它是根据统计研究的需要,将数据按照某 个属性分成不同的组别。在分组时,如果按照性别、质量等定性指标分组,称为 品质标志分组;如果按照数量或数值等定量指标分组,称为数量标志分组。

(品质标志分 组)

( 数量标 志分 组) 单变量值分组适用于品质标志分组及数量标志分组中变量值较少时。

3.次数分配(组距分组)是指将数据按其分组标志进行分组。 4.次数分配的特点:(1)将变量值的一个区间作为一组; (2)适合于连续变量; (3)适合于变量值较多的情况; (4)需要遵循“不重不漏”的原则(上组限不在该组内); (5)可采用等距分组,也可采用不等距分组。 5.组距分组的思路:(1)先确定组数,再确定组距;(2)先确定组距,再确定 组数。不管怎么分组,都是组数越多,组距越少。 例:66 69 74 76 78 80 82 84 88 89

6.与组距分组有关的几个概念:(1)下限(low limit) :一个组的最小值; (2)上限(upper limit) :一个组的最大值; (3)组距(class width) :上限与下限之差; (4)组中值:下限与上限之间的中点值(组中值=(上限+下限)/2). 7.累计频数(shu?):(1)向上累积频数(以下累计):变量值由小到大排列, 表示某个变量值的位置,或者小于等于某个变量值的个数; (2)向下累计频数(以上累计):变量值由大到小排列,表示某个变量值的位 置,或者大于等于某个变量值的个数。 8 次数分配直方图: 用矩形的宽度和高度来表示频数分布的图形。 在直角坐标中, 用横轴表示数据分组, 纵轴表示频数或频率,各组与相应的频数就形成了一个矩 形,即直方图。 9.折线图 (频数多边形图) 是指在直方图的基础上, 把直方图顶部的中点(组中值) 用直线连接起来,再把原来的直方图抹掉。具体做法:(1)第一个矩形的顶部 中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中 点与其竖边中点连接到横轴; (2)折线图下所围成的面积与直方图的面积相等, 二者所表示的频数分布是一致的。 10.次数分布曲线:当观察次数逐渐增多,组距越小组数越多时,所画出来的折 线就会越光滑,逐渐形成一条光滑的曲线,即次数分配曲线。常见的有四种曲 线,即正态分布曲线,偏态曲线,J 形曲线和 U 形曲线。

正态分布曲线

右偏分布曲线

左偏分布曲线 正 J 型分布曲线

反 J 型分布曲线 U 形曲线

(1)正态分布曲线也称为钟形曲线,,是客观事物数量特征表现最多的一种次 数分布曲线,如人的身高、体重、智商,电子管中的热噪声、电流、电压,纤维 长度。细沙强度,钢的含碳量,农作物产量,橡胶的抗张力。一个地区多年的降 雨量等。所有的试验、测量和观测误差都服从正态分布; (2)偏态分布曲线根据尾巴拖向哪一方分为正偏(右偏)和负偏(左偏)两种 分布曲线。例如人均收入分配的曲线就是右偏分布曲线; (3)J 形曲线包括正 J 形曲线和反 J 形曲线。例如供给曲线(正 J 形曲线)和需 求曲线(反 J 形曲线); (4)U 形曲线又称为死亡率曲线、产品故障率曲线或浴盆曲线,人和动物的死 亡率近似服从 U 形曲线分布。产品的故障和报损情况也有类似的分布规律。 11.20 世纪初意大利经济学家基尼(G. Gini)根据洛伦茨曲线给出了衡量收入分配 平均程度的指标

A 表示实际收入曲线与绝对平均线之间的面积 B 表示实际收入曲线与绝对不平均线之间的面积 如果 A=0,则基尼系数=0,表示收入绝对平均 如果 B=0,则基尼系数=1,表示收入绝对不平均 基尼系数在 0 和 1 之间取值 一般认为,基尼系数若小于 0.2,表明分配平均;基尼系数在 0.2 至 0.4 之间 是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在 0.4 被认为是收入分配不公平的警戒线,超过了 0.4 应该采取措施缩小这一差距。



累 积 的 收 入 或 财 富 百 分

绝对平均线

A B

洛伦兹曲线

累积的人口百分比

第二节

分布集中趋势的测度

12.众数是指一组数据中出现次数最多的数据。特点:(1)适合于数据较多时使 用;(2)不受极端值的影响;(3)一组数据可能没有众数或有几个众数;(4) 主要用于分类数据,也可用于顺序数据和数值型数据。应用:市场中价格的确 定。 13.中位数是排序后位于中间位置的的是数据。若总数据个数为奇数,则中位数 =
中间数 ? 1 中间数1 ? 中间数2 ;若总数据个数为偶数,则中位数= 。特点:(1) 2 2

不受极端值影响;(2)主要用于顺序数据,也可用数值型数据,但不能用于分 类数据 14.中位数是将统计分布从中间分为面积(即数据个数)相等的两部分,与中位 数性质相似的还有四分位数、十分位数和百分位数。四分位数是指将数据分布 4 等分的三个数值,其中中间的四分位数就是中位数。十分位数和百分位数分别 是将是数据十等分和一百等分的数值。 15.均值是数据集中趋势的主要测度值。包括(1)算数平均值:设一组数据为:

x , x ,?, x
1 2

n

,则算数平均值= x = x1

? x 2 ? ? ? xn n

(总体算数平均值和样本平均

值求法一样) ; (2) 设一组数据为:x1 , x2 ,?, xn , 相应的频数为: f ,
1

f

2

,? ,

f

n



则加权平均值=

x f ?x f f ?f
1 1 1 1

2 2

? ? ? xn ??

f

f

n

,加权平均值的变形公式:加权平均值

n

?x f
i ?1 n i

n

i

?f
i ?1

? ? xi
i ?1

n

f

i

?f
i ?1

n

== ? xi wi (变量值,权重)性质:( 1)各变量值与均
i ?1

n

i

值的离差之和等于零 ? ( x ? x ) (3)几何平均值: G ? n

? 0

;(2)各变量值与均值的离差平方和最小,

a1 ? a2 ??? an ? n

?a
i ?1

n

i

。适用特点:(1)变量值以相

对数的形式出现;( 2)变量值相乘有意义。应用:( 1)计算平均发展速度; (2)平均收益率;(3)流水线的产品合格率。 例题:某产品要经过生产流水线连续作业的四道工序才能完成。某月份各工序 产品的合格率分别为 98%、95%、95%、97%,计算整个流水线产品合格率?
4

98% ? 95% ? 95% ? 97% ? 96.24%

某银行为鼓励用户长期存款,以复利方式计息,某 10 年期存款的年利率第 1—4 年为 3%、第 5—7 年年为 4.5%、第 8—10 年为 5.5%。则 10 年的平均年利率?

10

平均年利率为 4.19% 16.众数、中位数、均值的比较:(1)数量关系
众数 中位数 均值

1.034 ?1.0453 ?1.0553 ? 1.0419

? ( x ? x)

2

? min

右偏分布
均值 中位数 众数 均值 = 中位数 = 众数

左偏分布

对称分布

(2)众数、中位数、均值的特点和应用:①众数(不受极值的影响,易于理解、 尤其适用于类型变量,不唯一);②中位数(不受极值的影响,数据分布偏斜程 度较大时使用);③均值(数学性质稳定、容易受到极值影响、数据对称分布或 接近对称分布时使用)

第三节 分布离散程度的测度
17.极差(全距)是指一组数据中最大值与最小值之差,是数据分布离散程度的 最简单测度值。特点:容易受极值影响。 18.内距是上四分位数与下四分位数之差, 即 IQR= Q3– Q1, 它反映了中间 50% 数据的离散程度。特点:不受极端值的影响。 19. 方差是各个数据与平均数之差的平方之和的平均数。总体未分组方差:

s

2

?

? ( xi ? x)
i ?1

n

2

n

。总体分组方差: s ?

2

? ( x ? x) f
i ?1

n

2

i

?f
i ?1 2

n

。样本未分组方差:

i

s

2

?

? ( xi ? x)
i ?1

n

2

n ?1

。样本分组方差 s ?

2

? ( x ? x) f
i ?1

n

i

?f
i ?1

n



i

?1

20. 标 准 差 又 称 为 均 方 差 , 是 方 差 的 算 数 平 方 根 。 总 体 未 分 组 标 准 差 :

s?

? ( xi ? x)
i ?1

n

2

n

。 总体分组标准差:s ?

? ( x ? x) f
i ?1

n

2

i

?f
i ?1 n i ?1

n

。 样本未分组标准差:

i

s?

? ( xi ? x)
i ?1

n

2

n ?1

。样本分组标准差: s ?

? ( x ? x) f ?f
i ?1 n i

2

i

?1

21.自由度是指一组数据中可以自由取值的数据的个数。当样本数据的个数为 n 时, 若样本均值确定后,只有 n-1 个数据可以自由取值, 其中必有一个数据不能自 由取值。因此,自由度为 n-1。 22.标准差的作用:(1)判断变量的离散程度;(1)判断某一变量取值是否一 致;(3)判断某一变量落在某一区间的概率,切比雪夫定律: ? ? k? ,

1?

1 k2

(4)判断某一变量值在数据几何中的位置 标准化值

Z ?

X ?

?

?

23. 离 散 系 数 : 标 准 差 和 对 应 的 均 值 之 比 。 公 式 :

? s V ? (总体离散系数)或 V ? (样本离散系数) 作用:消除了 x x 数据水平高低和计量单 位的影响。
应用:用于对不同变量离散程度的比较

第四节 分布偏态与峰度的测度
24.数据分布的两个重要特征是集中趋势和离散程度。 25.偏态是对分布偏斜方向及程度的测度。判断偏态的方向并不困难,但要测度 偏斜的程度则需要计算偏态系数 (SK) ,SK ?

? ( x ? x)
i ?1

k

3

ns

3

, 通常 SK 取值在-3~

+3 之间,绝对值越大,表明偏斜程度越大。情况:大于 0 为正偏(右偏),小 于 0 为负偏(左偏),等于 0 为对称分布 26. 峰 度 , 记 作 K , 是 对 数 据 分 布 平 峰 或 尖 峰 程 度 的 测 度 。 峰 度 系 数

? (xi ? x)f K= ? f ?s
i ?1 4 i

k

4

i

?3

第五节

统计图与统计表

表 2.11 某厂职工人数统计表 2007 年 12 月 31 日 人数(人) 比率(%) 列标题

27.
行 标 题

性别 男 女 合计

253 115 368

68.75 31.25 100.00

数字 资料

资料来源:……………………………

附加

28..统计表设计和使用应注意的问题:(1)合理安排表的结构; (2)表头一般应包括表号、总标题和表中数据的单位等内容,总标题应该简明 确切地概括出统计表的内容, 一般需要表明统计数据的时间 (when) 、 地点 (where) 以及何种数据(what),即标题内容应该满足 3W 要求; (3)表中的上下两条横线一般用粗线,中间其他的其他线要用细线,并且统计 表的左右两边不封口, (4)列标题之间一般用竖线分开,而行标题之间通常不必用横线隔开,总之表 中尽量少用横竖线,切忌不要用斜线; (5)统计表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点

的位数应统一; (6)在使用统计表时,必要时要在表的下方加上注释,特别要注明资料来源, 以表示对他人劳动成果的尊重 48.茎叶图:以一组数据的高位数做树茎,树叶保留数值的末位数字。 49.茎叶图的特点:(1)用来显示未分组的原始数据的分布; (2)由“茎”和“叶”两部分构成,其图形是由数字组成的; (3)以该组数据的高位数值作树茎,低位数字作树叶; (4)树叶上只保留一位数字。 29.茎叶图类似于横置的直方图,但又有。直方图可观察一组数据的分布状况, 但没有给出具体的数值; 茎叶图既能给出数据的分布状况,又能给出每一个原始 数值,保留了原始数据的信息

30.箱线图用来反映原始数据分布的图形。它由一个箱子和两条线段组成。绘制 方法:(1)找出一组数据的五个特征值:数据的最大值、数据的最小值、中位 数和两个四分位数; (2)连接两个四分位数画出箱子; (3)将两个极值点与箱子连接。 31.应用统计图错误的的情况:( 1)指标选的不合适;(2)绘图时不够科学规 范;(3)象形图绘制的问题。 32.分布的形状与箱线图
Q L 中位数 Q U Q L 中位数 Q U

对称分布

左偏分布

Q L

中位数

Q U

右偏分布


统计学第二章.doc

统计学第二章 - 1. 二手数据的特点是( ) A.采集数据的成本低,但搜集比较

第二章统计学_图文.ppt

二章统计学 - 统计学 闫紫燕 思考题 Thinking Challenge

统计学第二章课后题及答案解析.doc

统计学第二章课后题及答案解析 - 第二章 一、单项选择题 1.对一批商品进行质量

统计学 第一章,第二章_图文.ppt

多元统计分析 第一章 概论 1.统计学的概念 1.1 统计学(statistics)/数理统计 学研究随机现象规律性的方法学; 是一门关于如何收集、分析、解释和 表达数据...

统计学第一二章.doc

统计学第一二章 - 第一章 第一节 数据与统计学 统计数据与统计学 1.统计学是

四川大学统计学第一二章_图文.ppt

四川大学统计学第一二章 - 四川大学 商学院 李晓峰 教授 (376164517

统计学第六版贾俊平第2章_图文.ppt

统计学第六版贾俊平第2章_教育学_高等教育_教育专区。统计学 第2 章 数据的搜集 统计学 主要内容 ? ? ? ? 2.1 2.2 2.3 2.4 数据的来源 调查数据 ...

统计学 第二章_图文.ppt

统计学 第二章 - 第二章 统计数据的收集与整理 第一第二节 第三节 第二节 第四节 统计数据的收集 数据整理 频数分布 统计表和统计图 第一节 统计数据...

《统计学》第一、二章课件_图文.ppt

《统计学》第一、二章课件 - 统计学 第一章 社会经济统计 活动概述 第一节 社

统计学第一二章_图文.ppt

统计学第一二章 - 统计学多媒体教学软件 山西大学经济与工商管理学院 刘锦雯 版

统计学第一、二章_图文.ppt

统计学第一二章 - 统计学 第一章 社会经济统计 活动概述 第一节 社会经济统

生物统计学 第一二章.doc

生物统计学 第一二章 - 第一章 统计一般有三个含义,即( )。B A.统计调查

统计学一二章课后题_图文.doc

统计学一二章课后题 - 第一章作业 1.数据挖掘与统计学有什么关系? 数据挖掘是

第一二章统计学.doc

第一二章统计学 - 第一章、 第一章、统计学中的几个基本概念 一、统计总体与总体

统计学第一、二章_图文.ppt

统计学第一二章 - 统计学 适用于非统计学专业 参考教材:《社会经济统计学》

企业统计学第一二章 重点选择题(单选,多选).doc

企业统计学第一二章 重点选择题(单选,多选) - 《阶段测验一(1~2 章) 》

统计学课件(第一、二章)_图文.ppt

统计学课件(第一二章) - 高等学校应用型特色规划教材 统计学 STATISTICS 清华大学出版社 目 ? ? ? ? ? ? ? ? ? ? ? ? ? 第一章 总论 第二章 ...

统计学基础第一、二章_图文.ppt

统计学基础第一二章 - 《统计学基础》 主讲教师: 王赤兵(基础教育系) 统计学基础 教学内容导航 1 3 5 7 绪论 2 4 统计调查 静态分析方法 统计指数 ...

01--统计学第一、二章_图文.ppt

01--统计学第一二章 - 统计学 第一章 社会经济统计 活动概述 第一节 社

统计学2章练习题+答案.doc

统计学2章练习题+答案 - 第 2 章练习题 1、二手数据的特点是(B) A.采