第二章 数据描述
第一节 用图表展示定性数据
本节主要介绍定性数据的图表展示方法。定性数据包括分类数据和顺序数据,它们的图表展示方法基本相同。通常可以用频数分布表和图形来描述。
一.生成频数分布表
定性数据本身是对事物的一种分类,因此,只要先把所有的类别都列出来,然后统计出每一类别的频数,就是一张频数分布表。频数分布表中落在某一特定类别的数据个数称为频数。频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分别情况。
二.定性数据的图形表示
定性数据(分类数据和顺序数据)可以描绘出它们各类的比例,常用饼图和条形图表示。
(一) 饼图
饼图又称圆饼图、圆形图等,它是利用圆形及圆内扇形面积来表示数值大小的图形。饼图主要用于总体中各组成部分所占比重的研究。
(二) 条形图
条形图是用宽度相同的条形的高度或长度来表述数据多少的图形,用于观察不同类别数据的多少或分布情况。绘制时,各类别可以放在纵轴,也可以放在横轴。
(三) 环形图
饼图只能显示一个变量(如年龄变量)各部分所占的比重。如果我们想比较不同变量之间的结构差异,就可以通过环形图来实现。
首先,利用产生频数表的方法先做出分性别的年龄分布表
然后,根据上表再绘制出环形图。
第二节 用图表展示定量数据
定性数据的图示表示方法,也都适用于定量数据。但定量数据还有一些特定的图示方法,它们并不适用于定性数据。
一.生成频数分别表
生成定量数据的频数分布表时,首先是将数据进行分组,然后再统计出各组别的数据频数即可。
首先,要对数据进行分组,一般的分组个数在5—15之间。
其次,要确定组距。所谓组距是指每个组变量值中的最大值与最小值之差。每组最大值称为该组上限,最小值称为该组下限。则组距等于上限与下限之差,即
组距=上限-下限
在确定组距是,一般应掌握的原则:一是要考虑各组的划分是否能区分总体内部各个组成部分的性质差别。如果不能正确反映各部分质的差异,必须重新分组。二是要能准确地清晰地反映总体单位的分布特征。
在确定组距时,在研究的现象变动比较均匀的情况下,可以采用等距分组;而当研究的现象变动很不均匀时,例如急剧的增长或急剧的下降,波动的幅度很大时,则一般采用不等距分组。在实际工作中,要结合实际情况确定各组的组距。
最后,统计出各组的频数及频数分布表。在统计各组频数时,恰好等于某一组的组限时,则采取上限不在内的原则,即将该频数计算在与下限相同的组内。
二.定量数据的图形表示
常用来表述定量数据统计图形有:直方图、折线图和散点图。
(一) 直方图
对于一个定量数据,直方图是一个常见的而且非常重要的图形。它的横坐标代表变量分组,纵指标代表各变量值出现的频数,这样,各组与相应的频数就形成了一个矩形,即直方图。
(二) 折线图
折线图是利用线段的升降来说明现象变动的一种统计图,它主要用于表示现象的分配情况、现象在时间上的变化和两个现象之间的依存关系等。
(三) 散点图
散点图能反映两个变量的关系,判断其变化的方向是否相同
应特别注意各种图表的生成方式和运用。
第三节 用统计表来表示数据
统计表和统计图是显示统计数据的两种方式。在现实生活中,统计表和统计图形一样充斥在我们的生活总。它通过对枯燥数据的整理,利用一些简单的表格,让我们一目了然地了解某些事物的现象。
统计表是一种用密集的形式归纳数据的方法,它主要利用行和列中的数据来表述现象特征。人们利用统计表的主要目的有:
一是在文章中使用它以支持自己的观点;二是利用它组织数据。
把整理汇总得出的统计数据资料,按照一定的结构和顺序,有系统地排列在一定的表格内,就形成一张统计表。
统计表的主要优点是:能使统计资料条理化、系统化,能清晰的表达统计资料的内容,且简明易懂、节省篇幅,便于对表中资料进行对比,并易于检查数字的完整性和正确性。
(1) 统计表的结构
统计表一般由五个部分组成,即表头、行标题、列标题、数字资料和表外附加构成。
①总标题:统计表的名称。简明扼要,一般放在表格上方中间位置
②横行标题和纵栏标题:纵栏:表明标志和指标的名称 ,一般置于表格上方;横行标题:表明调查单位和分组的名称,一般置于表格左边。
③统计数字(指标数值)。主词栏:表中资料所说明的对象,位于表的左边;宾词栏:各种指标,位于表的右侧。
(2)统计表的种类
①按用途不同分类
a. 调查表:用来搜集统计资料的表格;
b. 整理表:用于汇总或整理调查资料,以及表现统计汇总或整理结果的表格;
c. 分析表:用于对整理所得的统计资料进行定量分析的表格。
②按总体分组不同分类
a. 简单表:对总体未经任何分组,仅是简单地列出统计资料所属时间或单位的表格。
b. 简单分组表:对总体仅按一个标志进行分组的统计表。
c. 复合分组表:对总体按两个或两个以上标志进行层叠分组。
③按统计资料的时间和空间分类
a. 空间数列表:指同一时间条件下,不同空间范围的统计表。它说明在静态条件下,客观社会经济现象在不同空间范围的分布状况。
b. 时间数列表:指同一空间条件下,不同时间范围的统计表。它说明在动态条件下,客观社会经济现象发展变动状况。
c. 时空结合表:是同时反映社会经济现象在不同空间和不同时间内的数量分布的统计表。
(3)统计表的设计
总的要求:简练、明确、实用、美观,便于比较。
①统计表设计应注意事项
a. 统计表应设计成由纵横交叉线条组成的长方形表格,长与宽之间保持适当的比例。
b. 线条绘制。表的上下端应以粗线绘制,表内纵横线以细线绘制。表格左右两端一般不划线,采用“开口式”。
c. 合计栏的设置。统计表各纵列若须合计时,一般应将合计列在最后一行,各横行若须要合计时,可将合计列在最前一栏或最后一栏。
d. 栏数的编号。如果栏数较多,应当按顺序编号,习惯上主词栏以“甲、乙、丙、丁……”为序号,宾词栏编以(1)、(2)、(3)、(4)……为序号。
②统计表内容设计应注意事项
a. 标题设计:标题简明扼要。
b. 指标数值:数字填写整齐,对准位数。当数字因小可略而不计时,可写上“0”;当缺某项数字资料时,可用“…”表示;不应有数字时用符号“-”表示。
c. 计量单位:当全表只有一种计量单位时,可以把它写在表头的右上方。如果表中各栏的指标数值计量单位不同,可以横行标题后添一列计量单位。
d. 注解或资料来源。
第四节 用数字来概括数据
针对一组数据的分布特征,我们可以从两个方面来考查它:一是该组数据的集中趋势,即该组数据的数值向其中心值的靠拢程度。二是该组数据的离散程度,它反映的是该组数据的各个数值远离其中心的趋势和程度。
一.定性数据的数字特征
由于定性数据主要是计数,比较简单,对定性数据的集中趋势常用的方法就是计算比例、百分比、中位数和众数。
中位数是将总体各单位标志值按大小顺序排列,处于中间位置的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)。
众数就是数据中出现次数或出现频率最多的数值。在定性数据中,由于记录的是频数,因此众数用得多些。
二.定量数据的数字特征
反映定量数据特征的统计量常用的有:
反映数据集中趋势的水平度量:平均数、中位数、众数和分位数等
反映数据离散程度的差异度量:极差、四分位差、标准差和方差
(一) 水平的度量
1. 平均数
平均数也称为均值,是把某一组数据进行算术平均,用以表述某一事物的平均水平,它在统计中叫做均值。
简单平均数:把一个变量的所有观测值相加再除以观测值的数目
加权平均数:如果原始数据为分组数据,则采用加权平均数公式计算,其中的权数f为各组的频数。
2. 中位数
数字按顺序排列后,处于中间位置的数即是。如总位数为奇数,中间数即是;若为偶数,则是中间两位数的平均值。
3. 众数
数组中出现次数最多的数。
4. 用哪个值代表一组数据
平均数、中位数和众数是描述数据水平的三个主要统计量,要合理使用则需要了解它们的不同特点和应用场合。平均数易为多数人理解和接受,实际中用的也较多,但主要缺点是更容易受少数极端数值的影响,对于严重偏态分布的数据,平均数的代表性较差。中位数和众数提供的信息不像平均数那样多,但它们也有优点,比如不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。
(二) 差异的度量
对社会经济现象不仅需要对现象的集中趋势进行分析(平均数、中位数、众数),而且还需要进行差异程度分析即离散程度分析。研究事物现象的差异性,从差异性的事物现象中,寻求解决差异性的一些方法。
1. 极差( Range)
极差又称全距,是最简单的离散指标,它是一组数据中的最大值和最小值之差。
计算极差非常简单,含义也很直观。但是,它仅仅受最大值和最小值的影响,不能反映一组数据 分布的情况,而且它非常容易受数据中极端值的影响。因此,它不能准确地描述数据的分散程度。
2. 方差和标准差
为了反映数据中的每一个观察值与平均水平的差异程度就必须引入方程和标准差的概念。
方差:将各个变量值和其均值离差平方的平均数,作为样本数据,它反映了样本中各个观测值到其均值的平均离散程度。其计算公式为:
标准差是方差的平方根,它与方差相比更具量纲性,而且与变量值的计量单位相同,使用的范围比方差更广泛。其计算公式为:
式中是总体标准差,s为样本标准差。总体自由度为n,样本自由度为n-1,两种有差异,是因为,自由度是指一组数据中可以自由取值的个数,当样本数据的个数为 n时,其样本均值 是确定的,只有n-1个数据可以自由取值,其中必有一个数据不能自由取值。所以,样本的标准差只能除以n-1 ,而不能除以n .
在一个统计样本中,其标准差越大,说明它的各个观测值分布的越分散,它的趋中程度就越差。反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程度就越好。
3. 离散系数
离散系数也称变异系数、标准差系数,它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。其计算公式为:
4. 标准分数
标准分数也称标准化值或Z分数,它是变量值与其平均数的离差除以标准差后的值,用以测定某一个数据在该组数据中的相对位置。其计算公式为:
标准分数最大的用途是可以把两组数据中的两个不同均值,不同标准差的数据进行对比,以判定它们在各组中的位置。见课本P271例题.标准分数对比的两个数据在各自数组中的相对位置。
凡本站注明“稿件来源:新科教育”的所有图文音视频,版权均属新科所有,任何媒体、网站或个人未经本网协议授权不得转或以其他方式复制发表。已获得本站协议
授权的媒体、网站,在下载使用时必须注明“稿件来源:新科教育”,违者本站将依法追究责任。