- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章:单变量描述分析(上)
表2、美国50000家庭70年代的收入分布 组数 收入 组距 频数 频数密度 频率 频率密度 1 0-1000 1000 500 0.5 1 0.10% 2 1000-2000 1000 1000 1 2 0.20% 3 2000-3000 1000 1500 1.5 3 0.30% 4 3000-4000 1000 2000 2 4 0.40% 5 4000-5000 1000 2500 2.5 5 0.50% 6 5000-6000 1000 2500 2.5 5 0.50% 7 6000-7000 1000 2500 2.5 5 0.50% 8 7000-10000 3000 7500 2.5 15 0.50% 9 10000-15000 5000 13000 2.6 26 0.52% 10 15000-25000 10000 13000 1.3 26 0.26% 11 25000-50000 25000 3500 0.14 7 0.03% 12 50000及以上 500 1 50000 100 制作不等距分组的统计图,应该注意以下几点: (1)横轴的刻度必须是均匀刻度; (2)横轴刻度的最小单位不能大于最小组距(如果1个单位表示10000,这个图就画不了啦) (3)计算频数密度,例如以1000美元以单位刻度。那么 频数密度=n(频数)/w(组距)=表中第五列 (4)根据第二列和第五列来画图 总面积=50000(实际上是49500) 四、折线图(polygon) 对于离散型变量,连接条形图的中点,实际上表示的是变量值和频数(频率)的关系; 对于连续型变量,用直线连接直方图条形顶端的中点(组中值),就得到折线图,表示的是变量值和频数密度(频率密度)的关系。 如果分组够细,折线图下的总面积与直方图的面积是相等的,多个小直角三角形的互相补充。如教材P40图3.1 表2、观众对武侠片的反应统计 喜爱程度 频数 百分比 非常爱看 70 17.9 爱看 90 23.1 一般 100 25.6 不爱看 100 25.6 很反感 30 7.7 总数 390 99.9 3、定距变量和定比变量 对于定距变量,我们要区分它是连续型定距变量还是离散型定距变量。 离散型变量的制表方法一般与定序变量的制表方法相同。统计表的变量数值按取值的大小排列,不要任意打乱。 A、如果变量的取值有限,则可以采用一一列举的方式进行统计表的制作。 B、如果变量取值的变化幅度过大,如果一一列举,势必形成很长的分类,而每一类的频数又变的很少。这种情况下适宜采用组距式统计表,即分段统计。 (2)对于连续型变量,由于任意两变量之间的取值都是无穷的,而且从原则上讲没有任意两个观察值是绝对相等的,所以我们没有办法采用一一列举的办法使每个取值对应某个确定的频数,解决的办法只能是将变量值进行分组,制作组距式统计表。 二、统计表的制作方法 (1)组数(intervals): 一般调查总数N与分组数有如下经验性关系: 表3 调查总数N 分组数K 50-100 6-10 100-250 7-12 250以上 10-20 (2)等距(equal length)和非等距或异距(unequal length)分组 一般来说都是采用等距分组。 但在社会学中,也并非全部都是等距分组更能反映现象本质的。 当然非等距分组会给比较或作图带来一定困难,为了消除此影响,确切反映各组频数的实际分布状况,可以计算频数密度或标准组距频数。具体方法可以参考教材P37页。 (3)开口组(open-ended)跟闭口组(close-ended) 如果观察值或测量值中有少数非常大或非常小的值,我们叫做极端值,这些值远离大部分数据集中的位置,这时可以用开口组,比如首组“向下开口”或者末组“向上开口”; 使用开口组的另一个原因是对信息的必威体育官网网址。 (4)如何决定分点的精度(degree of accuracy) 随着精度的提高,分组点(limits)的精度也要提高。一般分组点比原统计资料的精度要高一位。如统计资料的精度为整数,则分组点就取小数点后面一位计算。 举例来说,原统计资料的年龄以年计算,统计范围为1岁-8岁,2岁一个分组,即有1-2岁,3-4岁,5-6岁,7-8岁4个分组,为此应在上述分组值加减0.5岁,得:0.5-2.5岁;2.5-4.5岁;4.5-6.5岁;6.5-8.5岁。 前者称为标明组界(stated limits);后者称为真实组界(true limits)。试比较上述资料两种组界定义的不同: 表4 可见,真实组界值是相邻两组标明组界值的中点,它的精度比标明组界要高一位,组与组的分界是连续的,而标明组界则是离散的。标明组界只是分组资料的简化表示,在实际运算时,都要用到真实组界。 标明组界
文档评论(0)