柴比雪夫定理.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
柴比雪夫定理

第 3 章 資料與統計 Part B (3.3~3.6) 資料與統計 Part B 3.3 相對位置的量數與離群值的偵測 分配的形狀 z 分數 柴比雪夫定理 經驗法則 離群值的偵測 分配的形狀:偏度(skewness) 分配的形狀:偏度(skewness) 對稱 (不偏) 偏度為 0 。 對稱分配的平均數及中位數是相等的。 分配的形狀:偏度(skewness) 適度左偏 偏度是負的。 平均數常小於中位數。 分配的形狀:偏度(skewness) 適度右偏 偏度是正的。 平均數通常大於中位數。 分配的形狀:偏度(skewness) 高度右偏 偏度是正的。 (通常大於1.0) 平均數通常大於中位數。 分配的形狀:偏度(skewness) z 分數實例 表3.5是班級人數資料的 z 分數,之前算出平均數為 =44,樣本標準差為 s =8。第5個觀察值的 z 分數為 ?1.50,是離平均數最遠的資料值,比平均數小1.50個標準差。 柴比雪夫定理 柴比雪夫定理 柴比雪夫定理實例 若某學院商用統計課程有100位學生修課,期中考成績之平均數為70,標準差為5。有多少學生的分數介於60與80之間?又有多少學生的分數介於58與82之間? 我們注意到60的值是小於平均數2個標準差,而80則是大於平均數兩個標準差。利用柴比雪夫定理,我們可看出至少0.75或至少75% 的觀察值與平均數的差距在兩個標準差之內。因此,100個學生至少有75人分數介於60與80之間。 柴比雪夫定理實例 而分數介於58與82的人數又是多少?我們可看出(58-70)/5=?2.4 表示58是小於平均數2.4個標準差,而(82-70)/5=2.4表示82大於平均數2.4個標準差。利用柴比雪夫定理 z =2.4,我們可得到 至少有82.6%的學生的分數介於58與82。 經驗法則 針對鐘形分配的資料集而言: 經驗法則 離群值的偵測 離群值的偵測 根據資料分析制定決策時,最好先檢查離群值。誤差通常產生自記錄資料,並將其輸入電腦時。並非一定要刪除離群值,但必須確認其正確性與適當性。 離群值的偵測實例 參考表3.5的班級人數資料之 z 分數, z 分數為?1.50表示第 5 個觀察值為離平均數最遠的值。然而,此標準化值仍在?3到+3之間,因此, z 分數顯示出在班級人數資料中並無離群值。 評註 柴比雪夫定理適合用於任何的資料集合,用來指出至少有多少個觀察值與平均數的差距在特定個標準差之內。若資料集已知為鐘形時,則會得到更多的訊息。例如,經驗法則告訴我們:有大約95% 的觀察值與平均數的差距在兩個標準差之內;由柴比雪夫定理所得到的結論只是:至少有75%的資料會在上述的差距之內。 在分析一個資料集之前,統計學者通常做各種檢查以確信資料的有效性。在大型研究中,登錄資料或將資料鍵入電腦的過程中發生錯誤也很常見。確認離群值是檢查資料有效性的方法之一。 3.4 探究性資料分析 五數彙總 箱形圖 五數彙總(five-number summary) 五數彙總(five-number summary)實例‘ 表3.1中12位畢業生的薪資若以遞增順序排列的話可以得到下列資料。 由3.1節已知中位數為2,905,Q1=2,865且Q3=3,000。再回顧此資料集之最小值為2,710,而最大值為3,325。因此,此資料集之五數彙總為2,710, 2,865, 2,905, 3,000, 3,325。大約有1/4或25% 的資料值會介於這五數的兩兩間隔之間。 箱形圖 圖3.5為月薪資料的箱形圖。 箱形圖 繪製箱形圖的步驟如下: 箱形的製作以第一、三四分位數為前後邊。以起薪資料為例,Q1=2,865, Q3=3,000,箱形包含中間50% 的資料值。 箱形中的垂直線位置為中位數(以起薪資料而言是2,905)。因此,中位數位置的直線將所有資料分割成兩等分。 使用四分位數距IQR= Q3-Q1 時,必須設定界限,箱形圖的界限分別位於 之下1.5(IQR)或 之上1.5(IQR)。對起薪資料而言,IQR= Q3-Q1 =3000-2865=135。因此界限為2865-1.5(135)=2662.5與3000+1.5(135)=3202.5。在界限之外的值為 離群值。 箱形圖 圖3.5的虛線稱之為 鬚(whiskers)。鬚的畫法是從箱形的兩邊至界限內最大與最小值,以圖3.5為例,分別是2,710與3,130。 最後,以 * 表示離群值的位置;在圖3.5中,可看到一個離群值3,325。 圖3.5中有標示上、下界限的直線。這些線用來標示資料的範圍,雖然我們會算出這些數值,但在箱形圖中通常不會顯示出來。圖3.6是起薪資料的箱形圖的一般形式。 箱形圖 評註 探究性資料分析過程的優點之一是容易使用;需要的計算很少

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档