LogisticRegression回归分析.ppt

  1. 1、本文档共72页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Microsoft SQL Server 2005 Data Mining 演算法 – Logistic Regression 謝邦昌 輔仁大學統計資訊學系 教授 中華資料採礦協會? 理事長 在定量分析的實際研究中,線性迴歸模型 (Linear Regression Model) 是最流行的統計方式。 許多社會科學問題的觀察,都只是分類而非連續的。對於分類問題時,線性迴歸就不適用了。 何謂「迴歸」? 某公司業務部經理想要了解該公司影響銷售業績(y)之主要因素並希望能建立一預測模式。 案子交由市調部門做市場調查,發現有許多似乎都是很主要之變項因素(例如:廣告費、交際費、銷售員佣金…等)。如果該業務經理只想找出一個或數個重要的相關之變項因素(X1,X2,…,Xp),如何尋找出?並如何建立預測模式? 迴歸分析 迴歸分析 建立變數關係的數學方程式之統計程序。是將研究的變數區分為因變數與自變數,並建立因變數為自變數之函數模型,其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值。 自變數(Independent variable) 由數學方程式預測的變數。 因變數(Dependent variable) 據以預測因變數的值之變數。 迴歸分析 簡單線性迴歸(Simple Linear Regression) 僅有一自變數與一因變數,且其關係大致上可用一直線表示。 複迴歸(Multiple Regression) 兩個以上自變數的迴歸。 多變量迴歸(Multi-Variable Regression) 用多個自變項預測數個因變數,建立之迴歸關係。 相關分析 不以數學方程式描述自變數與因變數的關係,而是在於判定其線性關聯的程度,並提供相關性的測度。 不可藉迴歸或相關分析建立「因果關係」 相關分析 相關分析是利用來衡量兩個隨機變數之間”直線關係”的方向與強弱程度 。在某些狀況下,決策制定者對二變數之關係的方程式的關切,可能不如其對二變數之關係程度的關切。在這種情形下,我們可以使用相關分析來決定二變數之間關係的強度。 相關分析 相關係數(correlation coefficient) :表示兩隨機變數變動方向與程度大小稱為相關係數。 相關係數的值恆介於-1與+1之間。 完全正向線性相關 :相關係數?+1 完全負向線性相關 :相關係數?-1 無線性關係 :相關係數的值非常接近零 Logistic Regression 就是針對二元因變數 ,即是1 或0。在 Logistic Curve 中有一個臨界遞增的 S 型函數,適用於分析一機率模型,而根據分類性變數,產生輸出變數,其值可為0 或1 ,常代表選擇量度中的「是」與「否」兩類。 在統計學上,許多學者認為Logistic Regression的優點,主要能處理依變項有兩個類別的名目變項,用以預測事件發生的勝算比(Odds Ratio) ,它可解決了傳統線性迴歸模式中,不能處理依變項是兩個類別的名目變項的缺點 勝算比的定義是一件事情會發生的或然率除以不會發生的或然率,若以或然率P(Y)=0.5 為判別值 (Cut Value) ,將0.5 以上判別為1,0.5 以下判別為0,則利用邏輯迴歸便可進行類別預測。 其中 稱為勝算比 (Odds Ratio) ,P 為事件發生的或然率 羅吉斯迴歸在因變數為離散型,且分類只有兩類或少數類時,變成了一個最標準的分析方法。 對於離散型變數有很多分析方法,而Cox根據兩個主要原因選擇羅吉斯迴歸 基於數學觀點,他為一個極負彈性且容易使用的函數 適用於解釋生物學上的意義 單變量羅吉斯迴歸 假設π(x) = E(y|x), 則模型表示如下 若將π(x) 做羅吉斯轉換,可得下列表示式 經由此轉換,g(x)便符合線性迴歸模型的性質,此時g(x)就為連續變數 如果因變數為二分變項時,羅吉斯迴歸有以下特性 條件期望值的迴歸式必須介於0~1之間,即 其誤差分配是服從二項分配而不是服從常態分配 用來處理線性迴歸的分析原則也可以用在羅吉斯迴歸上 實例分析 40歲以上男性高血壓 模型 結果 結果解釋 Logistic Regression 羅吉斯迴歸演算法 羅吉斯迴歸模型與ProspectiveBuyer資料表產生連結,之後可按增益圖,可以看到預測模型的準確率 Logistic Regression 羅吉斯迴歸演算法 範例 羅吉斯迴歸─操作步驟 先從工具列中的Project中,選擇建立New Mining Structure以建構資料採礦模型,通常一個Mining Structure可包含數個Mining Model。 選擇羅吉斯迴歸 接下來,選擇「Microsoft 羅吉斯迴歸」進一步分析 下一步

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档