- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hash樹結構 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function Candidate Hash Tree Hash on 3, 6 or 9 使用Hash樹進行支持度計數 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1 2 3 5 6 1 + 2 3 5 6 3 5 6 2 + 5 6 3 + 1,4,7 2,5,8 3,6,9 Hash Function transaction 使用Hash樹進行支持度計數 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 使用Hash樹進行支持度計數 1 5 9 1 4 5 1 3 6 3 4 5 3 6 7 3 6 8 3 5 6 3 5 7 6 8 9 2 3 4 5 6 7 1 2 4 4 5 7 1 2 5 4 5 8 1,4,7 2,5,8 3,6,9 Hash Function 1 2 3 5 6 3 5 6 1 2 + 5 6 1 3 + 6 1 5 + 3 5 6 2 + 5 6 3 + 1 + 2 3 5 6 transaction 15個項集中的9個與事務進行比較 存放在被訪問的葉結點中的候選項集與事務進行比較,如果候選項集是該事務的子集,則增加它的支持度計數; 在該例子中 ,訪問了9個葉子結點中的5個; 15個項集中的9個與事務進行比較。 使用Hash樹進行支持度計數 計算複雜性 支持度閾值 降低支持度閾值通常將導致更多的項集是頻繁的。計算複雜度增加 隨著支持度閾值的降低,頻繁項集的最大長度將增加,導致演算法需要掃描數據集的次數也將增多 項數 隨著項數的增加,需要更多的空間來存儲項的支持度計數。如果頻繁項集的數目也隨著數據項目數增加而增長,則由於演算法產生的候選項集更多,計算量和I/O開銷將增加 事務數 由於Apriori演算法反復掃描數據集,因此它的執行時間隨著事務數增加而增加 事務的平均寬度 頻繁項集的最大長度隨事務平均寬度增加而增加 隨著事務寬度的增加,事務中將包含更多的項集,這將增加支持度計數時Hash樹的遍歷次數 規則產生 忽略那些前件或後件為空的規則,每個頻繁k-項集能夠產生多達2k-2個關聯規則 關聯規則的提取:將一個項集 Y劃分成兩個非空的子集 X 和Y-X,使得X ? Y–X滿足置信度閾值。 如果 {A,B,C,D} 是頻繁項集, 候選項集為: ABC ?D, ABD ?C, ACD ?B, BCD ?A, A ?BCD, B ?ACD, C ?ABD, D ?ABCAB ?CD, AC ? BD, AD ? BC, BC ?AD, BD ?AC, CD ?AB, 這樣的規則必然已經滿足支持度閾值,因為它們是由頻繁項集產生的。 規則產生 怎樣有效的從頻繁項集中產生關聯規則? 一般,計算關聯規則的置信度並不需要再次掃描交易數據集。規則{A,B,C} ?{D}的置信度為σ(ABCD)/ σ(ABC)。 因為這兩個項集的支持度計數已經在頻繁項集產生時得到,因此不必再掃描整個數據集 如果規則X ?Y-X不滿足置信度閾值,則形如X‘?Y-X’的規則一定也不滿足置信度閾值,其中X‘是X的子集。 例如:c(ABC ? D) ? c(AB ? CD) ? c(A ? BCD) 因為σ(AB) ?σ(ABC),則σ(ABCD)/ σ(ABC) ? σ(ABCD)/ σ(AB) ,則c(ABC ? D) ? c(AB ? CD) 規則產生的Apriori演算法 規則格 剪掉的規則 低置信度規則 Apriori偽代碼(三) Apriori偽代碼(四) 假如有項目集合I={1,2,3,4,5},有事務集T: 關聯分析:舉例 Tid Items 1 1,2,3 2 1,2,4 3 1,3,4 4 1,2,3,5 5 1,3,5 6 2,4,5 7 1,2,3,4 設定minsup=3/7,misconf=5/7。 首先:生成頻繁項目集: 1-
您可能关注的文档
- 2006年高考第一轮复习之十三----恒定电流.doc
- 2007中国国际婚博会国际婚博会专业展.ppt
- 2007年天津市科技型中小企业技术创新资金项目指南.doc-天津市科委.doc
- 20080423闪亮心得.doc
- 2008北京奥运再生水景观利用-焦点水网.doc
- 2008年成人高考高起点物理复习(原子原子核).doc
- 2008年第七批我国驻外科技机构推荐的项目.doc.doc
- 20090212-16-国外对我国贸易壁垒动态(九十三).doc
- 2009年江苏省初中毕业高中招生模拟考试.doc
- 2009高三物理专题(动量与能量).ppt
- 绿电2022年系列报告之一:业绩利空释放,改革推动业绩反转和确定成长.docx
- 化学化工行业数字化转型ERP项目企业信息化规划实施方案.pdf
- 【研报】三部门绿电交易政策解读:溢价等额冲抵补贴,绿电交易规模有望提升---国海证券.docx
- 中国债券市场的未来.pdf
- 绿电制绿氢:实现“双碳”目标的有力武器-华创证券.docx
- 【深度分析】浅析绿证、配额制和碳交易市场对电力行业影响-长城证券.docx
- 绿电:景气度+集中度+盈利性均提升,资源获取和运营管理是核心壁垒.docx
- 节电产业与绿电应用年度报告(2022年版)摘要版--节能协会.docx
- 2024年中国人工智能系列白皮书-智能系统工程.pdf
- 如何进行行业研究 ——以幼教产业为例.pdf
文档评论(0)