- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验三应用 Apriori 算法挖掘频繁项集概要
实验三、应用 Apriori 算法挖掘频繁项集学院计算机科学与软件学院实验目的:(1)熟悉 VC++编程工具和 Apriori 频繁项集挖掘算法。(2)根据管理层的需求,确定数据挖掘的任务,明确数据挖掘的功能,也就是明确要挖掘什么。(3)由确定的数据挖掘任务,从实验一处理后的结果中,采用切块或切片等联机分析处理技术,选择出挖掘任务相关数据。(4)用 VC++编程工具编写 Apriori 算法的程序,对任务相关数据运行 Apriori算法,挖掘出所有的频繁项集。写出实验报告。实验原理:1 、Apriori 算法 Apriori 使用一种称作逐层有哪些信誉好的足球投注网站的迭代方法,k 项集用于探索(k+1)项集。首先,通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁 1 项集的集合。该集合记作 L 1 。然后,L 1 用于找频繁 2 项集的集合L 2 ,L 2 用于找 L 3 ,如此下去,直到不能再找到频繁 k 项集。找每个 L k 需要一次数据库全扫描。2、提高频繁项集逐层产生的效率 Apriori 性质:频繁项集的所有非空子集也必须是频繁的。三、实验内容:1、实验内容在给定的数据中提取统一购物篮购买的商品信息,由这些数据构成事务数据库 D,挖掘其中的频繁项集 L。挖掘频繁项集的算法描述如下:Apriori 算法:使用逐层迭代找出频繁项集输入:事务数据库 D;最小支持度阈值。输出:D 中的频繁项集 L。(1) L 1 = find_frequent_1-itemsets(D); // 挖掘频繁 1-项集,比较容易(2) for (k=2;L k-1 ≠Φ ;k++) {(3) C k = apriori_gen(L k-1 ,min_sup); // 调用 apriori_gen 方法生成候选频繁k-项集分为两步:合并、减枝(4) for each transaction t ∈ D { // 扫描事务数据库 D(5) Ct = subset(C k ,t);(6) for each candidate c ∈ Ct(7) c.count++; // 统计候选频繁 k-项集的计数(8) }(9) L k ={c ∈ Ck|c.count≥min_sup} // 满足最小支持度的 k-项集即为频繁 k-项集(10) }(11) return L= ∪ k L k ; // 合并频繁 k-项集(k0)算法在根据频繁 k-1 项集生成频繁 K 项集过程中要计算频繁 K 项集中每个元素的支持度,并计算 K 项集中每个 k-1 项子集是否在 F k-1 中,上述两条任何一条不满足,则删去这个 K 项集中的元素。2 、实验过程 1、打开试验用数据,读取出同一流水号的商品 ID 并取前 5 位,生成以行为单位生成事务数据集 transitions; 2、ind_frequent_1-itemsets 生成频繁一项集for(each transaction in transitions){for(each item in transaction){oneItemSet;oneItemSet.count++;//对 1 项集进行计数}} 3、apriori-gen (L k-1 ) 候选集产生算法For all itemset p∈Lk-1 doFor all itemset q∈Lk-1 doIf p.item1=q.item1, p.item2=q.item2, …,p.itemk-2=q.itemk-2,p.item k-1 !=q.item k-1thenbegin c=p∞q//p、q 合并后任意的 L k-1 子集if has_infrequent_subset(c, L k-1 )then delete c //存在 c 不属于 L k-1 剪枝else add c to CkEndReturn Ck 4、has_infrequent_subset(c, L k-1 )判断候选集的元素For all (k-1)-subsets of c doIf Not(S∈Lk-1) THEN return TRUE;Return FALSE;流程图4、主要程序代码1、//产生事务数据库代码(加注释)#includeiostream#includestring#includefstream#includealgorithmusing namespace std;class Sales_n{public:string serial;int market;char date[10];int sn; int id;float num;float price;};int main(){ /////////
您可能关注的文档
最近下载
- 婚前医学检查相关知识考核试题.pdf VIP
- 社保2024年新规培训.pptx VIP
- 人教版数学二年级上册第六单元 表内乘法(二)大单元整体教学设计.pdf
- DLT 5707-2014 电力工程电缆防火封堵施工工艺导则-行业标准.pdf
- 2024年医疗招聘中医类-中医妇科学考试历年高频考点题库含答案.docx VIP
- 2023年辽宁省营口市中考生物试卷(含答案).doc VIP
- 北师大版生物中考试题(含解析).docx VIP
- 2024年医疗招聘中医类-针灸推拿考试历年高频考点题库含答案.docx VIP
- 初中生物复习选择题.doc VIP
- 北师大版八年级生物上册单元测试-第19章.doc VIP
文档评论(0)