- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘原语、语言和系统结构要点
兴趣度度量说明的语法 兴趣度的度量包括置信度、支持度、噪声和新颖度等度量,可以通过将模式的兴趣度度量与相应的临界值相比较决定一个模式是否为感兴趣的模式。 with interest_measure_name ?threshold = threshold_value 示例:挖掘关联规则时限定找到的感兴趣模式必须满足最小支持度为5%,最小置信度为70% with support threshold = 5% with confidence threshold = 70% 模式表示和可视化说明的语法 对挖掘出来的模式,可以使用多种形式进行表示,包括:规则、表、饼图、立方体、曲线等 display as result form 为了方便用户在不同的角度或者不同的概念层观察发现的模式,用户可以使用上卷、下钻、添加或丢弃属性或维等操作 Multilevel_Manipulation?::= roll up on attribute_or_dimension | drill down on attribute_or_dimension | add attribute_or_dimension | drop attribute_or_dimension 例:假定描述是基于维location, age和income的挖掘。用户可以”roll up on location”, “drop age”, 概化发现的模式。 一个DMQL查询的完整示例 查询AllElectronics购买商品的价格不小于$100的,用AmEx信用卡结帐的加拿大顾客的购买习惯特征(年龄,商品类型和产地),以表的形式表示挖掘的模式 use database AllElectronics_db use hierarchy location_hierarchy for B.address mine characteristics as customerPurchasing analyze count% in relevance to C.age, I.type, I.place_made from customer C, item I, purchases P, items_sold S, works_at W, branch where I.item_ID = S.item_ID and S.trans_ID = P.trans_ID and P.cust_ID = C.cust_ID and P.method_paid = ``AmEx and P.empl_ID = W.empl_ID and W.branch_ID = B.branch_ID and B.address = ``Canada and I.price = 100 with noise threshold = 0.05 display as table 其他数据挖掘语言和数据挖掘原语的标准化 关联规则语言规范 MSQL (Imielinski Virmani’99) MineRule (Meo Psaila and Ceri’96) Query flocks based on Datalog syntax (Tsur et al’98) 数据挖掘的OLE DB 基于OLE DB和OLE DB for OLAP技术 整合数据库,数据仓库和数据挖掘 CRISP-DM (CRoss-Industry Standard Process for Data Mining) 提供了一个有效的数据挖掘平台和处理结构 强调使用数据挖掘技术解决商务问题的需要 数据挖掘系统的体系结构 一个好的系统体系结构,可以使数据挖掘系统在性能、可交互性、可使用性以及可扩展性等多个方面的都得到良好的保证。 当前大部分数据都是存储在数据库或者是数据仓库之中,在此基础上往往还构建了综合的信息处理和信息分析功能。 数据挖掘系统体系结构的核心问题:我们是否应当将数据挖掘系统与数据库/数据仓库系统集成(或耦合) 不耦合 松散耦合 半紧密耦合 紧密耦合 DM与DB/DW的耦合方式 (1) 不耦合 DM系统不利用DB/DW系统的任何功能。 简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。 松散耦合 DM系统将使用DB/DW系统的某些功能。 简单的利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差 DM与DB/DW的耦合方式 (2) 半紧密耦合 除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。 一些中间的挖掘结
文档评论(0)