- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘语言与工具的选择
技术革新的背景: ①数据库技术的成熟和数据应用的普及 ②网络时代各领域数据积累量的指数增长 ③人类“数据丰富而知识贫乏”的问题 …... 需要一种新技术从海量数据中自动、高效提取所需的拥有信息。 数据挖掘语言 用来说明用户感兴趣的数据集、需要挖掘的知识类型、模式和如何发现等问题的与系统进行沟通的机器语言,使挖掘系统在用户指导下有目的的进行数据挖掘工作。 挖掘语言标准化的重要性 ANSI(美国国家标准局)批准SQL作为关系数据库的美国标准,并公布SQL的文本。 厂商纷纷推出支持SQL的软件或接口软件,使SQL突破机器规模和系统成为共同的数据存取语言和标准接口。 出色的数据挖掘查询语言的好处 用户界面的友好性,方便用户使用,不必关心语言是如何实现的; 语言的通用性,方便把数据挖掘平滑地集成到应用系统中; 使用的继承性,方便未来对语言和技术进行改进和调试。 用来支持特殊的和交互的数据挖掘,一组数据挖掘原语与挖掘系统进行通信,灵活的和有效的进行知识发现 代表性的产品:DMQL(data mining query language) 数据挖掘原语: 用来定义一个数据挖掘任务,通过原语来与数据挖掘系统通信,使知识发现更有效。 原语类型包括: 公司A 的数据库为Acompany_db, 包括: customer (cust_ID, name, address, age, income,credit_info,), item(item_ID, name, brand,), employee(empl_ID, name, category,), purchase(trans_ID, cust_ID, empl_ID,,), branch (branch_ID, name, address), items_sold ((trans_ID, item_ID, qty), works_at (empl_ID,branch_ID ) 希望了解购买商品价格不低于100元的顾客的年龄、所购商品类型、商品产地。 针对每一个特征希望以百分比的形式展现 特别的,要求canada顾客,用AmEx信用卡付款的情况。 结果用表的形式表现出来 use database Acompany_db use hierarchy location_hierarchy for B.address mine characteristics as customerPurchasing analyze count% in relevance to C.age, I.type, I.place_made from customer C, item I, purchases P, items_sold S, works_at W, branch Bwhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID andP.cust_ID=C.cust_IDand P.method_paid=/AmEx0and P.empl_ID=W.empl_IDand I.price=100and W.branch_ID=B.branch_ID and B.address=/Canada0 with noise threshold=5% display as table MSQL: 该语言采用类SQL语言的语法,使用了包含排序、分组和其他原语在内的SQL语言原语。 MINE RULE: 同样采取类似SQL的语法,用于挖掘关联规则 PMML(predictive model markup language)预言模型标记语言 基于XML语言的,对数据挖掘模型进行描述和定义,提供模型共享的一种快速简便方式。 开发机构:DMG 数据挖掘协会, 目前已经开发的语言模型的开放标准: PMML1.0 PMML1.1 PMML2.0(必威体育精装版) 特点: 允许应用程序和OLAP工具从数据挖掘系统中获得模型,不用独自开发数据挖掘模块; 收集大量潜在使用的模型,使ISV独立软件供应商的系统间可以共享模型。 方便数据挖掘系统在模型定义和描述方面有标准可循,系统之间就可以共享模型。 可以解决数据挖掘系统的封闭性问题,方便其在其他应用系统中嵌入数据挖掘模型。 使用XML解析器对PMML进行解析,应用程序能够决定模型输入和输出的数据类型、模型格式,并按标准的数据挖掘术语来解释结果。 CWM (common warehouse metamodel)公共仓库元模型 在异构环境下,帮助不同的数据挖掘工具、平台和元数据知识库进行元数据交换,为数据挖掘和商务智能工具之间进行共享元数据制定了一套关于语法和语义的规范。 提出机构:OMG
文档评论(0)