- 1、本文档共15页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索与据预处理
信息检索与数据预处理 王栋 2011年5月20日 信息检索 信息来源: 1、传统资源.图书馆纸质书籍期刊。 2、网络资源。 数据库:中国期刊网,万方,超星,书生之家 (图书馆首页--数据库导航) 有哪些信誉好的足球投注网站引擎:google学术、google图书(google有哪些信誉好的足球投注网站技巧 ) 百度文库、豆丁网 新浪共享资料、CSDN、人大经济论坛 各大高校BBS论坛、 数学中国论坛FTP资源 国家统计局 维基百科(英文版)/ 信息检索 信息检索技术: 1、利用有哪些信誉好的足球投注网站引擎,关键词有哪些信誉好的足球投注网站 2、数据库中,利用题名、摘要、作者等分类有哪些信誉好的足球投注网站 3、从参考文献入手 4、从维基百科(英文版)词条的reference入手 4、从在该领域有名的教授的论文入手 数据预处理 自2000年以来,数学建模竞赛题目的数据提供方式越来越多样(txt文档、acess数据、excel数据);数据量越来越庞大; 快速而方便的从提供的数据中,找到我们所需要使用的数据,就可以为后面的分析和处理节约时间,而不为提取数据所累; 数据的存储、重用和传递,也是数学建模竞赛中常常 用到的; 对数据的使用和分析是建模的基础 数据预处理 1、数据提取(Data extraction) 2、数据清洁(Data Cleaning) 3、数据变换(Data Transformation) 4、统计描述(Statistic Description) 数据提取(Data extraction) (1)如果数据较为整齐,则利用matlab函数直接导入。如importdata(),xlsread(),load(). (2)如果是txt数据,而且混有字符和数字,一般处理起来比较麻烦点,则可用C语言中的fgets()一行行读出来,存成字符串再用atof()函数转化为十进制数,最后重新存为txt数据进行处理。 (3)熟悉数据库语言的可以利用数据库进行相关操作,再次不作介绍。 数据提取(Data extraction) Ps: 若其中涉及的人工步骤,如各种相同的复制粘贴较多,则建议还是编写简单的C语言程序或者matlab程序处理。做到采取手动提取和使用程序、工具软件提取相结合. 尽量将数据存为矩阵形式,方便matlab的使用。 为保险起见,要注意save重要数据和常用数据。将导入的数据,存成一个.mat文件,以后就可以重新Load进工作区间参与运算。 数据清洁(Data Cleaning) 数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值, 识别删除孤立点等。 数据清洁(Data Cleaning) Noisy Data 噪声是一个测量变量中的随机错误和误差。一般我们直接剔除这些异常值。 例: 数据清洁(Data Cleaning) Incomplete Data 数据的不完整可能由于数据在收集、来源、整理等过程中造成的数据的缺失。 (1)忽略缺失值 (2)人工凭经验填写缺失值 (3)使用该部分数据的均值填充 (4)利用回归等方法填写一个最有可能的值 (5)利用SPSS中分析--缺失值分析 数据清洁(Data Cleaning) Inconsistent Data 由于数据来源,收集标准等的不同导致相同属性的数据不同表现形式。 例1:A数据库对产品质量等级划分列为一等品,二等品,三等品;B数据库则划分为A级,B级,C级。 例2:华科的一周从周日开始到周六 我们学校的一周从周一开始到周日 数据变换(Data Transformation) 平滑化:消除数据中的噪声影响(回归方法) 标准化: 归一化: 统计描述(Statistic Description) 1、查看均值mean、中位数median,标准差std,极差range 2、峰度kurtosis,正态分布的峰度为3,若2 ν 比3 大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态分布的尺度之一。 3、偏度skewness,偏度反映分布的对称性.其值大于0 称为右偏态,此时数据位于均值右边的比位于左边的多;反之,称为左偏态;而值接近于0则可认为分布是对称的 统计描述(Statistic Description) 4、直方图hist 5、数据拟合,利用cftool Ps:以上数据预处理方法只是对数据的简单描述,更深入的内容可以参看数据挖掘技术和多元统计分析。 references [1] 杨文霞,数学建模培训之数据的预处理,武汉理工大学理学院,2009.7.11 [2]/viewthread.php?tid=872 [3]元昌安等,数据挖掘原理与SPSS Clementine应用宝典,电子工业出版社. [4]徐从富,数据预处理技术,浙江大学人工智能
您可能关注的文档
- 保安部管理程.doc
- 供水施工组设计.doc
- 保安部量化准.doc
- 保安部作业册.doc
- 保德县医学章程.doc
- 保护专业技管理标准整改程序.doc
- 保护山川河 共筑生态文明.doc
- 保利集团房产项目总经理培训讲义:房地产项目资金管理.ppt
- 保洁各岗工程序.doc
- 保护我们共的家园.ppt
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].docx
- 情绪价值系列报告:春节消费抢先看-国证国际证券.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(解析版).docx
- 2020版 沪科技版 高中生物学 必修2 遗传与进化《第4章 生物的进化》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].pdf
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第1章 人体的内环境和稳态》大单元整体教学设计[2020课标].docx
- 液冷盲插快接头发展研究报告-全球计算联盟.docx
- 精品解析:北京市东直门中学2023-2024学年高二下学期3月阶段性考试(选考)物理试题(原卷版).docx
- 精品解析:北京市东直门中学2024届高三考前练习数学试卷(解析版).docx
- 2020版 沪科技版 高中生物学 选择性必修1 稳态与调节《第2章 人体的神经调节》大单元整体教学设计[2020课标].docx
文档评论(0)