- 1、本文档共47页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
模块五大数据预处理技术《大数据技术基础》北京出版社主编:张兵
目录模块五大数据预处理技术任务一大数据分词预处理与应用 任务二大数据缺失值预处理与应用任务三大数据异常值预处理与应用
任务一大数据分词预处理与应用
任务导入“端午节亦称“端五节”、“端阳节”或“蒲节”。中国民间传统节日。流传于汉族和壮、布依、侗、土家、仡佬等少数民族地区。时在夏历五月初五。起源说法不一,大都认为是悼念投汨罗江自沉的战国时楚国爱国诗人屈原;有认为是古越人举行的龙图腾祭俗;也有认为是由夏、商、周时的夏至节演变而来等。于时,人们插艾蒲、吃粽子、饮雄黄酒和在小儿衣襟上系香袋等,以期禳灾疫,去虫毒。南方各省区节前举行龙舟竞渡等娱乐活动。”,以上是《辞海》关于端午节的描述,应用Python中的jieba库找出这段信息中的三个关键词。任务一大数据分词预处理与应用
任务目标1.能够自主安装jieba库。2.能够利用jieba库进行数据预处理,对给出的文字进行分词。3.能够增强文化自信,民族自信。任务一大数据分词预处理与应用
任务分析通过网络、微课的学习自主下载安装jieba库。利用jieba库中的函数进行分词。统计各个词的出现次数,将出现频率最高的前三个词作为关键词123任务一大数据分词预处理与应用
任务实施任务一大数据分词预处理与应用1.安装jieba库(1)打开命令提示符,输入“pipinstalljieba”,按下回车键会自动开始安装。当出现提示“Successfullyinstalledjieba……”字样时,说明安装完成。(2)输入“piplist”命令,按下回车键,查看显示的已安装的库中,是否有jieba库,如果有,说明安装成功,如图所示。
任务实施任务一大数据分词预处理与应用2.通过jieba库中的函数进行分词在进行分词前,将文本存放于“端午节.txt”文档中,分词所用代码如下:importjieba#导入jieba库txt=open(端午节.txt,r,encoding=utf-8).read()#打开存放了文本信息的端午节.txt文档words=jieba.lcut(txt)#利用lcut函数分词print(words)#打印分词结果分词结果图
任务实施任务一大数据分词预处理与应用3.统计词的出现次数在使用lcut()函数对文档内容进行分词后,计算每个词出现的次数,不统计单个字符,如标点符号、介词等。具体统计代码如下:counts={}#通过键值对的形式存储词语及其出现的次数forwordinwords: iflen(word)==1:#单个词语不计算在内continueelse:#遍历所有词语,每出现一次其对应的值加1counts[word]=counts.get(word,0)+1items=list(counts.items())#将键值对转换成列表items.sort(key=lambdax:x[1],reverse=True)#根据词语出现的次数进行从大到小排序foriinrange(3):word,count=items[i]print(word,count)
知识链接1.jieba分词的三种模式精确模式把文本精确的切分开,不存在冗余单词有哪些信誉好的足球投注网站引擎模式在精确模式基础上,对长词再次切分。全模式把文本中所有可能的词语都扫描出来,有冗余。任务一大数据分词预处理与应用
知识链接2.jieba库常用函数任务一大数据分词预处理与应用函数描述jieba.cut(s)精确模式,返回一个可迭代的数据类型jieba.cut(s,cut_all=True)全模式,输出文本s中所有可能单词jieba.cut_for_search(s)有哪些信誉好的足球投注网站引擎模式,适合有哪些信誉好的足球投注网站引擎建立索引的分词结果jieba.lcut(s)精确模式,返回一个列表类型,建议使用jieba.lcut(s,cut_all=True)全模式,返回一个列表类型,建议使用jieba.lcut_for_search(s)有哪些信誉好的足球投注网站引擎模式,返回一个列表类型,建议使用jieba.add_word(w)向分词词典中增加新词w
知识链接3.应用实例任务一大数据分词预处理与应用下面,通过实例,来查看三种建议的模式下,分词的效果,运行代码如下所示:importjiebawords1=jieba.lcut(中华人民共和国是一个伟大的国家)print(words1)words2=jieba.lcut(中华人民共和国是一个伟大的国家,cut_all=True)print(words2)words3=jie
您可能关注的文档
- 《教师口语》项目1 普通话语音训练 教学课件.pptx
- 《教师口语》项目7 教师口语艺术 教学课件.ppt
- 《教师口语》项目4 教学口语训练 教学课件.ppt
- 《儿童歌曲弹唱教程》项目三 用正三和弦伴奏的弹唱 教学课件.pptx
- 《教师口语》项目6 教师交际口语训练 教学课件.ppt
- 《工程造价控制》单元六 竣工阶段工程造控制 教学课件.pptx
- 《工程造价控制》单元四 招投标阶段工程造价控制 教学课件.pptx
- 《工程造价控制》单元五 施工阶段工程造价控制 教学课件.pptx
- 《儿童歌曲弹唱教程》项目五 拓展学习 教学课件.pptx
- 《工程造价控制》单元二 决策阶段工程造价管理 教学课件.pptx
最近下载
- 天津市河西区2024-2025学年高一上学期期中考试 化学试卷(无答案).pdf VIP
- 第25课经济和社会生活的变化-2023-2024学年八年级历史上册甄选实用备课课件(部编版).pptx VIP
- 小儿流行性感冒护理查房课件.pptx VIP
- 牙周病的治疗完整课件.ppt
- 党纪学习教育党课PPT课件含讲稿::学党纪、知规矩、明意识、守清廉.pptx VIP
- 《从食物采集到食物生产》公开课课件.pptx VIP
- 综合分析三部门条件下国民收入水平取决于什么因素?如何决定国民收入-怎样使国民收入更快更好的增长?.doc VIP
- 二十届三中全会《决定》PPT专题党课课件.pptx VIP
- 脑出血后物理康复训练的护理查房.pptx
- 我的教师职业生涯规划PPT.pptx
文档评论(0)