- 1、本文档共42页,其中可免费阅读13页,需付费1金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.2.3文本数据处理;文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。
据资料表明,非结构化文本数据占文本数据总量的80%以上,而计算机只认识“符号语言”,并不能直接处理非结构化形式的“自然语言”。;;;;有哪些信誉好的足球投注网站引擎
情报分析
自动摘要、自动校对
论文查重、文本分类
垃圾邮件过滤
机器翻译
自动应答
;;;非结构化数据:各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频;分词:将连续的子序列按照一定的规范重新组合成词序列的过程; ;函数;jieba实例;importjieba
您可能关注的文档
最近下载
- 传染病预防控制必修和选修答案-2024年全国疾控系统“大学习”活动.docx VIP
- 汕德卡车身控制单元NanoBCU.pdf VIP
- 力高中物理优秀课件 (2).ppt
- 无人机驾驶员高级巡检理论考试复习题库(含答案).docx
- 2024年疾控大学习国家传染病智能监测预警前置软件答案.docx VIP
- 二年级第一学期人教版二年级数学上册第八单元(数学广角搭配(一))检测卷(附答案).docx VIP
- 安宫牛黄丸培训.ppt
- 统编版小学语文三年级上册第三单元 童话王国 大单元整体学历案教案 教学设计附作业设计(基于新课标教学评一致性).docx
- 寻找红色记忆传承红色基因红色传奇传承基因主题班会PPT模板-7343.ppt VIP
- 大学英语四级考试2024年6月真题(第二套)及答案解析.pdf
文档评论(0)