- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
python数据分析与自然语言处理python数据分析与自然语言处理python数据分析与自然语言处理
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * TF-IDF结合余弦相似度做相似度分析 构造词向量(包含了位置信息) 句子A:[1, 2, 2, 1, 1, 1, 0] 句子B:[1, 2, 2, 1, 1, 2, 1] 向量 NLP-自然语言处理 TF-IDF结合余弦相似度做相似度分析 计算结果: 余弦相似度计算结果区间:[-1 , 1] NLP-自然语言处理 TF-IDF结合余弦相似度做相似度分析 总结思路: (1)使用TF-IDF,找出两篇文章的关键词; (2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,并包含了位置信息,计算每篇文章对于这个集合中的词的词频;(也可以引入权重) (3)生成两篇文章各自的词频向量; (4)计算两个向量的余弦相似度,值越大就表示越相似。 NLP-自然语言处理 百度NLP-词语相似度 输入两个词,得到两个词的相似度结果 意义: 构建词向量时候,为了避免词向量维度过高,可以用相似 词语进行代替 NLP-自然语言处理 通过某种数学变换将原始高维属性空间转变为一个低维子空间。 最简单例子:拍照。 降维有什么作用呢? 1. 数据在低维下更容易处理、更容易使用; 2. 相关特征,特别是重要特征更能在数据中明确的显示出来; 3. 如果只有两维或者三维的话,更便于可视化展示; 4. 去除数据噪声 5. 降低算法开销 降维 NLP-自然语言处理 百度NLP-词语相似度 维度: NLP-自然语言处理 百度NLP-短文本相似度 NLP-自然语言处理 百度NLP-情感分析 NLP-自然语言处理 百度NLP-文章分类 针对网络各类媒体文章进行快速的内容理解,根据输入含有标题的 文章,输出多个内容标签以及对应的置信度,用于给用户文章推荐 、文章分类等场景。 iphone手机出现“白苹果”原因及解决办法,用苹果手机的可以 看下 NLP-自然语言处理 NLP-自然语言处理 Synonyms词语近义词 NLP-自然语言处理 Synonyms短句相似度 NLP-自然语言处理 NLP研究困难总结 歧义 (ambiguity) 病构 (ill-formedness) 复述 (paraphrasing) NLP-自然语言处理 NLP研究困难总结 [咬死猎人] 的狗 咬死 [猎人的狗] 歧义 NLP-自然语言处理 NLP研究困难总结 病构 真实文本的语言现象非常复杂,不规范 例子:他非常男人。(名词不能受程度副词修饰) NLP-自然语言处理 NLP研究困难总结 复述 在与原句表达相同的语义内容,同一种语言下的原句的替代形式 – 毛泽东出生于1893年 – 毛泽东出生在1893年 – 毛泽东诞生于1893年 – 毛泽东同志是1893年出生的 – 毛主席生于1893年 – 毛泽东生于光绪6年(虚拟的) NLP-自然语言处理 NLP方法论之争 基于规则 VS 基于统计 基于规则: 大量人工操作,人类总结的规则有限,难以对抗复杂语言现象 基于统计: 对没有见过的语言现象进行估计 规则+统计 数学理论:概率统计、信息论、线性代数 * * * 图书的分类、圣经抄写过程中的编码和校检 * 70年代 ibm 语音识别 70%-90% 统计语言模型 15年的争论-缺乏数据的支持 分组会议 * 70年代 ibm 语音识别 70%-90% 统计语言模型 15年的争论-缺乏数据的支持 分组会议 * 70年代 ibm 语音识别 70%-90% 统计语言模型 15年的争论-缺乏数据的支持 分组会议 * 70年代 ibm 语音识别 70%-90% 统计语言模型 15年的争论-缺乏数据的支持 分组会议 * 语言的产生 * 语言的产生 * 语言的产生 * 语言的产生 * 语言的产生 * 微软的输入法 siri ibm voice * * * 自然语言处理 目录 NLP的概念 NLP发展历程 编程语言与自然语言 NLP实际应用 NLP技术要点 结巴分词 TF-IDF 相似度计算 NLP相关开源API NLP技术难点总结 方法论之争和前景 NLP-自然语言处理 什么是自然语言处理 NLP, Natural Language Processing 用机器处理人类语言的理论和技术研究在人与人交际中以及人与计算机 交际中的语言问题的一门学科。 NLP要研制表示语言能力和语言应用的模型,建立计算框架来实现这样 的语言模型,提出相应的方法来不断完善这样的模型,并根据语言模型 设计各种实用系统,以及对这些系统的评测技术。
您可能关注的文档
最近下载
- 古代汉语讲义(下).doc VIP
- 六三制新青岛版五年级科学上册全一册全部课件(一共25课时).pptx
- NB∕T 32035-2016 光伏发电工程概算定额.docx
- 精神科医疗pdca案例.pdf VIP
- 第二单元第2课《心灵的色彩》课件2024人美版初中美术七年级上册.ppt
- 2022年中小学心理健康课程标准.pdf
- 人教版(2024)七年级生物上册课件 2.1.1 藻类、苔藓和蕨类植物.pptx VIP
- 人教版五年级数学上册期中质量监测卷(无答案)(7).docx VIP
- 暨南大学硕士研究生入学考试《353卫生综合》近5年(2017-2021)真题.pdf
- 郭锡良古代汉语详细知识点总结.pdf VIP
文档评论(0)