网站大量收购独家精品文档,联系QQ:2885784924

中文分词,词性标注,句法分析.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
专业 智能科学与技术 班级 姓名 学号 实验课程 自然语言处理 指导教师 实验日期 同实验者 实验项目 中文分词,词性标注,句法分析 实验设备及器材 Pycharm2021.1.3,Python3.8.6 实验步骤、数据记录及处理 1. 安装ltp库 在terminal中使用命令行安装,即pip install -i /simple ltp 图1.1 pip安装ltp 图1.2 成功安装ltp 如果安装失败,请检查包依赖requirements.txt是否满足版本需求,即 # Core torch=1.2.0 transformers=4.0.0, 5.0 # Front End pygtrie=2.3.0, 2.5 2. 初步使用LTP 2.1 载入模型 from ltp import LTP ltp = LTP() # 默认加载 Small 模型 # ltp = LTP(path = base|small|tiny) # ltp = LTP(path = tiny.tgz|tiny-tgz-extracted) # 其中 tiny-tgz-extracted 是 tiny.tgz 解压出来的文件夹 2.2 分句 # 分句调用ltp.sent_split函数 sents = ltp.sent_split([他叫汤姆去拿外衣。, 汤姆生病了。他去了医院。]) print(sents) 2.3 用户自定义词典 2.3.1 未使用用户自定义词典 from ltp import LTP ltp = LTP() # 默认加载 Small 模型 seg, hidden = ltp.seg([对负重前行的大桥公路桥实行外地机动车禁行,长江大桥终于从“过境桥”成了“城市桥”]) print(seg) 2.3.2 使用用户自定义词典 from ltp import LTP ltp = LTP() # 默认加载 Small 模型 # user_dict.txt 是词典文件, max_window是最大前向分词窗口 ltp.init_dict(path=user_dict.txt, max_window=4) # 也可以在代码中添加自定义的词语 ltp.add_words(words=[负重前行, 长江大桥], max_window=4) seg, hidden = ltp.seg([对负重前行的大桥公路桥实行外地机动车禁行,长江大桥终于从“过境桥”成了“城市桥”]) print(seg) 2.4 分词 seg, hidden = ltp.seg([他叫汤姆去拿外衣。]) # [[他, 叫, 汤姆, 去, 拿, 外衣, 。]] print(seg) 2.5 词性标注 pos = ltp.pos(hidden) print(pos) 2.6 命名实体识别 ner = ltp.ner(hidden) print(ner) 2.7 语义角色标注 seg, hidden = ltp.seg([他叫汤姆去拿外衣。]) srl = ltp.srl(hidden) print(srl) srl = ltp.srl(hidden, keep_empty=False) # 不为空的语义角色标注 print(srl) 2.8 依存句法分析 dep = ltp.dep(hidden) print(dep) 2.9 语义依存分析(树) sdp = ltp.sdp(hidden, mode=tree) # mode: [tree, graph, mix] print(sdp) 2.10 语义依存分析(图) sdp = ltp.sdp(hidden, mode=graph) print(sdp) 3. 使用LTP对数据集分词、词性标注以及依存句法分析,将结果存入txt文件中 import json from ltp import LTP ltp = LTP(path=base1) # 载入base1模型,相比于默认Small模型较慢 content = [] with open(r./如家酒店(大连星海公园店)(共564条).json, r, encoding=utf-8) as fp: con = json.load(fp) # print(con) for i in range(0, len(con)): content.append(con[i][content].replace( , ).replace(\n, ).replace(\r, )) # sents = ltp.sent_split(content) # 分句 # words, hidd

文档评论(0)

钟爱书屋 + 关注
官方认证
服务提供商

为中小学学生教育成长提供学习参考资料,学习课堂帮助学生教师更好更方便的进行学习及授课,提高趣味性,鼓励孩子自主进行学习,资料齐全,内容丰富。

认证主体韵馨科技(深圳)有限公司
IP属地广东
统一社会信用代码/组织机构代码
91440300MA5G40JF61

1亿VIP精品文档

相关文档