中文分词，词性标注，句法分析.doc

下载文档

53
0
约2.45千字
约 4页
2021-12-08 发布于广东
举报
版权申诉
保障服务

中文分词，词性标注，句法分析.doc

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

专业智能科学与技术班级姓名学号实验课程自然语言处理指导教师实验日期同实验者实验项目中文分词，词性标注，句法分析实验设备及器材 Pycharm2021.1.3，Python3.8.6 实验步骤、数据记录及处理 1. 安装ltp库在terminal中使用命令行安装，即pip install -i /simple ltp 图1.1 pip安装ltp 图1.2 成功安装ltp 如果安装失败，请检查包依赖requirements.txt是否满足版本需求，即 # Core torch=1.2.0 transformers=4.0.0, 5.0 # Front End pygtrie=2.3.0, 2.5 2. 初步使用LTP 2.1 载入模型 from ltp import LTP ltp = LTP() # 默认加载 Small 模型 # ltp = LTP(path = base|small|tiny) # ltp = LTP(path = tiny.tgz|tiny-tgz-extracted) # 其中 tiny-tgz-extracted 是 tiny.tgz 解压出来的文件夹 2.2 分句 # 分句调用ltp.sent_split函数 sents = ltp.sent_split([他叫汤姆去拿外衣。, 汤姆生病了。他去了医院。]) print(sents) 2.3 用户自定义词典 2.3.1 未使用用户自定义词典 from ltp import LTP ltp = LTP() # 默认加载 Small 模型 seg, hidden = ltp.seg([对负重前行的大桥公路桥实行外地机动车禁行，长江大桥终于从“过境桥”成了“城市桥”]) print(seg) 2.3.2 使用用户自定义词典 from ltp import LTP ltp = LTP() # 默认加载 Small 模型 # user_dict.txt 是词典文件， max_window是最大前向分词窗口 ltp.init_dict(path=user_dict.txt, max_window=4) # 也可以在代码中添加自定义的词语 ltp.add_words(words=[负重前行, 长江大桥], max_window=4) seg, hidden = ltp.seg([对负重前行的大桥公路桥实行外地机动车禁行，长江大桥终于从“过境桥”成了“城市桥”]) print(seg) 2.4 分词 seg, hidden = ltp.seg([他叫汤姆去拿外衣。]) # [[他, 叫, 汤姆, 去, 拿, 外衣, 。]] print(seg) 2.5 词性标注 pos = ltp.pos(hidden) print(pos) 2.6 命名实体识别 ner = ltp.ner(hidden) print(ner) 2.7 语义角色标注 seg, hidden = ltp.seg([他叫汤姆去拿外衣。]) srl = ltp.srl(hidden) print(srl) srl = ltp.srl(hidden, keep_empty=False) # 不为空的语义角色标注 print(srl) 2.8 依存句法分析 dep = ltp.dep(hidden) print(dep) 2.9 语义依存分析(树) sdp = ltp.sdp(hidden, mode=tree) # mode: [tree, graph, mix] print(sdp) 2.10 语义依存分析(图) sdp = ltp.sdp(hidden, mode=graph) print(sdp) 3. 使用LTP对数据集分词、词性标注以及依存句法分析，将结果存入txt文件中 import json from ltp import LTP ltp = LTP(path=base1) # 载入base1模型，相比于默认Small模型较慢 content = [] with open(r./如家酒店(大连星海公园店)(共564条).json, r, encoding=utf-8) as fp: con = json.load(fp) # print(con) for i in range(0, len(con)): content.append(con[i][content].replace( , ).replace(\n, ).replace(\r, )) # sents = ltp.sent_split(content) # 分句 # words, hidd