- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
专业
智能科学与技术
班级
姓名
学号
实验课程
自然语言处理
指导教师
实验日期
同实验者
实验项目
中文分词,词性标注,句法分析
实验设备及器材
Pycharm2021.1.3,Python3.8.6
实验步骤、数据记录及处理
1. 安装ltp库
在terminal中使用命令行安装,即pip install -i /simple ltp
图1.1 pip安装ltp
图1.2 成功安装ltp
如果安装失败,请检查包依赖requirements.txt是否满足版本需求,即
# Core
torch=1.2.0
transformers=4.0.0, 5.0
# Front End
pygtrie=2.3.0, 2.5
2. 初步使用LTP
2.1 载入模型
from ltp import LTP
ltp = LTP() # 默认加载 Small 模型
# ltp = LTP(path = base|small|tiny)
# ltp = LTP(path = tiny.tgz|tiny-tgz-extracted) # 其中 tiny-tgz-extracted 是 tiny.tgz 解压出来的文件夹
2.2 分句
# 分句调用ltp.sent_split函数
sents = ltp.sent_split([他叫汤姆去拿外衣。, 汤姆生病了。他去了医院。])
print(sents)
2.3 用户自定义词典
2.3.1 未使用用户自定义词典
from ltp import LTP
ltp = LTP() # 默认加载 Small 模型
seg, hidden = ltp.seg([对负重前行的大桥公路桥实行外地机动车禁行,长江大桥终于从“过境桥”成了“城市桥”])
print(seg)
2.3.2 使用用户自定义词典
from ltp import LTP
ltp = LTP() # 默认加载 Small 模型
# user_dict.txt 是词典文件, max_window是最大前向分词窗口
ltp.init_dict(path=user_dict.txt, max_window=4)
# 也可以在代码中添加自定义的词语
ltp.add_words(words=[负重前行, 长江大桥], max_window=4)
seg, hidden = ltp.seg([对负重前行的大桥公路桥实行外地机动车禁行,长江大桥终于从“过境桥”成了“城市桥”])
print(seg)
2.4 分词
seg, hidden = ltp.seg([他叫汤姆去拿外衣。])
# [[他, 叫, 汤姆, 去, 拿, 外衣, 。]]
print(seg)
2.5 词性标注
pos = ltp.pos(hidden)
print(pos)
2.6 命名实体识别
ner = ltp.ner(hidden)
print(ner)
2.7 语义角色标注
seg, hidden = ltp.seg([他叫汤姆去拿外衣。])
srl = ltp.srl(hidden)
print(srl)
srl = ltp.srl(hidden, keep_empty=False) # 不为空的语义角色标注
print(srl)
2.8 依存句法分析
dep = ltp.dep(hidden)
print(dep)
2.9 语义依存分析(树)
sdp = ltp.sdp(hidden, mode=tree) # mode: [tree, graph, mix]
print(sdp)
2.10 语义依存分析(图)
sdp = ltp.sdp(hidden, mode=graph)
print(sdp)
3. 使用LTP对数据集分词、词性标注以及依存句法分析,将结果存入txt文件中
import json
from ltp import LTP
ltp = LTP(path=base1) # 载入base1模型,相比于默认Small模型较慢
content = []
with open(r./如家酒店(大连星海公园店)(共564条).json, r, encoding=utf-8) as fp:
con = json.load(fp)
# print(con)
for i in range(0, len(con)):
content.append(con[i][content].replace( , ).replace(\n, ).replace(\r, ))
# sents = ltp.sent_split(content) # 分句
# words, hidd
您可能关注的文档
- 关键词提取自然语言处理(1).doc
- 实习报告提纲(按照模版手写) (2).docx
- 实验报告情感语义分析.doc
- 普通地质学重点.docx
- 数学试题二年级.pdf
- 2021.6月四级写作押题班模板.pdf
- 六年级数学课堂练习试题.pdf
- 01.英语一新题型导学讲义.pdf
- TtqG_水生态保护与修复.pdf
- 12讲通关中考数学几何模型(费马点,胡不归,阿氏圆).pdf
- 国有企业党支部书记2024年组织生活会个人“四个带头”对照检查材料范文.docx
- 2024年党员干部民主生活会、组织生活会对照检查材料(四个带头)参考范文2篇.docx
- 2024年度组织生活会和民主评议党员大会实施方案参考范文(含:5个附件表格).docx
- 国有企业党支部书记组织生活会个人对照检查材料(四个带头)供参考.docx
- 浙教版9年级上册数学全册教学课件(2021年11月修订).pptx
- 苏教版8年级上册数学全册教学课件(2021年10月修订).pptx
- 比师大版数学4年级下册全册教学课件.pptx
- 冀教版5年级上册数学全册教学课件.pptx
- 办公室普通党员2024年组织生活会个人对照检查发言材料供参考.docx
- 领导班子成员2025年组织生活会“四个带头”对照检查材料范文.docx
为中小学学生教育成长提供学习参考资料,学习课堂帮助学生教师更好更方便的进行学习及授课,提高趣味性,鼓励孩子自主进行学习,资料齐全,内容丰富。
文档评论(0)