- 1、本文档共92页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文中几个基础概念的界定-北京大学计算语言学研究所
北京大学博士研究生论文
基于词汇语义分析的
唐宋诗计算机辅助深层研究
The Lexicon Meaning Analysis-based Computer Aided Research Work of Chinese Ancient Poems
姓 名: 胡俊峰
系 别: 计算机科学与技术系
专 业: 计算机软件与理论
研究方向: 计算语言学
导 师: 俞士汶教授
北京大学计算语言学研究所
2001年5月25日
论 文 摘 要
唐宋诗计算机辅助研究是北大计算语言所的一个长期项目。论文的研究工作开始于1996年。本研究基本上可以看作是一个应用驱动型的研究,研究工作的大部分内容是围绕着‘唐宋诗计算机辅助研究系统’的开发来进行的,其成果也大都作为该应用系统的一个部分得到了验证与应用。
本研究主要分为以下几个大的方面。
基于唐宋诗语料库的词汇自动提取研究与基于词汇的统计知识库的构建
通过引入二字组的‘插入率’、‘相对共现度’等统计参数,对原有的基于互信息的未登录词提取算法进行了改进。在针对640万字唐宋诗语料进行多字词词汇自动发现的基础上,通过人工校对提取多字词41732条。
建立了古诗词人名、地名及词汇索引。从作者、时代等多个角度提取了相应的字频、词频等统计信息,为作者、时代的风格研究提供了数据基础
2、唐宋诗计算机辅助研究系统的开发及应用
系统在上一步研究的基础上,针对唐宋诗研究的需要,以多条件复合检索技术为依托,建立了基于词的唐宋诗检索、统计分析系统。提供了词汇的共现、对仗以及作者特征分析等统计功能。在检索功能的基础上开发了诗句相似性检索,自动注音等多种功能,建立了一个面向实用的唐宋诗计算机辅助研究系统。
基于统计的词汇语义关系的自动发现
语言的研究最终很难回避对意义的研究。本项研究以比较词汇的同用词集合的相似性为入手点,通过统计的手段对词汇之间的语义相似性进行量化。进一步提出了语义距离的定义及算法。在此基础上构建的词汇近义关系网络以及基于近义关系的唐宋诗检索引擎为该项研究从应用的角度提供了一个评价的标准。
4、汉语构词规则的自动提取与研究
本研究以北大计算语言学研究所开发的《现代汉语语法信息词典》(1999年版,共收录7万词)为基础,根据其中收录的40318个双字词及其词法、语法属性,参照‘现代汉语语素库’中对语素的属性描述,对每一个双字词的内部结构进行了标注。在此基础上,运用统计的方法,在字一级提取了21301条构词规则,并进一步以宋代诗歌语料为对象,对所得结果的实用性进行了验证。最后,作为理论上的推广,提出了汉语广义构词结构的概念;将通行的分词词典与构词法纳入统一的理论体系中,为今后进一步的研究提供了理论基础。
关键词:
唐宋诗辅助研究,未登录词自动提取,词汇语义分析,语料库语言学,汉语构词法
Abstract
The computer aided research work of Chinese ancient poems is a long-term project of ICL/PKU. The work included in this paper start from 1996. This research work can be viewed as an application driven project. Almost all the works, at the beginning, started with the requirement of the Computer Aided Analysis System of Chinese Ancient Poems and also, in the end, proved and applied in that system.
The research work consists with three main part:
The corpus based lexicon (Meaningful Units, MU) extraction and the establishment of the statistical lexicon database of Chinese ancient poems.
Based on 6.4 million Chinese characters ancient poems, a statistic model is introduced, which include three different statistic standard, frequency, insert rate and mutual-information. In this case, not only th
您可能关注的文档
- 探究串联电路的电流规律结论.PPT
- 探索宇宙-数字图书馆.PDF
- 接力赛的规则抢跑道-大光国小.PPT
- 接近学习的行为.PPT
- 接触式光刻机.PPT
- 控制测量课程设计----河北工程测绘09界_百度文库.DOC
- 控制电路通断导线用来连接电源.PPT
- 推荐versace包versace包包精工.PDF
- 推进中美经贸关系健康发展-商务部.DOC
- 提案理由説明-伊佐.PDF
- 2024年学校党总支巡察整改专题民主生活会个人对照检查材料3.docx
- 2025年民主生活会个人对照检查发言材料(四个带头).docx
- 县委常委班子2025年专题生活会带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”对照检查材料四个带头:.docx
- 巡察整改专题民主生活会个人对照检查材料5.docx
- 2024年度围绕带头增强党性、严守纪律、砥砺作风方面等“四个方面”自我对照(问题、措施)7.docx
- 2025年度民主生活会领导班子对照检查材料(“四个带头”).docx
- 国企党委书记2025年度民主生活会个人对照检查材料(五个带头).docx
- 带头严守政治纪律和政治规矩,维护党的团结统一等(四个方面)存在的问题整改发言提纲.docx
- 党委书记党组书记2025年带头增强党性、严守纪律、砥砺作风方面等“四个带头”个人对照检查发言材料.docx
- 2025年巡视巡察专题民主生活会对照检查材料.docx
文档评论(0)