- 1、本文档共25页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1
中文信息处理与汉语研究—— 现状和发展
詹卫东
北京大学中文系
北京大学汉语语言学研究中心北京,100871
zwd@
/doubtfire/
全国语言文字信息化工作会议 · 湖南 · 长沙 · 2003.10.5 - 10.6
2
提 纲
中文信息处理研究的格局
中文信息处理的现状和发展趋势
语言知识资源的建设
面向中文信息处理的汉语研究
3
一 中文信息处理研究的格局
信息的两个层次:符号层 —— 中文 / 汉语 / 汉字内容层 —— 符号所承载的意义
中文信息处理的两个层次:字符处理(输入、存储、输出等)内容处理(词语切分,词性标注,结构分析,意义理解,推理,翻译……等等)
(信号 vs. 信息)
4
符号层的信息处理
拼音文字:小字符集 —— 比较容易
非拼音文字:大字符集 —— 难度很大
汉字是一个大字符集
《说文解字》(东汉):9353字
《玉篇》(南朝)收录16,917字
《广韵》(宋代)收字26,194字
《字汇》(明朝)收录33,197字
《康熙字典》(清朝)收录47,043字
《汉语大字典》(1992年)5.6万
《中华字海》( 1994年) 8.6万
拉丁字母只有26个符号
斯拉夫字母只有33个符号
阿尔明尼亚字母只有38个符号
泰米尔字母只有36个符号
缅甸字母只有52个符号
泰文字母只有44个符号
老挝字母只有27个符号
藏文字母只有35个符号
韩文字母只有24个符号
日文假名只有48个符号
5
符号层的信息处理
汉字输入
自动输入
键盘输入
字形识别
声音识别
手写体识别
印刷体识别
在线手写
脱机手写
整字键盘
通用键盘
主辅式
感应式
形码
音码
形音结合码
1
2
3
4
5
6
7
8
9
6
内容层的信息处理
形态丰富的语言(inflecting language):处理难
形态不丰富的语言(analytic language):处理更难
汉语
英语
老师都来了
All professors came here.
张老师都来了
Even Professor Zhang came here.
编辑工作很难
Editing is very difficult.
如何当好编辑
How to become a good editor
7
内容层的信息处理
机器翻译全过程
8
内容层处理对符号层处理的反作用
9
内容层处理对符号层处理的反作用
10
内容层处理对符号层处理的反作用
11
内容层处理对符号层处理的反作用
12
二 中文信息处理的现状和发展趋势
现状符号层的处理成果已经得到广泛应用;中文输入/字库/字处理软件/排版/……内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索
13
系统演示
北京大学现代汉语分词/词性标注/句法分析系统(孙斌、刘群、常宝宝、詹卫东等)
/nlp-tools/segtagtest.htm
(北大计算语言所网上分词、标注、注音系统)
14
中文信息处理的发展趋势
发展趋势信息产品的多样化网络的迅速发展积累更多基础资源,开发更多应用系统。内容层的处理将受到越来越多的重视
信息家电,内容计算,……
15
三 语言知识资源的建设
现代汉语语法信息词典
基于配价理论的现代汉语语义词典
现代汉语短语结构信息库
2700万字现代汉语分词与词性标注语料库
句子对齐的汉英双语语料库
现代汉语树库
现代汉语短语结构规则库
16
资源演示
现代汉语语义词典(詹卫东、王惠等)
汉英平行语料库(常宝宝、柏晓静等)
现代汉语树库(詹卫东、常宝宝等)
17
四 面向中文信息处理的语言学研究
充分重视各个层次上的语言歧义研究
拓展语言现象的研究面
强调研究结果的可操作性,推动语言知识的形式化、系统化和规模化
加强语言知识库的工程建设,为中文信息处理(内容层的处理)积累更多基础资源
18
歧义示例
张 店 区 大 学 生 不 看 重 大 城 市 户 口
19
歧义示例(续)
有 三 百 多 种 树
20
歧义示例(续)
请 转告 李宇明 司长 下午 三点 出发
v v n n t t v
21
要让计算机“理解”一个句子,实际上要解决下面两个核心问题:
(1)一个句子的结构和意义是什么?
(2)如何得到一个句子的结构和意义?
第一个问题是“What”的问题,这是理论语言学关心的问题;
第二个问题是“How”的问题,这是计算语言学关心的问题,也就是面向中文信息处理的语言研究需要关心的问题
您可能关注的文档
- 当代汉语出版物中最常见的100个别字.pptx
- 人力资源管理教程劳动关系.pptx
- 世界经济的均衡.pptx
- 国际市场营销组合策略之国际市场促销策略.pptx
- 会计信息系统传统内容及题型示范.pptx
- 九年级语文老顽固傅雷.pptx
- 古代文学两汉文论.pptx
- 中国经济与产业发展展望.pptx
- 如何判断晚霞红景观石的使用年限及耐久性.pptx
- plc系统工程设计.pptx
- ASME培训教程 ASME规范第VIII-1卷--压力容器.pdf
- SQLServer2000网络数据库教程 第9章 存储过程和触发器.pdf
- 第1章 各类有机化合物的命名.pdf
- 第五章 微生物的代谢.pdf
- 2023-2024学年六年级语文下册第四单元测试题(有答案).pdf
- 2021国开电大《公共部门人力资源管理》形考任务1答案 .pdf
- C321003【冲刺】2024年军事科学院704军事科学院基础医学综合《704军事完整版720961.pdf
- 2023年广东省学业水平测试物理答案.pdf
- 山西省长治市部分学校2023-2024学年高一10月联考语文试题(解析版)完整版.pdf
- 工作收入证明模板(共16篇) .pdf
文档评论(0)