- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
「資訊處理用中文分詞規範」設計理念及規範內容-AcademiaSinica
「資訊處理用中文分詞規範」設計理念及規範內容
黃居仁*. 陳克健**. 陳鳳儀**.魏文真**.張麗麗**
*中央研究院語言學研究所籌備處
**中央研究院資訊科學研究所
摘 要
「資訊處理用中文分詞規範」有下列兩個突破:(1)提出分級的觀念及確立信、達、雅三級的標準。最容易達到的信級訂為基本資料交換的標準;技術上較難,但自動分詞程式仍可達到的達級作機器翻譯、資訊檢索等自然語言處理的標準;至於最需要人工分詞才能達到的雅級則視為電腦處理、理解中文之最高目標。(2)把分詞規範分成不變核心(分詞單位定義及基本原則),以及可變準則(輔助原則)。在確定分詞規範架構後,只要定時更新基本詞庫或特殊領域的專門詞庫,便可維持分詞規範的不變性。
規範制定的過程
根據美國資訊專業期刊 (AI Trend 1991) 的預測,隨著自然語言處理技術日趨成熟,相關軟體產品的研發將成為未來資訊產品的主要潮流。一個明顯的例子如蘋果電腦已推出能辨認英文語音指令的個人電腦,另外Thinking Machine公司已發展出能以近似自然語言查詢全文資料庫的WAIS全文檢索系統。不過,中文在這些方面的產品開發上仍遠落後於西方語言。
中文在自然語言處理方面有一個很不便的地方就是中文詞和詞之間在書寫時傳統上並不斷開(如西方語言多半以間距標示詞的界限),因此在詞的界限上很難有一個簡單清楚的區分,這使得中文在自然語言處理時必須增加分詞這個程序而影響了相關軟體產品的研發。然而詞的界定問題不但一般使用者無從依循,連漢語語言學家至今仍無定論。
有鑑於制訂分詞標準的重要性,大陸方面在1989年制訂【信息處理用現代漢語分詞規範】,並於1993年上報為(GB)標準。台灣的計算語言學會(ROCLING)在1991年開始草擬分詞規範,初步訂定了中文分詞的原則,並於1995年下半年起接受中央標準局的委託,進行中文分詞規範的建立,研擬「資訊處理用中文分詞規範」,希望能為中文資訊科技提供一套通用的參考,減少彼此之間的差異,為自然語言處理環境奠定良好基礎。由於海峽兩岸用語多少有些不同,而且為因應中文自然處理的個別需求,這兩套規範之間雖然精神雷同卻有些技術上的差異。
分詞規範的研擬分為兩種方式進行,一方面是邀請台灣知名的學者專家召開討論會,就其專業領域的角度,對分詞規範的大方針進行討論;另一方面則是中央研究院詞庫小組根據分詞規範,實際從事語料分析,從上百萬的語料中,整理出分詞標準的細節規定。為此,我們特別在計算語言學通訊開闢「『搜』文解字」專欄,針對值得重視的分詞現象提出討論,廣邀各方意見。相信「資訊處理用中文分詞規範」的擬定對於未來「資訊用分詞國家標準」的實施有實質的助益,能有效推動中文資訊界技術發展。
二、制定規範的設計指導原則
為了因應自然語言處理的需求,在制定分詞規範時,有三個要件缺一不可。亦即(1)必須符合語言學理論要求、(2)在資訊處理上確實可行、和(3)確保實際文本資料一致性。這是我們制定「資訊處理用中文分詞規範」時的指導原則。也因有了這三條指導原則,本規範與大陸出版【信息處理用現代漢語分詞規範】有以下三條較不同的思考方式。
GB【信息處理用現代漢語分詞規範】所規範的不是「詞」,僅僅只是供信息處理用的「分詞單位」。而且,在詞的辨認上由於沒有最高指導原則,許多問題處理難免會有前後矛盾情形產生。或是理由不清,必需直接規定的武斷作法。它的作法是依個別詞型,考慮機器處理的方便可行,分別規定其切分標準。它並不定義詞,也不提出辨詞的最高原則。
由於是依個別詞型一一規範,凡是沒有規範到的或規範不夠清楚的部分都成了分詞規範的死角。例如:這套分詞規範並沒有談到動後修飾詞之分詞辦法。又例如該規範對偏正式複合詞(包含名詞和動詞)的說明不夠清楚,只以「結合緊密、使用穩定」來規範,無法當作一個明確可行的規範。
【信息處理用現代漢語分詞規範】並未對自動分詞的技術瓶頸深入探究,只是在擬定個別詞型切分原則時考慮了自動分詞的可行性。但是電腦技術日新月異,現在看來不易處理的問題將來也許都可迎刃而解,那豈不又要修改分詞規範了?我們認為分詞草案中提出的層次劃分的概念才能徹底有效掌握自動分詞上的技術困難。
計算語言學學會的「資訊處理用中文分詞規範」如何達成此三項指導原則的要求呢?以下分項說明之。
1. 符合語言學理論之要求
訂定分詞規範的首要工作是定義切分字串的基本單位,對資訊處理而言,所謂的詞是以何為依據?我們定義一個具有獨立意義,且扮演特定語法功能的字串應視為一個詞。雖然沒有使用語言學專門術語來定義切分單位,但是根據定義,動詞、名詞、副詞、定詞、量詞、介詞、方位詞、連接詞、語助詞、感歎詞皆可依類一一斷開。另外,像動詞、名詞,或是結構複雜字串的判定較複雜,需要細則來規範其分合標準。因此除了定義外,必須
您可能关注的文档
- TCL基本語法與指令.doc
- Swishpix動態電子相簿.ppt
- T05对象关系研究与异常处理机制.p.ppt
- TGH中的多通道交互-软件学报.doc
- SONY-A1XLR操作設定.ppt
- Tenda腾达无线路由器设置图解.doc
- TsinghuaUniversityLibrary-科学网—群组.ppt
- TVBS節目訊號衛星暨IP光纖傳送網路.doc
- TFT-LCD的成長.ppt
- uCosII在AM1808上的移植.doc.doc
- GB/T 45498.2-2025中华人民共和国社会保障卡一卡通规范 第2部分:应用规范.pdf
- GB/T 37507-2025项目、项目群和项目组合管理项目管理指南.pdf
- 《GB/T 45498.3-2025中华人民共和国社会保障卡一卡通规范 第3部分:安全规范》.pdf
- 中国国家标准 GB/T 37507-2025项目、项目群和项目组合管理项目管理指南.pdf
- 中国国家标准 GB/T 20236-2025非金属材料的聚光加速户外暴露试验方法.pdf
- 《GB/T 20236-2025非金属材料的聚光加速户外暴露试验方法》.pdf
- 《GB/T 9065.2-2025液压传动连接 软管接头 第2部分:24°锥形》.pdf
- 中国国家标准 GB/T 33523.600-2025产品几何技术规范(GPS) 表面结构:区域法 第600部分:区域形貌测量方法的计量特性.pdf
- 《GB/T 33523.600-2025产品几何技术规范(GPS) 表面结构:区域法 第600部分:区域形貌测量方法的计量特性》.pdf
- GB/T 33523.600-2025产品几何技术规范(GPS) 表面结构:区域法 第600部分:区域形貌测量方法的计量特性.pdf
文档评论(0)