网站大量收购独家精品文档,联系QQ:2885784924

单词与词组的处理与分析课件.pptVIP

单词与词组的处理与分析课件.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共85页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

我們最後來討論任何使用語用資訊:所謂語用資訊,就是必須結合上下文不同的情況的資訊才能確定語句含義。歧義切分字段“乒乓球拍”僅只根據詞法、句法和語義知識,都不足以判斷賣完的東西究竟是“乒乓球”還是“乒乓球拍”,這時,就得根據語言交際的具體環境的語用方面的知識,才能決定究竟什麼才是正確的切分。例中的歧義切分字段“美國會”,僅只根據詞法、句法和語義知識,也不足以判斷採取措施提高工業競爭力的是“美國”還是“美國會”,這時,就得根據語言交際的具體環境的語用方面的知識,才能作出正確的切分。在上面的例中的歧義切分字段“和尚”,如果僅只根據詞法、句法和語義知識,也不足以判斷古代廟宇是“和尚”使用還是“尚”使用的,這也只好根據語言交際的具體環境的語用方面的知識,才能作出正確的切分。根據上面所述的歧義切分字段的性質,可以把它們分為4種不同的類型:(l)利用詞法知識就能判斷的歧義切分字段,叫做詞法歧義字段。(2)利用句法知識才能判斷的歧義切分字段,叫做句法歧義字段。(3)利用語義知識才能判斷的歧義切分字段,叫做語義歧義字段.(4)利用語用知識才能判斷的歧義切分字段,叫做語用歧義字段。在這其中,詞法歧義字段與交集型歧義切分字段完全對應,其餘三類則與多義組合型歧義切分字段相對應。5.3詞語的排序,檢索,詞庫5.3.1詞語的排序,檢索簡敘漢語的詞語由漢字組成,詞語的數量大,僅常用詞條將達到4萬左右。要使自動翻譯快速、有效,必須對大量的詞條使用好的排序和檢索演算法進行處理.按漢字筆劃權值對詞語進行排序是根據辭海筆劃查字表中的漢字排列來定義漢字的類,再給每一類漢字賦一個數值,這個數值就稱為該漢字的筆劃權值。由於漢字筆劃權值不超過787個,採用映射式排序演算法是好的方法。而檢索方法採用直接映射式字元檢索演算法。5.3.2詞庫設計原則(1)略縮詞詞典例如英語文句中經常出現的a.m;當自動切分句子遇到帶.的詞時,通過查找略縮詞詞典時,找出相對應片語。(2)省略詞詞典如英文的its;theyve等。當自動切分句子遇到帶的詞時,通過查找省略詞詞典時,找出相對應片語。(3)特殊詞典如英語的介詞,副詞,連詞等,用法非常靈活,在不同語言條件下,由於其前後搭配成份不同,其中文譯文和中文生成的詞序都很不一樣,極易產生歧義,而且這類詞的頻率極高.對這些結構詞進行特殊處理,對提高譯文處理品質是十分重要的。(4)專業詞典為使翻譯能根據不同專業有更準確的譯文,應建立專業詞典。5.4詞語的分類與兼類問題5.4.1詞語的分類在目前情況下,自然語言資訊處理的技術水準要求對每個詞語給出它的詞類(範疇)乃至次範疇分類,語言學理論與資訊處理技術之間有著明顯的差距。為滿足機器翻譯的實用需求,也為了更深入研究,機器詞典將所收的詞語及符號劃分為26類,它們名稱及代碼如下:名詞n,時間詞t,處所詞s.方位詞f,數詞m,量詞q,區別詞b,代詞r,動詞v,形容詞a,狀態詞z,副詞d,介詞p,連詞c,助詞u,語氣詞y,象聲詞o,嘆詞e,首碼h,尾碼k,成語i,簡稱略語j,慣用語l,語素g,字x,標點符號w。當然,由於沒有一個統一的標準,可能這一種劃分與其它文獻中的劃分可能有不同之處。這並不影響實際使用,但是我們應用時要注意這個問題。顯然,僅僅規定出這些詞類還遠遠不夠,更重要的是要決定詞典中的每一個具體的詞屬於哪一類。這的確是一件頗費斟酌的事,特別是一些名詞、動詞、形容詞、狀態詞、區別詞、副詞的辨別可以說是相當困難的。儘管詞典中的詞語數目是有限的,儘管有判別準則,儘管研究者親自確定詞語的歸類,但是仍有少數詞一時仍難以決定下來。機器只有用語法方法對這些問題作必要的處理。當然,這也為進一步研究準備了條件。隨著人們多年研究的深入,

文档评论(0)

子不语 + 关注
官方认证
服务提供商

平安喜乐网络服务,专业制作各类课件,总结,范文等文档,在能力范围内尽量做到有求必应,感谢

认证主体菏泽喜乐网络科技有限公司
IP属地山东
统一社会信用代码/组织机构代码
91371726MA7HJ4DL48

1亿VIP精品文档

相关文档