- 1、本文档共57页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
藏语信息处理的关键技术研究-中国民族信息技术研究院.ppt
关于一般的自然语言处理系统 六、关键性的基础技术 藏语标准的词典资源和语料库资源的建设 藏语短语分析和句法分析 藏语词义消歧和语义分析 藏汉藏英双语语料库句对齐、词对齐技术 翻译知识的自动获取技术 藏语语音识别中非特定人自适应 藏语语音识别中的结构化语言模型 藏语语音合成中的韵律模型技术,包括停顿和重音的标注与生成问题 海量文本数据的高速索引、匹配技术 六、关键性的应用技术 藏语言键盘手写语音统一输入系统技术 噪声背景下非特定人连续语音识别技术 高自然度情感语音合成技术 视频中文字图像的识别以及相应的视频分类检索技术 专用领域的全自动机器翻译和通用领域的辅助翻译技术 口语语音学习及校正技术 智能型问答式信息检索技术 跨语言、多语言信息检索以及语音检索技术 互联网藏文信息采集、过滤、分类、跟踪、汇总等技术 垃圾邮件(藏文)过滤技术 藏文文编码字符集及其配套标准体系工作 信息处理用藏语词类标记集规范 信息处理用现代藏语分词规范 各种藏文点阵字体标准,特别是小点阵字库标准 藏文用公文办公版式标准 信息处理用藏文术语标准 信息技术用藏文编码标准 扩充集C…… …………….. 信息处理用现代藏语分词规范标准 基于在计算机中处理藏语真实文本的需要,本规范中的符号,既要覆盖语言学意义上的词,还要覆盖比词小的单位,如前接成分(前缀)、中接成分(中缀)、后接成分(后缀)等,以及比词更大的单位,如成语、习用语、简称、略语以及标点符号、非藏文符号等。只有这样,本规范才能提供藏语信息处理所需的信息 信息处理用藏语词类标记集规范 藏语统一输入法计算应用开发模式 藏语语音识别技术 对复杂音频信号进行自动切分和信息分离的语音自动分割技术; 针对信道和噪声、说话人差异处理的声学特征鲁棒性处理及变换技术; 针对多风格、多语种的声学模型建模及区分性训练技术; 基于高阶N-gram模型的大规模语言模型训练技术; 高精度快速解码技术及多遍解码框架研究; 针对定制说话人的声学模型及语言模型自适应技术以及区分性自适应的深入研究。 基于“云计算”的语音识别技术 云计算平台的海量数据吞吐和分布式计算能力 针对包括声学特征鲁棒性处理 声学模型和语言模型训练 充分利用云计算平台具有超大规模并行运算能力的特点,在保证语音识别核心效果的前提下极大加速处理的效率,快速地完成语音识别目标模型的训练和语音识别系统的自动构建是云计算语音识别技术的重要研究内容之一。 云计算平台使得面对海量用户提供语音识别服务成为可能,面向海量用户提供个性化语音识别服务也是云计算识别技术的重要研究内容。如藏语手机短信云计算服务。 藏语语音识别技术 藏语语音云计算基础实验平台系统架构 分句处理 字符集处理 基本分词处理 衍生词处理 特殊符号处理 英文处理 未登录词识别 词类调整 多音字调整 韵律词处理 韵律短语划分 文本输入 语音树输出 后端处理 语音输出 语音合成前端内容 1、韵律标注规则 藏语语料库构建 ?????????????????????????????????? dgun khavi dus su vkhyag pas gnyid ma khug 2、韵律标注示例 藏语语料库构建 3、辅音字母和元音字母拉丁转换对应表 藏语语料库构建 藏语语音合成平台 面向互联网的藏文语音合成服务系统 几种典型应用—汉藏辅助机器翻译(1) 预处理研究 分词算法设计 后处理研究 几种典型应用—汉藏辅助机器翻译(2) 汉藏句型结构对比 汉藏翻译规则分析 汉藏句型转换算法设计 藏文句子相似度算法研究 if s!=W s=s+tmp[s] else s=s+tx[t] 几种典型应用—汉藏辅助机器翻译(3) 几种典型应用—汉藏辅助机器翻译(4) 可能形成的技术产品 具有智能输入和垃圾短信自动过滤等功能的藏语智能手机软件; 智能化的网络藏文新闻自动采集、分类、过滤、分析服务平台,包括高自然度的藏文新闻朗读系统; 特定域问答式的互联网有哪些信誉好的足球投注网站引擎; 面向藏区人的汉语外语学习辅助系统,包括听说读写等全方位的辅助学习技术,综合语言处理、语音识别与校正等多项关键技术。 可能形成的技术产品 藏语教学辅助系统; 多语种翻译设备,包括口语和书面语的翻译等; 面向企业的以文本为主要载体的内容管理、发布系统; 以语言文字语音为主要处理对象的数字图书馆系统 企业级内容安全软件,包括对垃圾邮件、黄色信息、反动信息的过滤,以及商业机密的防泄露功能 需要优先解决的几个核心问题 藏文信息处理从大处来看, 与一般的语言文字信息处理有许多相同或相一致的地方, 比如说遵循的相关理论和原则, 实现的关键技术和方法等 国际(国家)标准制定 操作系统研制,特别是藏文 Windows 系统的研制 语言资源建设 人才
文档评论(0)