国家语言监测与研究中心网络媒体语言分中心.DOC

国家语言监测与研究中心网络媒体语言分中心.DOC

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国家语言监测与研究中心网络媒体语言分中心

国家语言资源监测与研究中心网络媒体语言分中心 National Language Resources Monitoring and Research Center(CNLR)Network Media Branch / 分中心简介 国家语言资源监测与研究中心网络媒体语言分中心成立于2005年2月,由教育部语言文字信息管理司与华中师范大学共建。 建设目标:形成网络媒体语言资源监测的常态机制,构建动态、实时的超大规模网络媒体监测语料库,及时跟踪分析国家网络媒体语言生活实态,开展基于内容的信息检索及内容服务研究、服务于国家网络文化安全、国家语言政策制定、中文信息处理、语言教学与语言研究、数字化学习行为监测等。 主要工作 1. 年度汉语盘点 “汉语盘点-用一个字、一个词描述中国和世界”网络征集活动由国家语言资源监测与研究中心网络媒体语言分中心、商务印书馆、新浪网联合主办。该活动自2006年启动实施,已成功举行了五届。 2006年,“炒”、“和谐”与“乱”、“石油”分别当选中国和世界的关键字、词。 2007年,“涨”、“民生”与“油”、“全球变暖”分别当选中国和世界的关键字、词 2008年,“和”、“改革开放30年”与“争”、“华尔街风暴”分别当选中国和世界的关键字、词 2009年,“被”、“民生”与“浮”、“金融危机”分别当选中国和世界的关键字、词 2010年,涨”、“给力”与“乱”、“军演”分别当选中国和世界的关键字、词。 2.网络舆情监测 (1)网络媒体监测语料库建设 本中心从2005年开始建设汉语网络媒体语料库,提出了面向论坛、博客、及新闻语料的适应性采集策略,实现了异构网络媒体语料的有效获取。目前语料库规模已超过两千万篇,超过 187 亿字符次,且每年以近200万篇的速度增加。 (2)网络媒体监测分析系统 该系统提供模板化的信息采集定制方式,可以用户指定的网站作为信息来源,并可根据用户自定义的主题采集信息。同时,该系统提供基于自然语言处理技术的深层次数据挖掘及监测方式,可依据不同主题内容进行深度分析、挖掘,并支持实时的信息检索、分析、过滤,以及支持历时的信息对比、趋势分析,为政府政策的制定及企业决策提供更加全面客观的依据。 网络媒体监测系统 话题定制与分析 网络热点事件自动跟踪 网络新词和流行词发现 (3)网络媒体语言统计分析调查 基于网络媒体监测语料库,对网络语言进行定量的统计与定性的分析,参与撰写《中国语言生活状况报告》,已发布的一系列报告反映了网络媒体语言的必威体育精装版变化。 《中国语言生活状况报告2005》 “高校网络媒体BBS用字用语调查报告” 《中国语言生活状况报告2006》 “中文网络用字用语调查报告” “中文博客用字用语专项调查报告” “中文BBS用字用语专项调查报告” 参与汉语年度新词语的调查报告 《中国语言生活状况报告2007》 “中文网络用字用语调查报告” “年度关键、词语及解读” 参与年度流行语与新词语的调查报告 《中国语言生活状况报告2008》 “中文网络用字用语专项调查报告” 参与年度流行语与年新词语的调查报告 《中国语言生活状况报告2009》 “中文网络用字用语调查报告” “中文博客专项调查” 参与年度流行语与年新词语的调查报告 (4)校园网络内容监测 开发了校园网络安全监测系统 主要成果 1.科研项目 国家十一五科技支撑计划课题 国家自然科学基金项目5 项 国家社会科学基金项目4 项 教育部、外国专家局111创新引智计划 教育部科学技术研究重点项目 国家语言文字应用科研项目3 项 国家“973”项目 子课题 教育部人文社科项目 教育部社科重大招标课题3项 霍英东青年基金 湖北省创新团队计划 湖北省自然科学基金 武汉市晨光计划项目 2.软件成果 开发了中文信息处理构件工具包,包含中文自动分词、术语抽取、词义消歧、文本分类等工具软件,开展了命名实体语义关系自动抽取、特定领域本体自动构造、自动文摘、自动问答、信息检索、情感计算等方面的研究,形成了一系列具有自主知识产权的成果 专利 一种基于神经网络的中文问答系统 软件著作权 中文信息处理构件工具包 社区论坛通用爬虫系统 监测语料库建立系统 热点事件查询系统 基于检索的英文自动摘要系统 基于热点事件的中文文摘系统 面向查询的多模式自动文摘系统 基于中心概念的文本聚类系统 生物医学类缩写词典自动生成系统 软件系统 自动分词、术语抽取、词义消歧、文本分类工具 自动文摘、智能问答、全文检索系统

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档