- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国家语言监测与研究中心网络媒体语言分中心
国家语言资源监测与研究中心网络媒体语言分中心
National Language Resources Monitoring and Research Center(CNLR)Network Media Branch
/
分中心简介
国家语言资源监测与研究中心网络媒体语言分中心成立于2005年2月,由教育部语言文字信息管理司与华中师范大学共建。
建设目标:形成网络媒体语言资源监测的常态机制,构建动态、实时的超大规模网络媒体监测语料库,及时跟踪分析国家网络媒体语言生活实态,开展基于内容的信息检索及内容服务研究、服务于国家网络文化安全、国家语言政策制定、中文信息处理、语言教学与语言研究、数字化学习行为监测等。
主要工作
1. 年度汉语盘点
“汉语盘点-用一个字、一个词描述中国和世界”网络征集活动由国家语言资源监测与研究中心网络媒体语言分中心、商务印书馆、新浪网联合主办。该活动自2006年启动实施,已成功举行了五届。
2006年,“炒”、“和谐”与“乱”、“石油”分别当选中国和世界的关键字、词。
2007年,“涨”、“民生”与“油”、“全球变暖”分别当选中国和世界的关键字、词
2008年,“和”、“改革开放30年”与“争”、“华尔街风暴”分别当选中国和世界的关键字、词
2009年,“被”、“民生”与“浮”、“金融危机”分别当选中国和世界的关键字、词
2010年,涨”、“给力”与“乱”、“军演”分别当选中国和世界的关键字、词。
2.网络舆情监测
(1)网络媒体监测语料库建设
本中心从2005年开始建设汉语网络媒体语料库,提出了面向论坛、博客、及新闻语料的适应性采集策略,实现了异构网络媒体语料的有效获取。目前语料库规模已超过两千万篇,超过 187 亿字符次,且每年以近200万篇的速度增加。
(2)网络媒体监测分析系统
该系统提供模板化的信息采集定制方式,可以用户指定的网站作为信息来源,并可根据用户自定义的主题采集信息。同时,该系统提供基于自然语言处理技术的深层次数据挖掘及监测方式,可依据不同主题内容进行深度分析、挖掘,并支持实时的信息检索、分析、过滤,以及支持历时的信息对比、趋势分析,为政府政策的制定及企业决策提供更加全面客观的依据。
网络媒体监测系统 话题定制与分析
网络热点事件自动跟踪 网络新词和流行词发现
(3)网络媒体语言统计分析调查
基于网络媒体监测语料库,对网络语言进行定量的统计与定性的分析,参与撰写《中国语言生活状况报告》,已发布的一系列报告反映了网络媒体语言的必威体育精装版变化。
《中国语言生活状况报告2005》
“高校网络媒体BBS用字用语调查报告”
《中国语言生活状况报告2006》
“中文网络用字用语调查报告”
“中文博客用字用语专项调查报告”
“中文BBS用字用语专项调查报告”
参与汉语年度新词语的调查报告
《中国语言生活状况报告2007》
“中文网络用字用语调查报告”
“年度关键、词语及解读”
参与年度流行语与新词语的调查报告
《中国语言生活状况报告2008》
“中文网络用字用语专项调查报告”
参与年度流行语与年新词语的调查报告
《中国语言生活状况报告2009》
“中文网络用字用语调查报告”
“中文博客专项调查”
参与年度流行语与年新词语的调查报告
(4)校园网络内容监测
开发了校园网络安全监测系统
主要成果
1.科研项目
国家十一五科技支撑计划课题
国家自然科学基金项目5 项
国家社会科学基金项目4 项
教育部、外国专家局111创新引智计划
教育部科学技术研究重点项目
国家语言文字应用科研项目3 项
国家“973”项目 子课题
教育部人文社科项目
教育部社科重大招标课题3项
霍英东青年基金
湖北省创新团队计划
湖北省自然科学基金
武汉市晨光计划项目
2.软件成果
开发了中文信息处理构件工具包,包含中文自动分词、术语抽取、词义消歧、文本分类等工具软件,开展了命名实体语义关系自动抽取、特定领域本体自动构造、自动文摘、自动问答、信息检索、情感计算等方面的研究,形成了一系列具有自主知识产权的成果
专利
一种基于神经网络的中文问答系统
软件著作权
中文信息处理构件工具包
社区论坛通用爬虫系统
监测语料库建立系统
热点事件查询系统
基于检索的英文自动摘要系统
基于热点事件的中文文摘系统
面向查询的多模式自动文摘系统
基于中心概念的文本聚类系统
生物医学类缩写词典自动生成系统
软件系统
自动分词、术语抽取、词义消歧、文本分类工具
自动文摘、智能问答、全文检索系统
文档评论(0)