大数据背景下文本语料预处理技术项目探析.docx

大数据背景下文本语料预处理技术项目探析.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

大数据背景下文本语料预处理技术项目探析

?

?

许越黄思缘吴佳怡顾秦王络

摘要随着计算机智能化技术发展的提升,越来越多的人有条件利用智能设备进行网上娱乐活动。但随着用户数量的增加,评论区会出现一些不文明、不理智的发言。本项目将通过对于不文明用语的及时识别和屏蔽,降低用户在网络上与其他用户起冲突的可能性,也在一定程度上减轻了网络不文明现象可能给被攻击用户造成的负面心理影响。

关键词文明网络交流环境文本分析技術人工智能

:H0;TP311:A:1007-0745(2021)06-0015-03

1项目价值和意义

随着人们生活水平的不断提高,智能设备已经逐渐成为了人们生活中的必需品,越来越多的人使用智能设备在网络上通过各种软件进行线上社交活动,而在这个过程中,不可避免地会产生网络不文明用语现象。软件上的发布动态、评论、转发、聊天等功能给人们提供了一个更方便地进行思想交流的平台。但与此同时,网络的匿名性也导致了各类网络不文明现象的频发。言语上口无遮拦的攻击谩骂对网络环境和被攻击者的心理都造成了极其恶劣的影响,对于攻击者本人正确的思想道德培养也有一定的阻碍。[1]

如今,国内人工+机器的不文明用语审核方式虽已在一定程度上提升了识别效率,但仍无法赶上用户创造网络用语的速度,识别的准确度难以得到提升。且目前的机器识别方式仍较死板,只能通过简单的文本比对机械地识别出某个字或某个词,不能联系前后文本完整地识别出语句的准确含义,因此有时会导致原本不存在不文明用语的文本被错误地识别、屏蔽,给用户的线上交流带来一定困扰,也降低了用户的软件使用体验。而真正使用了不文明语言的文本也可能因为使用了替代词而没有被及时识别屏蔽,破坏了良好的网络语言环境。本项目将通过文本预处理、建立语料库、不文明用语库等方式,使用相似性比较,聚类分析等文本挖掘技术,实现对不文明用语更高速、更准确的识别处理。

本项目的意义可以体现在用户、网络平台、社会及人工智能发展四个方面:首先,对用户而言,本项目将通过对于不文明用语的及时识别和屏蔽,降低用户在网络上与其他用户起冲突的可能性,也在一定程度上减轻了网络不文明现象可能给被攻击用户造成的负面心理影响,同时能有效避免为防止踩中屏蔽词只能使用替代词进行交流的情况,增强用户的沟通效率,提升用户的软件使用体验,为交流双方提供一个更加健康的网络环境;其次,对有用户留言、评论、转发等各类功能的网络平台而言,本项目能为其提供更高效的用户留言管理方法和策略,创建良好的网络语言环境,减少人工审核不文明用语的成本。同时也能为用户创造一个更优秀、更文明的线上交流平台,提升用户的使用体验,使得用户愿意更频繁地使用该平台进行线上交流,为平台增加收益。本项目也能帮助平台通过某一词汇的提及度了解用户对于某一话题的关注度,为网络平台业务开展和话题建设打下良好的基础。增强平台对网络话题趋势的掌握度,更清晰地了解用户喜好,为软件的功能提升提供方向,吸引更多用户,最终达成良性循环;再次,对社会而言,网络肩负着引导舆论、成风化人的职责,使用文明规范的语言文字是传承文明、传播文化的基本要求。本项目能够减少网络上不文明用语的出现频率,从而减少不文明用语对社会风气产生的不良影响。同时,对于网络上数量庞大的未成年用户而言,一个文明和谐的网络语言环境会对他们的身心健康发展起到良性引导的作用。也在一定程度上降低了线上的语言暴力给用户的身心所带来的危害;最后,对人工智能的发展而言,人工智能本就是在不断学习中成长,通过对互联网上大量的语言识别样本进行学习意味着能够使人工智能更精确地识别出当前文本的真实语义,甚至识别出带有更强烈的情感色彩的调侃、讽刺等语气的文本含义,避免错误的识别屏蔽,达到优化用户体验的目的。提升人工智能在语言识别方面的成长进度,为未来人工智能的发展打下基础。

2项目设计

2.1研究对象与研究方法

项目灵感来源于大一上学期我们在思想政治课上研究的课题——上海市大学生对于网络道德的认识。该研究通过向大学生发放纸质问卷和电子问卷的方式进行调查,采取简单随机抽样的方式发放问卷。研究目的在于从整体上探究大学生对于网络道德的认知程度,从人们对于网络持有的意识态度、网上行为规范、评价选择等方面设计问卷。同时,结合了校内校外随机采访辅助前期调研,侧重对访问者在网上冲浪时对于不文明或具有煽动性的言论的真实感受。同时请大学生对于制止网络暴力给予适当的建议。希望通过丰富的问卷内容体现出大学生真实的心理状态,从而进一步探究解决网络暴力以及网络不文明现象的有效手段。

2.2样本的概况及分布

本次研究在上海立信会计金融学院等学校共发放150份纸质调查问卷,有效问卷112份。在性别比例上,参与调查的男生占20%,女生占80%。其中大一学生为本次研究着重调查

文档评论(0)

135****0879 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档