赛迪前瞻2024年第33期（总873期）：人工智能语料库发展趋势和建议.docx

下载文档

0
0
约3.24千字
约 16页
2024-12-16 发布于山西
举报
版权申诉
保障服务

赛迪前瞻2024年第33期（总873期）：人工智能语料库发展趋势和建议.docx

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

-1-

2024年11月29日第33期总第873期

人工智能语料库发展趋势和建议

人工智能（AI）语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合，是人工智能领域研究和应用的基础数据。目前，国际主流大模型训练语料库以英文语料为主，中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。赛迪研究院建议加快专业语料库建设，提升语料数据质量；优化基础设施建设，维护语料数据安全；完善语料生态环境，构建评估作价体系。

-2-

一、语料库是AI模型开发的基石，国内外AI语料库在数据规模、语料质量和开源共享方面存在差距

大规模、高质量的语料数据是训练和评估模型的基础。一是

从海量语料数据中提取语法结构、语义特征能够提升模型泛化性和准确性。OpenAI基于3000亿单词和超过40TB语料训练GPT-3模型，能够准确理解用户问题并生成自然流畅的文本内容。谷歌使用涵盖书籍、新闻等广泛领域的海量文本训练BERT模型，使其文本翻译、情感识别等任务的准确度提高。二是高质量语料可以提高模型性能和训练效率。谷歌PaLM2模型采用包含多种语言和科学数据的改进语料库训练，其翻译、推理、代码生成能力得到显著提升。三是专业领域语料库驱动AI技术创新和应用落地。通用语料库难以满足特定专业领域需求，通过收集医疗、金融等专业领域的术语和概念扩展专业领域语料库，加速相关领域算法创新和应用推广。

国外语料库在数据规模、开源建设和应用场景方面具有先发优势。一是英文语料库数据规模庞大，语料来源渠道丰富。GPT-3训练语料CommonCrawl广泛收集了来自网页文本、书籍和学术论文等多渠道的文本数据，数据规模达到拍量级（1PB=220GB）。

-3-

华盛顿大学等高校机构组织构建的开源数据集MINT-1T，包含一万亿文本构建块和三十亿图像。二是英文AI语料库在标准化建设和开源共享方面拥有优势。欧洲语言资源协调机构通过制定数据采集、标注和共享标准，整合欧洲各国及全球范围内的语料资源，推动语料库规范化发展。谷歌、微软等科技巨头允许开发者通过应用程序开发接口访问其语料库。三是国外企业和研究机构正加大对多模态AI语料库的建设力度。多模态AI语料库能够提升模型处理复杂任务和跨领域应用的能力。Meta借助社交平台积累多模态语料提升模型对图像的理解能力，并将其集成在智能眼镜上。亚马逊通过构建语音语料库，推动其语音助手在智能家居和语音交互领域的应用。

国内企业和研究机构积极跟进中文AI语料库建设。一是中文AI语料库在数据规模和多样性方面取得显著进展。中国大模型语料数据联盟发布“书生·万卷”多模态语料库，涵盖来自网页、书籍、百科等不同来源的清洗后预训练语料，数据规模超2TB。智源研究院联合多家数据单位建设全球最大中文语料数据库WuDaoCorpora，涵盖1.2TB中文文本数据、2.5TB中文图文数据。二是特定行业或专业领域的中文AI语料库建设已初具规模。科

-4-

大讯飞构建用于训练和优化语音识别模型的语料库，包含多种语言、方言和口音的数据。上海交通大学创建包含6种语言和21种医学子课题的多语言医疗语料库，用于提高医疗诊断模型的准确度。南京大学以法律文书、司法考试为基础构建法律领域对话数据集，以提高模型对法律内容的理解能力。三是高质量中文语料短缺是当前亟待解决的问题。现有中文语料来源广泛但质量参差不齐，未经清洗包含错别字、语法错误和价值观偏见的语料会影响模型训练效果。此外，我国语料库建设规范性不足，数据标注标准不一、语料库结构差异明显以及相关企业共享意愿不足，导致高质量中文语料积累薄弱。

二、AI语料库面临的三大挑战

语料收集受限于数据来源、版权以及隐私保护法规。一是语料来源的单一性限制了对多样化、高质量文本数据的获取。尤其在特定专业领域语料资源匮乏的情况下，难以收集足够的文本数据来训练更具泛化性的AI模型。二是版权问题增加了语料收集的难度。文本资源通常受到版权保护，未经授权的使用可能引起法律纠纷，也限制了研究人员和开发者对语料的获取和使用。三是隐私保护法规对语料收集提出了严格要求。例如，欧盟《通用

-5-

数据保护条例》规定在处理涉及个人信息的数据时，必须确保匿名化或得到数据主体的明确同意，否则将面临法律风险，同时增加了语料收集的成本。

语料数据的清洗和标注需要投入大量人力成本。一是语料清洁性是语料库建设、流通和使用的前提。对收集到的原始语料进行