大语言模型“数据为王”：训练数据的价值、迷思与数字传播的未来挑战.pdfVIP

下载本文档

3
0
约3.42万字
约 12页
2025-04-13 发布于福建
举报
版权申诉

大语言模型“数据为王”：训练数据的价值、迷思与数字传播的未来挑战.pdf

1、本文档共12页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2024年5月西北师大学报（社会科学版）May2024

第61卷第3期JournalofNorthwestNormalUniversity(SocialSciences)Vol.61No.3

大语言模型“数据为王”：训练数据的价值、迷思与

数字传播的未来挑战

胡泳，刘纯懿

（北京大学新闻与传播学院，北京100871）

［摘要］伴随着ChatGPT的问世和流行，关于生成式人工智能的意涵和影响迅速成为学界和业界的关注焦点。在这

场由大语言模型引领的非监督性深度学习浪潮中，一个核心议题就是训练数据。对训练数据的规模和质量的追求，演

绎了“万模大战”形势下的“数据为王”法则。而在训练数据的价值、功能和误读的背后，是对数据概念的改写、对

数据可供性的迷信和对数据所有权的争夺。训练数据的具体架构和内部机制引发了智能传播生态的重建和信息生产秩

序的重构，在这一变革之中也蕴藏着大语言模型时代的数字危机，其具体体现为蒸馏式传播的偏见再生产、过滤式传

播的信息保守化和随机性传播的意义之消散。大语言模型及其训练数据急需破除规模迷思，着重思考如何让数据切实

成为社会技术系统的一部分。

［关键词］大语言模型；训练数据；生成式AI；ChatGPT；智能传播

［中图分类号]］G206［文献标识码］A［文章编号］1001-9162（2024)03-0043-12

[DOIJ10.16783/ki.nwnus.2024.03.005

变化。大语言模型是语言模型的一个子集，根据数

引言

据科学研究者的定义，语言模型就是根据一些训练

自2022年11月OpenAI首次向公众开放聊天机数据，为一段从未出现过的文本匹配一个概率[1］

器人ChatGPT以来，不管是科技精英、媒体从业（PP.1591一1594）。正如信息理论家、自然语言处

者还是普罗大众都惊叹于这一被称为大语言模型理研究者弗雷德里克·耶利内克（Frederick

（largelanguagemodel，LLM）的生成式人工智能Jelinek）所说，语言模型的任务是为识别器

所拥有的类人智慧、应用前景和社会潜力。不仅（recognizer）提供关于概率的充分估计，并在上个

Alphabet、Meta、亚马逊和英伟达等全球科技巨世纪末就展示了如何直接从训练数据计算其参数，

头都训练了自已的大语言模型，并给予它们以诸如1(PP.57-76)

使其适合当前识别任务的文本。2］

PaLM、Titan、Megatron、Chinchilla等令人眼花语言模型的研究开始于语言生成概率模型的研究。

缭乱的命名，那些尚未加人这场“万模大战”的新大语言模型之“大”在于它不断扩展的规模，而对

型公司和传统企业也正在围绕生成式革命而重新部于规模的追求则源自于语言模型的缩放法则

署、设计、规划产品和未来商业模式。然而，在大（scalinglaw），即语言模型的性能依赖模型的规

语言模型和生成式人工智能一路高歌猛进的过程模，具体包括：参数数量、训练数据的大小和计算

中，也始终充斥着担忧和批判的声音，其中一种强量，最终的模型效果会随着以上三个因素的指数增

烈的声音指向一个似乎已成共识的问题，那就是大加而得到显著提高。3］这就意味着，若想提高语

语言模型之“大”。言模型的性能，可以通过提高模型的参数量、扩大

若想理解大语言模型饱受争议的原因和根本，训练数据的规模来实现。而当规模超过某个临界阈

首先要弄清其前所未有的特征和这些特征所带来的值时，模型的性能会显著高于此前的随机效果，这

[收稿日期］2024-02-07

［第一作者简介

您可能关注的文档

文档评论（0）

乡村振兴、双碳、储能、绿色金融 + 关注: 实名认证

服务提供商

新能源知识科普（本账号发布文档均来源于互联网公开资料，仅用于技术分享交流，相关版权为原作者所有。如果侵犯了您的相关权利，请提出指正，我们将立即删除相关资料）。

咨询作者（16人已咨询）服务中

1亿VIP精品文档

更多 >

大语言模型“数据为王”：训练数据的价值、迷思与数字传播的未来挑战.pdfVIP