AI革命的数据正在枯竭，研究人员该怎么办？.docx

下载文档

0
0
约3.21千字
约 9页
2025-01-18 发布于山西
举报
版权申诉
保障服务

AI革命的数据正在枯竭，研究人员该怎么办？.docx

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Nature研究报告：AI革命的数据正在枯竭，

研究人员该怎么办？

AI开发人员正在快速“清空”互联网中的数据，以训练诸如ChatGPT背后的大型语言模型。以下是他们试图解决这一问题的方法。

互联网是一个浩瀚的人类知识海洋，但它并不是无限的，而人工智能（AI）研究人员几乎已经将其“榨干”了。

过去十年中，人工智能的飞速进步在很大程度上依赖于扩大神经网络的规模，并使用越来越多的数据对其进行训练。这种“扩展化”方法在提高大型语言模型（LLMs）能力方面表现出了出人意料的有效性，不仅使其在模仿对话语言方面表现更为出色，还赋予了它们诸如推理等的“涌现特性”。然而，一些专家表示，

这种扩展策略的极限可能即将到来。其一是由于计算所需的能源需求急剧增加；其二则是因为LLM开发者正在耗尽用于训练模型的传统数据集。

今年，一项具有广泛影响力的研究量化了这一问题：虚拟研究机构EpochAI的研究人员预测，到2028年，用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。换句话说，大约在四年内，AI可能会耗尽可用于训练的数据（详见“数据耗尽”）。与此同时，数据所有者（如新闻出版商）也开始收紧其内容的使用规则，进一步限制对数据的访问。这种情况导致了“数据公地”规模的危机。麻省理工学院（MIT）剑桥分校的AI研究员、数据来源倡议（DataProvenanceInitiative）的负责人ShayneLongpre指出，这一现象正对AI数据集的获取产生深远影响。

即将到来的数据训练瓶颈可能已经开始显现。“我强烈怀疑这已经在发生了，”

Longpre表示。

数据耗尽

数据显示，训练大型语言模型所用的文本数据量正在逼近互联网中可用的文本数据总量，预计到2028年，开发者使用的数据集规模将等同于整个互联网可用的文本量。

虽然一些专家认为，数据访问的限制可能会减缓AI系统的快速进步，但开发者们正在寻找应对方法。“我不认为大型AI公司有人在恐慌，”EpochAI的马德里研究员、2028年“数据枯竭”研究的主要作者PabloVillalobos表示。“至少他们没有给我发过这样的邮件。”

例如，旧金山的知名AI公司OpenAI和Anthropic都已公开承认这一问题，并暗示他们已计划采用应对策略，包括生成新数据和寻找非常规数据源。OpenAI的发言人告诉《自然》杂志：“我们使用了多种数据来源，包括公开可用的数据、通过合作伙伴获取的非公开数据、合成数据生成以及来自AI训练师的数据。”

即便如此，数据短缺的危机可能会迫使生成式AI模型的类型发生巨大变革，可

能从大规模的通用LLM转向更小、更专业化的模型。

万亿级的单词数据

过去十年间，LLM的发展显示了其对数据的巨大需求。尽管一些开发者并未公布其必威体育精装版模型的具体参数，但Villalobos估计，自2020年以来，训练LLM所使用的“标记”（tokens，即词语的部分）的数量已增长了100倍，从数千亿增长到数十万亿。

这可能已经消耗了互联网中很大一部分的内容，尽管由于互联网总文本量过于庞大，精确估计仍十分困难。Villalobos估计，当前互联网的总文本量约为3,100万亿个标记。各种服务使用网络爬虫来抓取这些内容，然后消除重复内容，过滤掉不良内容（如色情内容），以生成更干净的数据集。一个名为“RedPajama”的常用数据集包含了数十万亿个单词。一些公司或学术机构也会自行爬取和清理数据，以制作专门用于训练LLM的定制数据集。互联网中只有一小部分被认为是“高质量”的，比如人类编辑的、社会可接受的文本，这些文本通常存在于书籍或新闻中。

然而，互联网可用内容的增长速度出乎意料地缓慢。Villalobos的研究估计，互联网可用内容的年增长率不到10%，而AI训练数据集的规模每年却增长一倍以上。将这两个增长趋势投射到未来的情境中，预计2028年这两条趋势线将会交汇。

与此同时，内容提供商正日益使用软件代码或修订其使用条款，以阻止网络爬虫或AI公司抓取他们的数据。Longpre和他的同事们于2023年7月发布了一份预印本，显示出数据提供者封锁特定爬虫的趋势急剧上升。2023年，在三个主要的清理后数据集中，受限制的标记仅占不到3%；但到2024年，这一比例上升到了20%到33%。

数据来源的法律诉讼

目前，关于数据使用的法律诉讼正在进行，原告试图为用于AI