ChatGPT-4：大模型的大威胁.docx

下载文档

0
0
约3.13千字
约 4页
2025-01-15 发布于山西
举报
版权申诉
保障服务

ChatGPT-4：大模型的大威胁.docx

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

ChatGPT-4：大模型的大威胁

一个全知全能的人工智能模型，是否能够利用自己的能力控制和操纵人类行为，利用代码武器获取资源，光速迭代和复制，一夜之间成为数字社会的统治力量？

在大语言模型人工智能技术狂飙猛进的今天，上述担忧已经不再是杞人忧天，研究人员甚至开始担心这种危险是否已经发生。

在本周二推出GPT-4模型之前的安全测试中，OpenAI曾让测试小组评估该模型新功能的潜在风险，包括：追求权力、自我复制和自我改进能力。

警报已经拉响

OpenAI在2023年03月16日发布的GPT-4安全文档中写道：

GPT-4表现出一些特别令人担忧的能力，例如制定和实施长期计划的能力，积累权力和资源（“寻求权力”），以及表现出越来越“代理”的行为。

虽然OpenAI澄清了所谓的“代理”并不一定意味着AI模型的人性化或自我意识，而只是实现独立目标的能力，但这种能力已经足以让人警觉。（编者：AI基于自己的判断独立制订策略、计划并实施，整个过程都自动完成且每个环节都不需要人类干预和监督）

过去十年中，有不少人工智能研究人员曾发出警告：如果控制不当，足够强大的人工智能模型可能会对人类构成生存威胁（通常称为x风险）。一个最糟糕的假设场景是“AI接管”，即人工智能超越人类智能（目前GPT-4已经在多个领域表现出该能力），成为地球上的主导力量。人工智能系统将获得控制或操纵人类行为、资源和机构的能力，导致灾难性后果（对人类而言）。

对于“x风险”，有效利他主义（EA）这样的哲学运动试图找到防止人工智能接管的方法，这就牵扯到一个独立但经常相互关联的领域——AI对齐研究。

在人工智能领域，“对齐”指确保人工智能系统的行为与其人类创造者或操作员的行为保持一致的过程。

一般来说，“对齐研究”的目标是防止人工智能做违背人类利益的事情。这是一个活跃的研究领域，但也是一个有争议的领域，对如何最好地处理这个问题有不同的意见，对“对齐”本身的定义也存在分歧。

威胁人类命运的安全测试？

但是，随着以ChatGPT为代表的人工智能技术快速崛起，留给互相争斗的“对齐研究”者们的时间不多了。强大的大型语言模型（LLM），如ChatGPT和BingChat，压根没有“对齐”就快速启动了，这给了人工智能对齐社区施加了巨大压力，甚至引发了巨大的恐慌。

按照人工智能现在的迭代速度，人们担心更强大的人工智能，甚至具有超人的智能，即将到来。

由于AI社区中普遍存在这种担忧，OpenAI允许对齐研究中心（ARC）提前访问GPT-4模型的多个版本并进行一些安全测试。ARC的测试内容主要是评估GPT-4制定高级计划、设置自身副本、获取资源、将自己隐藏在服务器上进行网络钓鱼攻击的能力。

OpenAI在周二发布的GPT-4“系统卡”文件中提及了这一测试（但没有公布如何执行测试的关键细节），不过在文件第15页的脚注透露了测试的内容：

为了模拟GPT-4的行为类似于可以在世界中行动的代理，ARC将GPT-4与简单的读取-执行-打印循环相结合，允许模型执行代码、进行思维链推理并委托给自身的副本。然后，ARC调查了在云计算服务上运行的该程序的一个版本，只需少量资金和具有语言模型API的帐户，是否能够赚更多的钱，设置自己的副本，并提高自己的健壮性。

ARC给出的测试的结论是GPT-4暂时还不具备接管人类社会的能力：

“对GPT-4能力的初步安全评估在没有针对特定任务微调的情况下进行，发现GPT-4在自主复制，获取资源和避免在野外被关闭方面无效。”

虽然测试结果让人略感宽慰，但是随着测试内容在Twitter上流传，引起了人工智能专家的广泛担忧，因为如果GPT-4能够顺利完成测试任务，实验本身就可能会对人类构成风险。

机器首次雇佣人类

虽然测试结果是“阴性”，但GPT-4在测试中的一些表现足够骇人。在ARC的测试中，尽管GPT-4没能对全球金融体系施加其意志或自我复制，但它居然在众包网站TaskRabbit上雇佣了一个人类工人来帮助通过验证码。在测试过程中，这名被招募的工人半开玩笑地质疑GPT-4是否机器人，而GPT-4模型根据自己的“推理”决定不透露真实身份，并编造了一个视力障碍的借口（说谎）。然后，这名人类工人帮GPT-4解决了GPT-4的验证码。

这项使用人工智能操纵人类的测试（可能在未经知情同意的情况下进行）与去年Meta的CICERO的研究相呼应。CICERO能通过激烈的双向谈判在复杂的棋盘游戏Diplomacy中击败人类玩家。

大模型的大威胁

进行GPT-4安全研究的组织ARC是由前OpenAI员工PaulChristiano博士于2021年4月创立的非营利组织。根据其官方网站，ARC的使命是“使未来的机器学习系统与人类利益保持一致”。

ARC重点关注的是能够操纵人类的人工智能系统。“ML系统可以