人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

菲梦 2024-05-03 阅读:261 评论:0

作者：马特·奥布莱恩像 ChatGPT 这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上书写和分享的数万亿字。研究小组 Epoch AI 周四发布的一项新研究预计，科技公司将在大约本世纪之交（2026...

作者：马特·奥布莱恩

像 ChatGPT 这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上书写和分享的数万亿字。

研究小组 Epoch AI 周四发布的一项新研究预计，科技公司将在大约本世纪之交（2026 年至 2032 年之间的某个时间）耗尽人工智能语言模型的公开训练数据供应。

该研究的作者之一塔梅·贝西罗格鲁（Tamay Besiroglu）将其与耗尽有限自然资源的“名副其实的淘金热”进行比较，他表示，一旦耗尽了人类创造的文字储备，人工智能领域可能会面临维持当前进展速度的挑战。

短期内，像 ChatGPT 制造商 OpenAI 和谷歌这样的科技公司正在竞相获取高质量的数据源，有时甚至为此付费，以训练他们的人工智能大型语言模型，例如，通过签署协议来利用即将到来的稳定的句子流。来自 Reddit 论坛和新闻媒体。

从长远来看，不会有足够的新博客、新闻文章和社交媒体评论来维持人工智能当前的发展轨迹，这会给公司带来压力，要求它们利用现在被视为私有的敏感数据（例如电子邮件或短信）或依赖于聊天机器人本身吐出的不太可靠的“合成数据”。

“这里存在严重的瓶颈，”贝西罗格鲁说。 “如果你开始遇到关于拥有多少数据的限制，那么你就无法再有效地扩展你的模型。而扩展模型可能是扩展模型能力和提高输出质量的最重要方法。 ”

研究人员在两年前（ChatGPT 首次亮相前不久）在一份工作论文中首次做出了预测，预测 2026 年高质量文本数据的中断将迫在眉睫。从那时起，发生了很多变化，包括新技术使人工智能研究人员能够更好地利用他们已有的数据，有时甚至在同一来源上多次“过度训练”。

但也存在局限性，经过进一步研究，Epoch 现在预计公共文本数据将在未来两到八年内耗尽。

该团队的最新研究经过同行评审，并将于今年夏天在奥地利维也纳举行的国际机器学习会议上发表。 Epoch 是一家非营利机构，由总部位于旧金山的 Rethink Priorities 主办，并由有效利他主义的支持者资助，有效利他主义是一项慈善运动，投入大量资金来减轻人工智能最坏情况下的风险。

贝西罗格鲁表示，人工智能研究人员十多年前就意识到，积极扩展两个关键要素——计算能力和大量互联网数据存储——可以显着提高人工智能系统的性能。

更多信息： Pablo Villalobos 等人，我们的数据会用完吗？基于人类生成数据的 LLM 扩展的局限性， arXiv （2022）。作者：10.48550/archiv.2211.04325

期刊信息： arXiv