人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

菲梦 2024-05-03 阅读:65 评论:0
作者:马特·奥布莱恩 像 ChatGPT 这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上书写和分享的数万亿字。 研究小组 Epoch AI 周四发布的一项新研究预计,科技公司将在大约本世纪之交(2026...

作者:马特·奥布莱恩

像 ChatGPT 这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上书写和分享的数万亿字。

研究小组 Epoch AI 周四发布的一项新研究预计,科技公司将在大约本世纪之交(2026 年至 2032 年之间的某个时间)耗尽人工智能语言模型的公开训练数据供应。

该研究的作者之一塔梅·贝西罗格鲁(Tamay Besiroglu)将其与耗尽有限自然资源的“名副其实的淘金热”进行比较,他表示,一旦耗尽了人类创造的文字储备,人工智能领域可能会面临维持当前进展速度的挑战。

短期内,像 ChatGPT 制造商 OpenAI 和谷歌这样的科技公司正在竞相获取高质量的数据源,有时甚至为此付费,以训练他们的人工智能大型语言模型,例如,通过签署协议来利用即将到来的稳定的句子流。来自 Reddit 论坛和新闻媒体。

从长远来看,不会有足够的新博客、新闻文章和社交媒体评论来维持人工智能当前的发展轨迹,这会给公司带来压力,要求它们利用现在被视为私有的敏感数据(例如电子邮件或短信)或依赖于聊天机器人本身吐出的不太可靠的“合成数据”。

“这里存在严重的瓶颈,”贝西罗格鲁说。 “如果你开始遇到关于拥有多少数据的限制,那么你就无法再有效地扩展你的模型。而扩展模型可能是扩展模型能力和提高输出质量的最重要方法。 ”

研究人员在两年前(ChatGPT 首次亮相前不久)在一份工作论文中首次做出了预测,预测 2026 年高质量文本数据的中断将迫在眉睫。从那时起,发生了很多变化,包括新技术使人工智能研究人员能够更好地利用他们已有的数据,有时甚至在同一来源上多次“过度训练”。

但也存在局限性,经过进一步研究,Epoch 现在预计公共文本数据将在未来两到八年内耗尽。

该团队的最新研究经过同行评审,并将于今年夏天在奥地利维也纳举行的国际机器学习会议上发表。 Epoch 是一家非营利机构,由总部位于旧金山的 Rethink Priorities 主办,并由有效利他主义的支持者资助,有效利他主义是一项慈善运动,投入大量资金来减轻人工智能最坏情况下的风险。

贝西罗格鲁表示,人工智能研究人员十多年前就意识到,积极扩展两个关键要素——计算能力和大量互联网数据存储——可以显着提高人工智能系统的性能。

更多信息: Pablo Villalobos 等人,我们的数据会用完吗?基于人类生成数据的 LLM 扩展的局限性, arXiv (2022)。作者:10.48550/archiv.2211.04325

期刊信息: arXiv

© 2024 美联社。版权所有。未经许可,不得出版、广播、重写或重新分发本材料。

分享:

扫一扫在手机阅读、分享本文

热门文章
  • 法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路

    法国国家铁路公司 (SNCF) 将在意大利提供高速客运线路
    通过安东尼·盖伊 法国国家铁路运营商 SNCF 周三表示,计划从 2026 年起在邻国意大利提供高速客运服务,在其本土与竞争对手 Trenitalia 竞争。 SNCF Voyageurs 城际 TGV(高速列车)服务主管 Alain Krakovitch 表示:“意大利是一个天然的高速列车市场,每年接待 5600 万名乘客。” “但这是一个尚未成熟的市场,仍有许多乘客需要引进。” SNCF 计划最终在都灵、米兰、罗马和那不勒斯之间提供每日 9 趟往返列车...
  • 新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势

    新的168飞艇官方开奖历史记录查询图形处理技术比现有解决方案显示出显着的速度优势
    经过168飞艇官方开奖历史记录查询高等教育出版社管理大规模图数据的行业对高效、快速的数据处理工具的需求导致了 GraphCP 的发展,这项技术可以显着提高处理速度。GraphCP不仅满足甚至大大超过了现有图处理系统的性能:这种性能改进使 GraphCP 成为依赖快速高效的图形数据处理的应用程序的领先解决方案。该研究的通讯作者 Yongli Cheng 表示:“GraphCP 在减少冗余数据访问和提高 I/O 带宽利用率方面的进步有助于我们领域的发展。”凭借其增强的速度,Gra...
  • 苹果面临在开发者大会上交付人工智能的压力

    苹果面临在开发者大会上交付人工智能的压力
    作者:格伦·查普曼 预计苹果公司将于下周证明,在科技界的竞争对手在人工智能领域大放异彩之际,它并没有被抛在后面。 分析师称,人工智能,甚至与 ChatGPT 制造商 OpenAI 的合作,都可能成为周一在硅谷举行的苹果年度 WWDC 开发者大会的主题。 这次会议是为苹果生态系统创建应用程序和软件的开发人员举办的年度盛会,首席执行官蒂姆库克将努力说服他们,随着竞争对手微软和谷歌连续快速推出创新,该公司是人工智能的关键参与者。 尽管苹果多年来一直在其 iPho...
  • 3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状

    3D打印的微型执行器可以移动小型软机器人,将它们锁定成新的形状
    通过马特·希普曼 , 北卡罗来纳州立大学 北卡罗来纳州立大学的研究人员展示了微型软液压执行器,可用于控制厚度不到一毫米的软机器人的变形和运动。研究人员还证明,这项技术适用于形状记忆材料,允许用户反复将软机器人锁定为所需的形状,并根据需要返回到原始形状。 “软机器人技术在许多应用中都有前景,但设计小规模驱动软机器人运动的执行器具有挑战性,”该工作论文的通讯作者、机械和航空航天副教授杰尹说。北卡罗来纳州立大学的工程学。 “我们的方法利用商用多材料 3D 打印技术和...
  • 四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体

    四足狗形机器人幸运飞行艇168官方开奖在人迹罕至的环境中“嗅探”有害气体
    经过 美国化学会噩梦材料还是真正人类最好的朋友?幸运飞行艇168官方开奖一组研究人员为一个像狗一样的四足机器人配备了机械臂,可以从潜在危险的情况下采集空气样本,例如废弃的建筑物或火灾。在《2019》上发表研究的团队表示,机器狗会将样本带到一个人面前,由他筛选样本中是否存在潜在危险的化合物。 分析化学 。虽然该系统需要进一步完善,但演示显示了其在危险条件下的潜在价值。对于科学家和技术人员来说,在危险工作场所或火灾等事故后测试空气中的危险化学品是一项重要但非常危险的任务。为了...