像ChatGPT这样的人工智能(AI)系统很快可能会用尽使它们变得更智能的东西:人们在线写作和分享的数以万万亿计文字。
“Epoch AI”研究小组6日发表的新研究预测,科技公司将在2026年至2032年之间,耗尽用于AI语言模型的公开可用训练数据。
▲研究发现AI系统很快可能用尽人类文本数据,图为爱荷华州一个微软数据中心。美联社
研究作者贝斯洛古(Tamay Besiroglu)表示,AI领域一旦消耗完真人书写内容,要维持当前发展速度,恐怕会遇上挑战。
短期内,像ChatGPT的开发者OpenAI和谷歌等科技公司正争相确保并有时付费取得高质量数据来源,以训练AI大语言模型,例如通过签署协议以获取Reddit论坛和新闻媒体的文字内容。
较长期而言,将无法有足够的新博客、新闻文章和社交媒体评论来维持人工智能发展的当前轨迹,这将迫使公司佔用现在被认为是私人的敏感数据,比如电子邮件或短信,或依赖不太可靠的由聊天机器人自己产生的“合成数据”。贝斯洛古指出“这里存在着严重的瓶颈。”
最新研究经过同行评审,今夏将在维也纳国际机器学习大会上发表。Epoch是由总部位于旧金山的“Rethink Priorities”主办的非营利机构。
贝斯洛古表示,AI研究人员在十多年前意识到,积极扩展两个关键因素——计算能力和广泛的互联网数据——可以显著提高人工智能系统的性能。根据Epoch的研究,输入AI语言模型的文本数据每年增加约2.5倍,而计算每年增加约4倍。
多伦多大学电脑工程助理教授兼非营利机构人工智能研究所研究员Nicolas Papernot说:“重要的是要记住,我们不一定需要训练更大更大的模型。”他没有参与Epoch的研究。他说,训练更专门从事特定任务的模型,也可以建立更熟练的AI系统。
但他担忧以AI生成结果来训练生成式AI系统,认为会导致“模型崩溃”,性能下降。他形容,在AI生成的数据上进行训练“就像复印一张纸,然后再复印这份复印件一样,会遗失一些信息”