当前位置:首页 > 知识 >

[涡流]Cohere for AI 推出针对 101 种语言的开源法学硕士

今天,Cohere for AI(Cohere 于 2022 年成立的非营利性研究实验室)推出了 Aya,这是一个支持 101 种语言的开源大语言模型 (LLM),是现有开源模型覆盖的语言数量的两倍多。

研究人员还发布了 Aya 数据集,这是相应的人类注释集合——这很关键,因为训练不常见语言的一个障碍是可供训练的源材料较少。但据 Cohere for AI 称,该实验室的工程师还找到了用更少的训练数据来提高模型性能的方法。

Cohere 研究副总裁兼 Cohere 人工智能负责人 Sara Hooker 表示,Aya 项目于 2023 年 1 月启动,是一项“巨大的努力”,有全球 3000 多名合作者参与,其中包括来自 119 个国家的团队和参与者。

凭借超过 5.13 亿条指令微调注释(帮助对信息进行分类的数据标签),“我认为我们当时并没有意识到它会是一个多么庞大的项目,”Hooker 在接受 VentureBeat 采访时说道,并将其称为这种数据是法学硕士培训结束时产生的非常有价值的“金粉”(而不是从互联网上抓取的预培训数据)。

Cohere 联合创始人兼首席技术官 Ivan Zhang 在 X 上发帖称,“我们正在发布 100 多种语言的人类演示,以进一步扩展智能,并确保它为更多的人类服务,而不仅仅是英语识字世界”,并称其“尚未实现”。 Hooker 和 Cohere for AI 团队实现了另一项不可能的科学和操作壮举。

[涡流]Cohere for AI 推出针对 101 种语言的开源法学硕士

法学硕士在语言和文化方面的潜力在很大程度上被忽视

根据 Cohere 的一篇博客文章,新模型和数据集旨在帮助“研究人员释放法学硕士在数十种语言和文化方面的强大潜力,而这些语言和文化在很大程度上被当今市场上最先进的模型所忽视。”

Cohere for AI 表示,它针对可用的开源大规模多语言模型对 Aya 模型的性能进行了基准测试。它在基准测试中的性能“大幅”超过了 mT0 和 Bloomz 等最好的开源模型,并将覆盖范围扩展到

50 多种以前未提供服务的语言,包括索马里语和乌兹别克语。

Hooker 指出,任何具有以上六种语言的模型在多语言性能方面通常被认为是“极端”的,一旦有大约 25 种语言,“那就是‘大规模多语言’——只有少数模型能够真正处理这么多语言并报告他们的表现。”

英语之外的数据“悬崖”

胡克解释说,这意味着在英语微调数据之外存在某种数据“悬崖”,因此阿雅的数据“极其罕见”。

“我期望人们会从这个数据集中选择他们想要共享的语言,他们将能够迭代和创建服务于语言子集的模型,这是一个巨大的需求,”她说。 “但我目前在技术上看到的最大分歧是精确度。这些模型已在世界各地使用,因此人们希望它为他们服务。他们想要个性化——其中一部分只需要不同语言的数据。”

Aleksa Gordic 曾是 Google DeepMind 的研究员,目前正在为特定语言的法学硕士构建全栈生成式 AI 平台,并开发了 YugoGPT,他表示该法学硕士在塞尔维亚语、波斯尼亚语、克罗地亚语和黑山语方面的表现优于 Mistral 和 Llama 2。

“我绝对认为 Aya 和所有类似的多语言数据工作至关重要,”他告诉 VentureBeat。 “法学硕士以数据为基础,如果您想支持非英语语言,您需要针对感兴趣的目标语言提供高质量且理想的丰富数据源,以便您可以构建高质量的法学硕士。”

他补充说,这些努力“绝对不够”,但“是朝着正确方向迈出的一步”。他解释说,需要一个全球研究团体来解决这个问题,“我们还需要世界各国政府的支持,以了解建立大型、高质量数据源的重要性。这样你就可以在全新的人工智能世界中保留你的语言和文化。”

Cohere for AI 的 Aya 模型和数据集已在 Hugging Face 上提供。

猜你喜欢

微信二维码

微信