谷歌加入了建立本地化大型语言模型的合作努力

2024-03-13 13:57来源:大国新闻网

谷歌正在参与建立大型语言模型(llm)的合作,以更好地迎合东南亚的人口和文化组合。

其研究部门将与新加坡人工智能公司合作,增强用于训练、微调和评估该地区特定语言的人工智能模型的数据集。AI新加坡周一在一份声明中表示,该计划被称为东南亚语言统一网络数据项目(SEALD),旨在“提高该地区法学硕士的文化背景意识”。

政府机构补充说,合作将首先关注印尼语、泰语、泰米尔语、菲律宾语和缅甸语,双方将共同开发跨本地化和翻译模式。他们还将开发工具来帮助扩展迁移功能和优化数据集的最佳实践。培训前指南将以东南亚语言出版。

新加坡人工智能公司补充说,SEALD项目的所有数据集和输出将以开源方式发布。

该计划将进一步支持新加坡政府机构去年启动的SEA-LION(东南亚语言一体网络)下的模特培训工作。

由针对该地区社会细微差别预先训练的开源法学硕士组成,SEA-LION的当前迭代运行在两个基本模型上:一个30亿参数模型和一个70亿参数模型。它的训练数据包括9810亿个语言标记。AI Singapore将这些标记定义为在标记化过程中通过分解文本创建的单词片段。这些碎片包括6230亿个英语代币,1280亿个东南亚代币和910亿个中文代币。

SEALD项目目前正在研究一个用例,以改善与新加坡移民工人的沟通,他们可能会用各种地区语言比英语更流利地交谈。数据收集工作将反映该社区独特的语言特征,并为改善新加坡政府和雇主之间的互动提供基础。

SEALD项目的数据集和输出将与谷歌云和新加坡政府开发的生成式人工智能应用程序集成,根据后者的人工智能开拓者计划,支持社区外展。

SEALD项目的合作伙伴还将与包括学术界和公共部门在内的行业开展跨职能合作,如数据收集和质量检查。这些努力将包括与不同东南亚国家的学术界合作,建立评估整个地区生成式人工智能应用的方法和基准。

AI Singapore还计划在Vertex AI上的谷歌云模型花园上提供SEA-LION llm,提供对预验证AI模型的访问。这些地区法学硕士将被添加到hug Face,这是一个人工智能工具和预训练模型的开源存储库,主要关注自然语言处理能力。

AI Singapore周一还宣布,它与印度尼西亚、马来西亚和越南的多个组织签署了谅解备忘录和意向书,以开发区域法学硕士的数据集和应用程序。

此外,该新加坡机构表示,它正在与印度尼西亚、泰国和菲律宾的合作伙伴合作,建立有关地区语言语法和语义的资源。其中包括泰国的Vidyasirimedhi科学技术研究所和菲律宾的Ateneo社会计算科学实验室。

2022年,谷歌研究院宣布与印度科学研究所合作开展Vaani项目,该项目旨在收集773个地区的匿名语音数据,并建立一个代表该国多样化人口的法学硕士。

上周,新加坡人工智能创新总监劳伦斯·刘(Laurence Liew)呼吁生成型人工智能参与者纳入区域和本地数据模型,以确保他们的产品更好地反映全球人口的多样性。例如,整合SEA-LION将有助于生成式人工智能工具产生更准确的反应,Liew说,当被问及最近的亚洲选举时,与全球公共平台相比,区域法学硕士产生了更准确的预测。

他补充说,目前大多数公共生成人工智能工具都不是以亚洲为重点,可能存在固有的数据偏见。像SEA-LION这样的法学硕士更具有“文化敏感性”,他表示,这将确保人工智能生成的反应能更好地反映该地区的社会结构。

多讯网声明:未经许可,不得转载。
汽车
地球与环境