推特網(wǎng)消息:近日社交媒體巨頭Meta公司發(fā)布了一款新的人工智能(AI)模型,可以翻譯和轉換數(shù)十種語音或文本文字,可望成為實現(xiàn)跨語言即時通訊工具的基石。
據(jù)稱,這款新模型被命名為SeamlessM4T,它代表大規(guī)模多語言和多模式機器翻譯。Meta公司表示,它可以支持近100種語言的語音到文本,或從文本到文本的翻譯,以及35種語言的語音到語音翻譯。
它是在Creative Commons CC BY-NC 4.0許可證下發(fā)布的,允許研究人員對其進行迭代。
除了 SeamlessM4T,Meta 還發(fā)布了其開放翻譯數(shù)據(jù)集 SeamlessAlign 的源數(shù)據(jù)。
Meta公司表示,“建立一個通用的語言翻譯器,就像《銀河系漫游指南》中虛構的巴別魚一樣,具有挑戰(zhàn)性,因為現(xiàn)有的語音到語音和語音到文本系統(tǒng)只覆蓋世界上一小部分語言,”。Meta表示,SeamlessM4T代表了“重大突破”,因為這種新模型可以一次性完成整個翻譯任務,不像其他大型翻譯模型將翻譯劃分到不同的系統(tǒng)。
如果SeamlessM4T 能夠正常運行,那么它的一個有趣功能是它據(jù)稱能夠識別說話者何時進行代碼切換,或何時有人在一個句子中在兩種或多種語言之間轉移。例如,Meta在一段視頻中演示了該模型可以立即區(qū)分印地語、泰盧固語和英語。
SeamlessM4T建立在Meta以前的翻譯模型之上。去年,Meta發(fā)布了其“不落下任何一種語言”(No Language Left Behind)文本到文本機器翻譯模型,該模型支持200種語言。它還開發(fā)了SpeechMatrix,一個用于多語言語音到語音翻譯的數(shù)據(jù)集和用于語音識別的大規(guī)模多語言語音。Meta去年演示了其通用語音翻譯器,將閩南語轉換為英語。
語言翻譯對于像Meta這樣的公司來說很重要,這些公司雇傭了數(shù)千名員工來審核大量不同語言的Facebook和Instagram帖子。很多時候,小眾語言的團隊規(guī)模較小,最終依賴于自動審核,而自動審核在這些語言中效果不佳。如果允許人工智能訪問這些小眾語言的數(shù)據(jù)集,那么審核將變得更為簡單。
根據(jù)部落格文章,Meta正將這套模型提供給公眾用于非商業(yè)用途。
Meta今年發(fā)布一連串多為免費的人工智慧模型,其中包括名為Llama的大型語言模型,對微軟(Microsoft)公司支持的OpenAI和Alphabet旗下的谷歌(Google)出品的專利模型構成嚴峻挑戰(zhàn)。
扎克伯格說,開放的AI生態(tài)系統(tǒng)對Meta更有利,因為公司透過有效群眾外包(Crowd-sourcing)方式,為旗下社群平臺創(chuàng)建面向消費者的工具,比向這些模型的使用者收費獲益更多。
