Meta 口語翻譯 S2UT 聲波系統-首推閩南語,未來無書寫系統語言也能翻譯!
Facebook 母公司 Meta 發表新的人工智慧 (AI) 翻譯系統,這個翻譯技術名為「S2UT」(speech-to-unit translation) 。
這個技術將過去不被支援的「沒有書寫文字」的語言納入可翻譯的範疇,透過語音對語音的方式轉換語言,而首先進行該技術測試的語言,就是台灣人所熟悉的閩南語。
究竟這次的最新AI技術是怎麼運作的?對未來的AI翻譯有甚麼影響呢?接著看下去吧 ✨
一、S2UT的出現重要性為何?
或許有很多人認為目前市面上所能看見的翻譯系統所涵蓋的語言久已經足夠了。
但事實上,目前AI翻譯系統所能支援的語言,幾乎所有都是擁有書寫系統的語言,這些語言在全球現存的7000種語言中,只佔有半數,剩餘的半數語言都與本次技術開發使用的閩南語一樣,是主要以口語表達,沒有標準或廣泛的使用書寫文字系統。
訓練這些語言的模型時,也因為「沒有書寫文字系統」這個特點,讓Meta無法使用原本仰賴大量文字來訓練AI模型的技術,因此開發了S2UT這項新技術,使得這些語言也能使用AI翻譯。
■ 選擇閩南語的原因
下圖為使用閩南語人口分布圖(圖片來源:Meta官網)
由圖可知:此次開發選擇閩南語,一方面是因為閩南語的使用人口在全球有不少的人口。
另一方,也可由這個選擇得知 Meta 對東亞市場的重視。
二、S2UT的運作方式是什麼?
S2UT這個翻譯技術是將這些沒有書寫文字系統的語言的語音轉換為數位的聲波資料,並與其他可轉換成文字內容的語言透過機器學習進行交叉比對,藉此建立標示與分類。
而如果碰到未建立標示及分類的情況,系統則會透過另一套翻譯流程,藉由其他語言進行「轉譯」。
例如:當閩南語的原意無法直接用英文詮釋時,就會透過中文作為中介的語言,先用中文詮釋後,再將中文的內容再翻譯為英語。
三、Meta 開發 S2UT 的展望
Meta表示雖然閩南語的翻譯系統仍在開發中,目前一次只能翻譯一個完整的句子,但Meta對這項技術十分有信心,他們相信這項技術必定能成長成熟到閩南語能夠透過AI即時翻譯。
並且以閩南語為開發的先鋒,將這項技術更廣泛的應用到其他有書寫系統和無書寫系統的語言上。
為了能擴展這項技術可以應用的語言範圍,Meta 也對外開放了 SpeechMatrix 這個大型語音翻譯語料庫,這個語料庫是用「LASER」這項創新的資料探勘技術支援開發。
相信這項工具的公開,也將能讓更多的研究人員以Meta的工作成果為基礎,進一步研發更多不同語言的翻譯機器。
總結 Conclusion
這次的發表,讓我們看見 Meta 在 AI 翻譯領域的創新與進步,並且好似已經能望見在不久的將來會有這樣的場景發生:在元宇宙的空間裡,使用者們都能夠以母語無障礙的與外國人交談。
雖然仍不確定這項技術成熟到能問世還需要多久,但這個技術的誕生,也代表使用不同語言的人交流所面對的障礙,是有可能被科技的進步給撫平的。