どうも〜、ゴダです。
今回は言語ネタを一つ。
Meta(旧Facebook社)が文字がない言語の音声翻訳技術を開発しました。
この技術の最初の対応言語として台湾語が選ばれ、台湾メディアではちょっとしたニュースになっています。
私もAIに詳しいわけではないので深い話はできませんが、とにかく初の試みなんだとか!
早速ニュースの詳細を見ていきましょう!
最初に:台湾語とは?福建語や閩南語とも呼ばれています!
台湾を好きな方ならご存知でしょうが、台湾には中国語と台湾語の二つの言語があります。
中国語はどんな場面でも話される公用語であり、台湾語は台湾南部やご老人を中心に話される方言のような言語です。
台湾語は台湾人の約75%が話しますが、文字がないため学校やビジネスなどの場面で使われることはありません。
大阪人が学校やビジネスで標準語を使い、友人や家族との間では大阪弁を使うのに似ているかもしれません。
また、台湾語は台湾だけで話されているわけではありません。
中国福建省周辺、フィリピン、マレーシア、シンガポールなどに話者がおり、福建語や閩南語と呼ばれています。
台湾以外の国では福建省にルーツがある華人が話す言語として認識されているようです。
Meta(旧フェイスブック社)が台湾語→英語の音声翻訳に成功!
この翻訳技術は文字をもたない言語の発音をデジタルの音波データに変換し、機械学習によって文字をもつ他の言語との相互比較をして、ラベル付けと分類を行います。
これにより文字をもたない言語を他の言語に変換することができるのです。
ラベル付けと分類が確立されていない場合、この音声翻訳システムは別の翻訳プロセスを使用して他の言語に翻訳します。
例えば、台湾語の意味が英語に直訳できないけれども中国語であれば直訳できる場合、この音声翻訳システムはまず先に中国語で解釈し、それから英語に翻訳します。
Metaはなぜこの技術の最初の対応言語として台湾語を選んだ?
その理由として、台湾語(福建語/閩南語)は世界に約5,000万人の話者がおり、文字をもたない言語の中では規模が大きいことを挙げています。
Metaの音声翻訳技術の今後(LASER、SpeechMatrix)
今後、Metaは「LASER」と呼ばれる自然言語処理ツールを外部に開放し、SpeechMatrixという大規模な音声合成トレーニングモデルを作ります。
これにより多くの研究者が他の文字をもたない言語に対しても研究を行い、人工知能を通じて他の言語に翻訳できるようにします。
これから文字をもたないローカル言語の音声翻訳がどんどん増えていくと、例えば旅行先で少数民族と会話をすることも可能になるのでしょうか?
なんとも夢が膨らむ話ですよね。
コメント