YouTubeのゲーム実況などから日本語を習得する幼児・児童がいる、というのはもう聞き慣れた話だ。子どもたち、「はいこんにちは〜! 今日は⚪︎⚪︎をやっていこうと思います!」とかよく言いますからね。
ところが先週末、公園で幼稚園児たちが喋ってる言葉を聞いてびびった。妙に間の抜けた、丁寧だが抑揚がなく反復の多い言葉。明確な特徴を言語化できなくてもどかしいのだが、あれは聴いたことがないと、そうだとは分からない。「YouTubeの生成AIが作った、吹替の日本語」の口真似だった。そういう時代か……。
いつの間にか普及していたAI吹替
YouTubeのAI吹替機能を使うと、動画内の原語の発話のタイミングで、翻訳された別の声が挿入される。原語話者と声質は異なるが、翻訳の質はなかなかのもので、原語の軽妙な掛け合いなども一応は再現されてる。AI吹替が付けられた時期によって、質にもバラつきがあるのかもしれない。
私がそれを初めて認識したのは、2025年の初旬ぐらい。海外の料理ショート動画なんかが、気づくと勝手に日本語で流れるようになっていた。知り合いにも確認したが、今は子ども向けコンテンツでも、AI吹替がついた海外YouTuberのゲーム実況や、科学解説コンテンツなんかが頻繁にレコメンドされてくるそうだ。
ショート動画の時はおおっ、もうこんな時代かと思ったものだけど、いざロングコンテンツでAI吹替を見ると、これはちょっと怖いな、と思う。
AI吹替の怖さ
AI吹替の翻訳の質は、前述のとおりそこそこ高く、またこの1年でも進化を続けている。そもそも映像コンテンツの翻訳には特有の問題があって、コンテンツの中の台詞は論文や小説のような文字コンテンツに比べ非常に限定的・断片的なので、コンテキストが不足しがちになり、翻訳の品質にばらつきが出やすい。今のAI吹替翻訳はそういった現象を乗り越え、状況に合わせて自然な翻訳ができるようになってきた。*1
しかし、それでも問題は残る。往々にして訳の正しさ以外の部分に。
まず、日本語が「溶ける」。GoogleのNotebookMLなんかでAI音声によるPodcastを作らせてもわかると思うんだけど、AIの発話は、節々でゴニョゴニョっと音声を曖昧にしていることが多い。単語同士の繋がりだけでなく、単語内の音節レベルでも溶けてくっついたような発声だ。特に専門用語や難しい漢字なんかを読ませると目立ちやすいが、普通の会話でもよく聞くと結構出ている。ゴニョりかたが自然で聴き逃してしまっているのだ。
次に、原語にあった「読ませどころ」「聞かせどころ」が消失してしまっている。オリジナルの音声では、YouTuberの発話には感情が載っているし、解説系コンテンツのナレーションでも、重要なところは声のトーンが強められる。AIだとそれがフラットになってしまう。例えば、"This is" の主語と動詞どちらを強調するかで、話者の意図は変わるのだけど、AI吹替では、その意図が抜け落ちた日本語が流れてくる。
そして最後の問題は、発話の”尺”の処理。原語では長いが日本語では短くなってしまう表現、またその逆も、うまく処理されていないことが多い。AI吹替はやたら間延びしてしゃべるセリフや、逆に異常な早口でしゃべる箇所が入り乱れており、一貫しない。
翻訳の"演出"が利かない
3点の課題のうち、「溶ける」と「尺」は、モノによっては自然になっているものもあるので、技術改善が進んだのかもしれない。しかし厄介なのは「読ませどころ・聞かせどころ」の問題だ。
私は乏しいながら字幕翻訳制作の経験があるのだが、お世話になっていた先生に「読ませどころ」には特に注意を払えと、口酸っぱく言われてきた。映像の邪魔をせずスッと読み飛ばせるところと、きっちり力を入れて訳出すべきところ=台詞を視聴者の心に残すところを見極めろ、ということだ。それは全体の中の1箇所でもあるし、1セクションの中の1文、1つの台詞の中の1単語という形でも現れる。字幕でも吹替でも、製作者の意図を汲み、言葉を演出することは、映像翻訳者の重要なスキルだ。
AI吹替では、台詞は流れているが、読ませどころ・聞かせどころがフラットになり、何が重要なのかが伝わらなくなってしまっている。これ、演劇的な要素のない技術解説系コンテンツなら良いかというとむしろ逆で、語り手が無意識に行っている声のトーンによる強調がなくなり、解説されている技術の何がポイントなのか、何に注意しなければならないのかが曖昧になっている。
「ゆっくり解説」のように、合成音声による解説コンテンツは前からあったが、あれには平坦な音声を補って台詞や間の取り方で演出する、人間の技能があった。純AI生成の吹替はそれもない。AI吹替コンテンツは、人の記憶に残りづらいのではないかと思う。
子どもが慣れてしまうことへの不安
そんなAI日本語の語調を、今の幼児や児童は吸収し、口真似しているわけだ。今までは、子どもがYouTuberのヘンなテンションの日本語を真似てるからって、別に日本語の危機だとは思わなかった。しかし、AIで生成された日本語となると、ちょっと根本のところで違うのではないかと思う。
生成AIの作る日本語は(いや何語でも同じだが)、膨大な数の人間の発話の特徴を抽出/圧縮し、それらを投射したデータの巨大な塊を作ってから、再び人間の声として聞こえるように再構築したものだ。そこにあった意味と音のつながりは曖昧になり、溶けている。既に日本語を習得している大人にとってはそれで十分でも、習得過程の初期にある幼児・児童に、それがどう影響するのだろうか……そんなことを考えてしまう。
言葉の重要な意味が伝わらなかったり、伝える技能を身につけられなかったり、誤った形で伝わったり。そういった問題は以前のメディアでも語られていただろうが、いま子どもたちが接しているのは、AIの生成した音だ。その”おかしさ”は、人間のオーガニックな言語の変化・進化として起こりうるものではない。異質な変化なのだ。
AIの、微妙に”不自然”な発話、発声から言語を習得した子どもたちが、それを内面化する。それを更にAIが学習し、分解し、再構成して次の世代のAI発話を作る。そんなフィードバックループの先にあるのは、なんだろうか? あり得ない言語進化によって、コミュニケーションや思考能力が、袋小路に陥ってしまうことはないだろうか? SF的で面白くもあるけれど、正直怖い。
まあそれも杞憂であって、そうなる前に、AI生成の日本語がより本物らしくなってしまう方が、ありえる未来なのだろうけど。
余談:じゃあAI字幕は?
まあAI吹替が酷い・ヤバいと言っても、AI字幕ほどではないんだよなあ。AI字幕は吹替よりもっと前から一般化してるけど、あれ、いまだに読めたもんじゃないじゃん。
AI字幕の問題は、YouTubeに関していえば、そもそも訳の質が低いこと。吹替とは異なるアルゴリズムで翻訳しているせいか、単語がまともに訳出できていないことが多い。もちろん、「読ませどころ」の消失もある。しかしそれら品質の問題以前に、もっと大きな問題、「ハコの切り方」がある。
昔からの映画やTVコンテンツの翻訳には、実地検証から導き出された「万人が読める字幕の長さは、基本1秒あたり4文字、1回に出す文字量(つまり字幕のハコ)は基本24文字まで」というルールがあった。それ以上文字を詰め込むと、カネ払って映画見たのに意味がわかんねえじゃないか! とクレームがあったそうだ。
そのルールは、YouTubeなどのネット字幕ではほぼ無視されるようになったけれど、AIの自動字幕はルールどころか、ハコの切り方が完全に破綻している。視線が追いつかない程の文字数が表示されたり、途中でブツブツと切られることが常態化してしまった。また、その改善もなかなか見られない。
原語の会話を文字化して、翻訳文を生成することはできても、発話者の意図を汲んで、意味の塊ごとに整理するロジックは、まだ適切にアルゴリズム化できていないのだろう。あるいは、「原語でこの程度のボリュームの発話があれば、そこで区切って字幕化」みたいな雑なロジックでハコを作ると、日本語では画面の半分が文字で埋まってしまう、なんてことが起こる。
どうしたらいいのかね
AI字幕もAI吹替も、一応たりとも世に出た技術だ。学習による改善により、その能力はどんどん上がっていくだろう。しかし根本的な部分で、越え難い壁があると思う。当たり前だが、生成AIアルゴリズムは、自然に通じる文字列を作り出すことはできても、その文章の意味を理解してはいない。翻訳の本質、つまり「意味を伝える」という点では、人間の翻訳者(あるいは翻訳演出者)はどうしても必要だ。
とはいえ、AI翻訳の流れは、残念ながら不可逆だ。日本は翻訳大国だが、それでも、今まで絶対日本語化できなかった些細なコンテンツまで、AIの支援で日本語で聞いたり読んだりできるようになってきた。その便利さを捨てろと言っても、誰も従わないだろう。
嫌なのは、かつてプロの翻訳者が訳していた時代に担保できていた質が忘れられ、「これでいいや」が常態化してしまうこと。繰り返すが、生成AIで翻訳できる時代になっても、訳の正しさと言葉の品質を担保するのならば、精通したプロの翻訳者が必要だ(AIに作らせたプログラムの品質保証に人間の技術者が要るのと同様)。生成AI翻訳の本質的なレベルアップと、AI時代に即した翻訳産業の変化を、望むしかない。
個人的には、せめて文芸作品だけは、引き続き人間の手で訳されるべきだと思う。米国では百万ドルの価値がつくプロの小説家の文章、プロの脚本家のセリフが、外国の読者・視聴者向けには1回せいぜい数百円のAI翻訳に委ねられるなんてこと、あっていいはずがないのだから。
*1:AI吹替翻訳、ひょっとしたら音声→文字起こし→翻訳→音声化のプロセスではなく、音声を直接別の音声に換える仕組みでやってるのかもしれない。エンジニアじゃないから知らんけど。会話のノリを汲んだ翻訳や、AI字幕との本質的な翻訳精度の違いとかをみるとそう感じる。