AI翻訳が声を保つとき
By loom team
By loom team
村上の冒頭にある、直訳では生き延びない一文がある。意味は壊れない。壊れるのは呼吸だ — 英語なら打たない場所に打たれた読点、段落が必要としたから末尾まで保持された動詞。英日間で仕事をした翻訳者なら、その一文に必ず出会ったことがある。挑んだ機械もすべて、出会ったことがある。
新しい問いは、大規模言語モデルが翻訳できるかどうかではない。できる。問いは、著者の何かが向こう岸まで渡るのか、ということだ。
機械翻訳の標準競技 WMT24 で、Claude 3.5 Sonnet は 11 言語ペア中 9 で首位だった — 英日もそこに含まれる。十年単位で磨かれてきた専用 MT を抜いている。日本語ペアの最も信頼できる単独レビューは、敬語、主語省略、含意 — 一対一対応がなく、文単位の翻訳器を壊してきた日本語の特徴 — を Claude が扱える点を指摘している。(Best LLM for Japanese-English Translation, note.com)
その背景にある構造変化は、小さく、大切だ。以前のニューラル MT は一文ずつ訳した。文書単位プロンプティング — 段落丸ごと、章丸ごとを一度に渡す — は、日本語を含む 18 の言語ペアで一文ずつの翻訳を上回った。日本語の主語は暗黙だ。一文だけ見ても復元できない。(Document-level context for literary translation, arXiv 2304.03245)
だから、どこかまでは来ている。文学翻訳者が望む場所までは、まだ来ていない。
2024年の最も引用された LLM 文学翻訳評価は、独英・英独・独中・英中の 4 ペア、2,197 アノテーション付きセグメント、13,346 文のコーパスで、プロ翻訳者を GPT-4o・DeepL・Google Translate にぶつけ、Best-Worst Scaling で評価した。プロの評価者は人の翻訳を 94% 選んだ。最強の自動指標 GEMBA-MQM ですら、人翻訳を選んだのは 9.6% だった。自動指標には差が見えず、人にはすぐに見えた。(How Good Are LLMs for Literary Translation, Really? arXiv 2410.18697)
失敗の質感が肝心だ。人翻訳者は原文に対する統語類似度が最低(0.21)、他システムとの語彙重複も最低(18.9%)だった。LLM は統語類似度 0.27 前後に集まり、語彙を使い回した。著者の指摘は直球だ。「高い統語類似度は、目標言語での自然さをしばしば犠牲にし、翻訳の創造性を妨げる」。
モデルが原文に寄り添うのは、原文に寄り添うように訓練されているからだ。翻訳者が読者に寄り添うのは、それが仕事だからだ。
文体を意識した MT 論文は伸びている — SAMAS は文体を信号として扱い、作品ごとに専門エージェントを編成する。(SAMAS: Spectrum-Guided Multi-Agent System for Style Fidelity, arXiv 2602.19840) ベンチマークの数字は上がる。だが文学的な声はプリセットではない。著者が選ばなかったすべての単語が積み上がった重みだ。モデルにどの文体を目指せとは指示できる。どの語を拒めとは指示できない — 著者の拒絶の履歴をモデルは持たないからだ。
だからこそ、信頼に足る現役翻訳者は行の決定を委ねない。Simon Willison が記録した Tom Gally のワークフロー — LLM を一文単位のシソーラスとして使い、一案ではなく十案を出させ、複数モデルで照合し、最後に音読する — は、モデルに翻訳者をやらせないから生き延びる。人翻訳者のベンチを広げる役だけを任せている。(A professional workflow for translation using LLMs)
文ではなく段落を訳す。一つではなく二つのモデルで通す。日本語は声に出して読む — ネイティブの耳が散文として聞ければ、スコアが告げる以上に近い。モデルと人翻訳者の判断が割れた行は、興味深い行として扱う。仕事の大半は、そこにある。
逐語の出力は、ほぼ無料になった。声の値段は変わらない — 誰かが決める、その同じ値段だ。