2026-05-18 · 6分で読了 · translation · multilingual

AI翻訳が声を保つとき

By loom team

村上の冒頭にある、直訳では生き延びない一文がある。意味は壊れない。壊れるのは呼吸だ — 英語なら打たない場所に打たれた読点、段落が必要としたから末尾まで保持された動詞。英日間で仕事をした翻訳者なら、その一文に必ず出会ったことがある。挑んだ機械もすべて、出会ったことがある。

新しい問いは、大規模言語モデルが翻訳できるかどうかではない。できる。問いは、著者の何かが向こう岸まで渡るのか、ということだ。

第一線のMTの現在地

機械翻訳の標準競技 WMT24 で、Claude 3.5 Sonnet は 11 言語ペア中 9 で首位だった — 英日もそこに含まれる。十年単位で磨かれてきた専用 MT を抜いている。日本語ペアの最も信頼できる単独レビューは、敬語、主語省略、含意 — 一対一対応がなく、文単位の翻訳器を壊してきた日本語の特徴 — を Claude が扱える点を指摘している。(Best LLM for Japanese-English Translation, note.com)

その背景にある構造変化は、小さく、大切だ。以前のニューラル MT は一文ずつ訳した。文書単位プロンプティング — 段落丸ごと、章丸ごとを一度に渡す — は、日本語を含む 18 の言語ペアで一文ずつの翻訳を上回った。日本語の主語は暗黙だ。一文だけ見ても復元できない。(Document-level context for literary translation, arXiv 2304.03245)

だから、どこかまでは来ている。文学翻訳者が望む場所までは、まだ来ていない。

文学翻訳に関する最近の評価が、実際に見つけたこと

2024年の最も引用された LLM 文学翻訳評価は、独英・英独・独中・英中の 4 ペア、2,197 アノテーション付きセグメント、13,346 文のコーパスで、プロ翻訳者を GPT-4o・DeepL・Google Translate にぶつけ、Best-Worst Scaling で評価した。プロの評価者は人の翻訳を 94% 選んだ。最強の自動指標 GEMBA-MQM ですら、人翻訳を選んだのは 9.6% だった。自動指標には差が見えず、人にはすぐに見えた。(How Good Are LLMs for Literary Translation, Really? arXiv 2410.18697)

失敗の質感が肝心だ。人翻訳者は原文に対する統語類似度が最低（0.21）、他システムとの語彙重複も最低（18.9%）だった。LLM は統語類似度 0.27 前後に集まり、語彙を使い回した。著者の指摘は直球だ。「高い統語類似度は、目標言語での自然さをしばしば犠牲にし、翻訳の創造性を妨げる」。

モデルが原文に寄り添うのは、原文に寄り添うように訓練されているからだ。翻訳者が読者に寄り添うのは、それが仕事だからだ。

文体転送は、文学翻訳と同じではない

文体を意識した MT 論文は伸びている — SAMAS は文体を信号として扱い、作品ごとに専門エージェントを編成する。(SAMAS: Spectrum-Guided Multi-Agent System for Style Fidelity, arXiv 2602.19840) ベンチマークの数字は上がる。だが文学的な声はプリセットではない。著者が選ばなかったすべての単語が積み上がった重みだ。モデルにどの文体を目指せとは指示できる。どの語を拒めとは指示できない — 著者の拒絶の履歴をモデルは持たないからだ。

だからこそ、信頼に足る現役翻訳者は行の決定を委ねない。Simon Willison が記録した Tom Gally のワークフロー — LLM を一文単位のシソーラスとして使い、一案ではなく十案を出させ、複数モデルで照合し、最後に音読する — は、モデルに翻訳者をやらせないから生き延びる。人翻訳者のベンチを広げる役だけを任せている。(A professional workflow for translation using LLMs)

両方向で働く立場から

文ではなく段落を訳す。一つではなく二つのモデルで通す。日本語は声に出して読む — ネイティブの耳が散文として聞ければ、スコアが告げる以上に近い。モデルと人翻訳者の判断が割れた行は、興味深い行として扱う。仕事の大半は、そこにある。

逐語の出力は、ほぼ無料になった。声の値段は変わらない — 誰かが決める、その同じ値段だ。

出典

How Good Are LLMs for Literary Translation, Really? (arXiv 2410.18697) — プロ評価者は GPT-4o・DeepL・Google Translate よりも人の文学翻訳を 94% 選んだ。
Document-level context for literary translation (arXiv 2304.03245) — 段落単位プロンプティングは日本語を含む 18 ペアで一文ずつの翻訳を上回る。
SAMAS: Spectrum-Guided Multi-Agent System for Style Fidelity (arXiv 2602.19840) — 文学的文体を信号として扱い、作品ごとに専用エージェントを編成。
Best LLM for Japanese-English Translation: Benchmarks and Practical Selection (note.com) — WMT24 で Claude 3.5 Sonnet が 11 ペア中 9 ペア首位、敬語と省略主語の扱いを指摘。
A professional workflow for translation using LLMs (Simon Willison, 2025) — Tom Gally の一文単位・複数モデル・人翻訳者主導のワークフロー。