声は設定ではなく、機能だ
By loom team
By loom team
新しい下書きを開く。自分の一番いい段落を、モデルの出力の隣に並べて、声に出して読む。二文目に入る前に、どちらが自分のものか、もう分かっている。声はつまみではない。編集で残る方、あるいは残らない方の、そのものだ。
最近の作法は、声を環境設定のように扱う。レジスターを選び、温度を上げ、過去作を三本貼って祈る。だが、大規模モデルが個人の文体に何をしているかを測った研究は容赦がない。「あなたのトーンで書き直して」という提案を次に受け入れる前に、目を通しておく価値がある。
2025年9月の論文は、明白な実験を組んだ。GPT-4o、GPT-4o-mini、Gemini-2.0-Flash、Gemma-3-27B、DeepSeek-V3、Llama-4-Maverick — 第一線のモデル六本。ある書き手の文章を与え、その声で続きを書かせ、文体計量で書き手とモデルを区別できるかを見る。フォーマルなコーパス(CCAT50ニュース、業務メール)では著者検証の正答率が95〜97%を保った。私たちの大半が実際に書くもの — ブログ、フォーラム — ではブログで16〜21%、フォーラムで49〜66%まで崩れた。結論は端的だ。「LLMは、特にインフォーマルで文体に幅のある領域で、個人の細やかな文体を再現できないままだ」。例を増やしても改善しない。プロンプトではなく、アーキテクチャが天井になっている。(Catch Me If You Can?, Findings of EMNLP 2025)
逆方向からの証拠もある。2025年の文体計量研究は、十文のサンプルだけで、Wikipedia と GPT-4 をバランス集合上で最大1.00の正答率で見分けられると報告した。違いは話題ではない。質感だ — 単語の頻度、文の形、何を残し何を捨てるかという、書き手ごとの決め方の癖に出る。(Stylometry recognizes human and LLM-generated texts)
最近の創造性同質化に関する研究は、書き手がこの二年つぶやいてきたことに、数字をつけた。三つの創造性課題 — Alternative Uses Test、Forward Flow、Divergent Association Task — で、人の集団内ばらつきはそれぞれ 0.738、0.835、0.819。同じ課題を LLM 集団でやると、0.459、0.534、0.665 まで落ちる。差はすべて p < 0.001 で有意。著者が選んだ見出しが正しい。「LLM の応答は、人どうしよりもはるかに、LLM どうしで似ている」。(We're Different, We're the Same, arXiv 2501.19361)
これは温度の問題ではない。モデルは、中央値の読者が受け入れる中央値の文を見つけるように訓練されている。あなたの声で書けと頼むことは、中央値からわざと外れろと頼むことだ。モデルは、なかなか中央値から外れない。
Better Call Claude の評価では、PAN 2024 / 2025 の文体変化検出データセットで、Claude 3.7 Sonnet がゼロショットで F1 0.86、0.84、0.66(易・中・難)を出し、中難度では fine-tune した Transformer に並んだ。(Better Call Claude, arXiv 2508.00680)
模倣の結果と並べて読むと、非対称が際立つ。第一線のモデルは、ある段落が誰の声かを当てる能力の方が、その声で書く能力よりも高い。批評家としては優秀。模倣としては凡庸だ。
すべての文をこっそりモデルの中央値へ寄せていく下書きアシスタントは、時間の節約ではない。あなたの声を漂白して、流暢さで返してくる。流暢さに紛れて、気づかないうちに自分の声でなくなる。Simon Willison が記録した Tom Gally のワークフロー — 一案ではなく十案、段落ではなく一文単位、複数モデルで照合 — が機能するのは、行を決める権限をモデルに渡さないからだ。(A professional workflow for translation using LLMs, Simon Willison)
声は機能だ。機能として扱う。守れる三本に錨を下ろす。十の言い換えを出させて、一つを選ぶ。それを選んだ根拠の行と照合する。署名は賭けだ — あなたの決め方は、読者の時間に値するという賭け。その賭けを均す道具は、あなたの側にはいない。