AIが書いた文章の、見えないコスト
By loom team
By loom team
今年、ニュースレターに繰り返し現れている段落がある。短い断片三つ、転換の副詞、エム・ダッシュ、きれいな結び。あなたは今週、それを二度読んでいて、気づいていない。最初はモデルが書き、次に別のモデルが書き、最後にモデルを使った人が書いた。AIが書いた文章のコストは、どれか一段落が悪いことではない。すべてが同じ段落になり始めた、ということだ。
品質論はこの部分を取り逃がし続ける。出力の質は、しばらく前から納品に足る水準にある。「足る」のなかで失われるのは、ばらつき — エディトリアルな声が存在する理由そのものだ。
Alternative Uses Test、Forward Flow、Divergent Association Task — 創造的多様性を測る心理学の標準三課題。人集団と LLM 集団で走らせると、差は大きく、一貫している。人のばらつきは三課題で約 0.74、0.84、0.82。第一線モデルの LLM 集団では 0.46、0.53、0.67 に落ちる。差はすべて p < 0.001。著者の言葉は明快だ。「LLM の応答は、人どうしよりもはるかに、LLM どうしで似ている」。複数モデルの出力をプールしても解決しない — モデルどうしが同じ場所に集まる。(We're Different, We're the Same, arXiv 2501.19361)
共筆の研究も同じ結論に到達している。InstructGPT との共筆は著者間の類似度を上げ、語彙と内容の多様性を有意に下げた — アシスタントが書き手をモデルに引き寄せるだけでなく、書き手どうしを互いに引き寄せていることを、初期に明確に示した研究の一つだ。(Homogenization Effects of LLMs on Human Creative Ideation, C&C 2024)
温度を上げて創造性を引き出せばいい、という反論はデータが許さない。三つの研究にまたがる人と ChatGPT のエッセイ比較は、人の文章が集団としての意味的多様性を「base GPT-4 のおよそ 2〜8 倍」増やしていた、と報告した。プロンプトやサンプリングの調整では差は埋まらない。(Homogenizing effect of LLMs on creative diversity, ScienceDirect)
決定打は文体計量だ。2025年の論文は、Wikipedia と GPT-4 をバランス集合上、十文サンプルで最大1.00の正答率で識別し、人と六つの LLM を含む七クラス分類で Matthews 相関 0.87 を出した。パラフレーズ攻撃を加えても、再現率は大半のケースで 98% 超を維持した。(Stylometry recognizes human and LLM-generated texts, arXiv 2507.00838)
Better Call Claude は同じ非対称をモデル内部にも見つけている。Claude 3.7 Sonnet は PAN の文体変化検出でゼロショットで易 F1 0.86、難 0.66。中難度では fine-tune した Transformer に並んだ。第一線のモデルは、段落内の文体変化を検出できる。それを安定して生成することは、まだできない。(Better Call Claude, arXiv 2508.00680)
AIコピーのコストは、ページ単位ではなくカテゴリ単位で利息がつく。一通のローンチ告知は問題ない。同じ書き方で書かれた百通目のローンチ告知は、別のことをする — 読者にスキミングを学習させる。そして、自分の声で読者を獲得してきたブランドが、開封率が下がり始めた理由を次の四半期かけて探す羽目になる。
代金を払うのは:
検出側の研究は、すでに生成側の研究を追い越している — つまり、中央値の段落は、モデルがばらつかせるよりも、分類器が見抜く方が易しくなっている。半年前なら AI コピーを「流暢」と呼べた。今は、その流暢さ自体がシグナルになっている。
モデルは、モデルに合った仕事に使う — 調査、構成、書いた一文の十五通りの言い換え。行を決めさせない。守れる三本に毎回の下書きを錨で繋ぎ、それと照らし合わせる。出来上がりは音読する — 拍子と中央値の違いを、モデルは聞き取れない。あなたは聞き取れる。
流暢な段落は、もう無料だ。みなと同じ声に聞こえない、その声だけは、モデルが返してくれない一つのものだ。