2026-05-30 · 6分で読了 · editorial · culture

AIが書いた文章の、見えないコスト

By loom team

今年、ニュースレターに繰り返し現れている段落がある。短い断片三つ、転換の副詞、エム・ダッシュ、きれいな結び。あなたは今週、それを二度読んでいて、気づいていない。最初はモデルが書き、次に別のモデルが書き、最後にモデルを使った人が書いた。AIが書いた文章のコストは、どれか一段落が悪いことではない。すべてが同じ段落になり始めた、ということだ。

品質論はこの部分を取り逃がし続ける。出力の質は、しばらく前から納品に足る水準にある。「足る」のなかで失われるのは、ばらつき — エディトリアルな声が存在する理由そのものだ。

ばらつきの差は、もう「感じ」ではなく測定値だ

Alternative Uses Test、Forward Flow、Divergent Association Task — 創造的多様性を測る心理学の標準三課題。人集団と LLM 集団で走らせると、差は大きく、一貫している。人のばらつきは三課題で約 0.74、0.84、0.82。第一線モデルの LLM 集団では 0.46、0.53、0.67 に落ちる。差はすべて p < 0.001。著者の言葉は明快だ。「LLM の応答は、人どうしよりもはるかに、LLM どうしで似ている」。複数モデルの出力をプールしても解決しない — モデルどうしが同じ場所に集まる。(We're Different, We're the Same, arXiv 2501.19361)

共筆の研究も同じ結論に到達している。InstructGPT との共筆は著者間の類似度を上げ、語彙と内容の多様性を有意に下げた — アシスタントが書き手をモデルに引き寄せるだけでなく、書き手どうしを互いに引き寄せていることを、初期に明確に示した研究の一つだ。(Homogenization Effects of LLMs on Human Creative Ideation, C&C 2024)

温度を上げて創造性を引き出せばいい、という反論はデータが許さない。三つの研究にまたがる人と ChatGPT のエッセイ比較は、人の文章が集団としての意味的多様性を「base GPT-4 のおよそ 2〜8 倍」増やしていた、と報告した。プロンプトやサンプリングの調整では差は埋まらない。(Homogenizing effect of LLMs on creative diversity, ScienceDirect)

なぜ検出は、模倣より速く勝っているのか

決定打は文体計量だ。2025年の論文は、Wikipedia と GPT-4 をバランス集合上、十文サンプルで最大1.00の正答率で識別し、人と六つの LLM を含む七クラス分類で Matthews 相関 0.87 を出した。パラフレーズ攻撃を加えても、再現率は大半のケースで 98% 超を維持した。(Stylometry recognizes human and LLM-generated texts, arXiv 2507.00838)

Better Call Claude は同じ非対称をモデル内部にも見つけている。Claude 3.7 Sonnet は PAN の文体変化検出でゼロショットで易 F1 0.86、難 0.66。中難度では fine-tune した Transformer に並んだ。第一線のモデルは、段落内の文体変化を検出できる。それを安定して生成することは、まだできない。(Better Call Claude, arXiv 2508.00680)

見えないコスト、命名する

AIコピーのコストは、ページ単位ではなくカテゴリ単位で利息がつく。一通のローンチ告知は問題ない。同じ書き方で書かれた百通目のローンチ告知は、別のことをする — 読者にスキミングを学習させる。そして、自分の声で読者を獲得してきたブランドが、開封率が下がり始めた理由を次の四半期かけて探す羽目になる。

代金を払うのは：

ばらつきで読者を獲得したブランド。
競合との差が消えるカテゴリ。三社の SaaS がみな中央値の文を見つけるモデルを走らせれば、中央値の文はもう読むに値しない。
注意を払う対象が減ったから、注意を払うのをやめる読者。

検出側の研究は、すでに生成側の研究を追い越している — つまり、中央値の段落は、モデルがばらつかせるよりも、分類器が見抜く方が易しくなっている。半年前なら AI コピーを「流暢」と呼べた。今は、その流暢さ自体がシグナルになっている。

代わりに納品したいもの

モデルは、モデルに合った仕事に使う — 調査、構成、書いた一文の十五通りの言い換え。行を決めさせない。守れる三本に毎回の下書きを錨で繋ぎ、それと照らし合わせる。出来上がりは音読する — 拍子と中央値の違いを、モデルは聞き取れない。あなたは聞き取れる。

流暢な段落は、もう無料だ。みなと同じ声に聞こえない、その声だけは、モデルが返してくれない一つのものだ。

出典

We're Different, We're the Same: Creative Homogeneity Across LLMs (arXiv 2501.19361) — 創造性課題における LLM 集団のばらつきは人集団のおよそ 6 割、差はすべて p < 0.001。
Homogenizing effect of LLMs on creative diversity: human vs ChatGPT (ScienceDirect) — 人の文章は集団的多様性を base GPT-4 の 2〜8 倍増やし、パラメータ調整では差が埋まらない。
Homogenization Effects of LLMs on Human Creative Ideation (C&C 2024) — InstructGPT との共筆は著者間類似度を上げ、語彙と内容の多様性を下げる。
Stylometry recognizes human and LLM-generated texts in short samples (arXiv 2507.00838) — 木ベースの文体計量で二値最大 1.00、七クラス MCC 0.87 で人と LLM を識別。
Better Call Claude: Can LLMs Detect Changes of Writing Style? (arXiv 2508.00680) — 第一線の LLM は文体変化の検出には強いが、文体のばらつきを生成することは依然苦手。