- スタンフォード大学とイェール大学の新しい研究によると、大規模言語モデル(LLM)は単に「学習」しているのではなく、本の内容を保存し、逐語的に再現していることが明らかになりました。
- OpenAIのGPT、AnthropicのClaude、GoogleのGemini、xAIのGrokを含む4つの人気モデルが、著作権で保護されたコンテンツを記憶していることが判明しました。
- 適切にプロンプトを入力すると、Claudeは『ハリー・ポッターと賢者の石』、『グレート・ギャツビー』、『1984』、『フランケンシュタイン』のほぼ全編を再現することができました。
- 合計13冊の本がテストされ、多くの本から数千語がほぼ原文のまま抽出されました。
- この現象は「暗記(memorization)」と呼ばれ、モデルはトレーニングデータのコピーを保存しないというAI企業のこれまでの主張と矛盾します。
- OpenAIとGoogleはかつて、モデルは言語の「パターン」のみを保存し、元のコンテンツは保持しないと主張していました。
- 実際には、LLMはMP3やJPEGと同様に、データを圧縮しつつ核心部分を保持する非可逆圧縮の一種として機能します。
- ドイツの裁判所はChatGPTを圧縮ファイルに例え、GEMAによる訴訟でOpenAIに不利な判決を下しました。
- Stable DiffusionのようなAI画像生成ツールも、元の絵や写真とほぼ同じものを再現することが判明しています。
- モデルは言葉遣いだけでなく、構造、画像、芸術的スタイルもコピーできます。
- 別の研究によると、LLMによって作成されたコンテンツの8〜15%は、ウェブ上に原文のまま存在しています。
- これは巨大な法的リスクをもたらし、AIが市場から撤去されたり、ゼロから再トレーニングを余儀なくされたりする可能性があります。
- サム・アルトマン氏はAIの「学習する権利」を擁護していますが、研究者は人間との比較は誤解を招くと考えています。
- 専門家は、暗記は固有の特性であり、稀なバグではないと判断しています。
📌 スタンフォード大学とイェール大学の新しい研究は、大規模言語モデルが単に「学習」しているのではなく、本の内容を保存し、逐語的に再現していることを示しています。この発見は、生成AI業界の理論的基盤を揺るがすものです。モデルは人間のように「学習」するのではなく、データの圧縮と検索によって動作しており、大規模な著作権侵害のリスクにつながります。裁判所がAIモデルを違法なコピーと見なした場合、業界は何十億ドルもの罰金に直面し、将来のAI開発方法全体の再構築を余儀なくされる可能性があります。
