2025年9月8日月曜日

LLMの幻覚は、事前学習=密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。

 LLMの幻覚は、事前学習=密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。ベースLMが分布に忠実=校正されるほど、真例Vと誤例Eの混合判定では P(V|x) > 1/|E| を超えたときに「正しい」と答えるのがベイズ最適となり、Eの一部を不可避に正例化してしまう(誕生日のような“任意事実”ほど顕著)。さらにロングテールでは Good–Turing の「未観測質量(≒singleton率)」が誤りの下限となり、丸暗記が必要な事実ほど下限が高い。ゆえに事前学習だけでは幻覚は消えない。一方、事後学習+評価の再設計で実用リスクは下げられる。具体策は(1)選択的予測でのRisk–Coverage曲線/AURC評価と「IDK可」の採点設計、(2)不正解×高確信への過信罰校正指標併記、(3)根拠必須モードのRAG/検証連鎖、(4)データ品質に応じた記憶・出典ログ化。現行ベンチの多くは多択で推測を得点化しやすく、不確実でも回答を促すため、**“当て勘より棄権を報いる評価”**への転換が鍵である。 OpenAIcdn.openai.comarXivcs.columbia.eduOpenReview


清書メモ(論旨の骨子)

  • 事前学習は分布の密度推定。妥当性判定器 IIV(Is-It-Valid)を考えると、真の分布Vと誤り集合E(例:ランダム生成)を1:1混合したタスクで、P(x∈V) > 1/|E| を満たすときに「妥当」と答えるのがベイズ最適。ゆえに一部のEは必ず「妥当」と誤判定される。OpenAI

  • **Good–Turing の“singleton率(1回出現の割合)≒未観測確率質量”**が下限の一つになり、ロングテールでは誤りをゼロにできない。Learning TheoryWikipedia

  • 基本モデル(base)は**校正(calibration)**と誤り下限が理論的に結びつく。「完全に間違えない」には校正性を犠牲にする必要がある。arXivOpenAI

  • よって事前学習だけでは防ぎ切れない。一方、事後学習(RLHF/方針最適化・検証連鎖など)と評価設計次第で実用上の幻覚率は下げられる。OpenAIZenn

  • 現行ベンチは「わからない」と言うインセンティブが弱く、多択での当て勘が報われやすい設計が多い。**選択的予測(abstention)**を前提にした評価が必要。arXivACL Anthology

補強ポイント(精度を上げるなら)

  1. “1/|E|”の直観
    等確率の誤りプールEを混ぜる設定では、決定境界は「言語モデルが与えた尤度 > 1/|E|」。誕生日例の「1/364」は(うるう日を除く簡略化として)分かりやすい。OpenAI

  2. Good–Turingの根拠
    未観測質量の推定が「一回だけ観測された項目の比率」に等しくなる古典結果を引用すると説得力が増します。Learning TheoryWikipedia

  3. “基礎理論+最新”の橋渡し
    Kalai & Vempala (2023) は「校正されたLMは必ず幻覚する」と下限を与え、OpenAI (2025) は「ハルシネーションはベースで不可避だが、事後で緩和可能」を体系化しています。arXivOpenAI

ベンチマーク設計の提案(実装しやすい順)

  • IDK許容・採点:回答/不回答を同時最適化。Risk–Coverage曲線やAURCで評価(高リスクを“不回答”に振り分けられるか)。ACL Anthology

  • 過信罰(overconfidence penalty):不正解×高確信を強く減点。校正指標(ECE)も併記。arXiv

  • 負例Eの統制:|E|や難度を操作し、境界条件(1/|E|)での挙動を測るA/Bセットを同梱。OpenAI

  • 再言語化一貫性→選択的QA:同義再表現での一貫性を手掛かりに、低リスク部分の高被覆を評価。OpenReview

  • データ品質の項目化:ラベル/出典ノイズを“自動検出→除去”の有無で分割採点(Confident Learning 等)。arXiv+1

開発実務のヒント

  • Abstainファースト:確信度/証拠不足ならIDKを返す方針をポリシー化(タスク別に目標リスクを決め閾値を運用)。arXiv

  • 検証連鎖(CoV)やRAGの“証拠必須”モード:出典が集まらない場合は非回答/要検索に倒す。Zenn

  • ノイズ意識の丸暗記:レア事実(誕生日など)は“記憶するなら根拠付き”に(出典キャッシュや監査ログを保存)。arXiv

関連リンク

  • OpenAI: Why language models hallucinate(研究概要とPDF) OpenAIcdn.openai.com

  • Kalai & Vempala (2023/24): Calibrated Language Models Must Hallucinate(下限とGood–Turingの接続) arXivACM Digital Library

  • Anthropic (2022): Language Models (Mostly) Know What They Know(自己評価・校正) Anthropic

  • Good–Turingと未観測質量(講義ノート:missing massの基礎) cs.columbia.edu

  • Selective prediction / Risk–Coverage / AURC(評価設計の要点) OpenReviewACL AnthologyarXiv


用語集(IT技術者向け)

  • 校正(Calibration):確信度=正解確率の整合性。高校正ほど上記の下限に縛られる。 arXiv

  • Good–Turing推定:一回出現(singleton)の比率で未観測確率質量を推定する古典手法。 cs.columbia.edu

  • 未観測質量(Missing Mass):学習集合に現れない事象の総確率。下限評価に直結。 cs.columbia.edu

  • 選択的予測(Selective Prediction/Abstention):不確実な入力で棄権(IDK)を許す設定。 ACL Anthology

  • Risk–Coverage曲線 / AURC:棄権で被覆率を下げつつリスク(誤り)を最小化する評価。 OpenReview

  • 検証連鎖 / RAG(証拠必須):回答を証拠で裏打ちし、証拠不足は非回答に倒す運用。 OpenAI

必要なら、このサマリをスライド1枚(図解:V/E混合と1/|E|境界・AURC・missing mass)に整えます。