LLMの幻覚は、事前学習=密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。ベースLMが分布に忠実=校正されるほど、真例Vと誤例Eの混合判定では P(V|x) > 1/|E| を超えたときに「正しい」と答えるのがベイズ最適となり、Eの一部を不可避に正例化してしまう(誕生日のような“任意事実”ほど顕著)。さらにロングテールでは Good–Turing の「未観測質量(≒singleton率)」が誤りの下限となり、丸暗記が必要な事実ほど下限が高い。ゆえに事前学習だけでは幻覚は消えない。一方、事後学習+評価の再設計で実用リスクは下げられる。具体策は(1)選択的予測でのRisk–Coverage曲線/AURC評価と「IDK可」の採点設計、(2)不正解×高確信への過信罰と校正指標併記、(3)根拠必須モードのRAG/検証連鎖、(4)データ品質に応じた記憶・出典ログ化。現行ベンチの多くは多択で推測を得点化しやすく、不確実でも回答を促すため、**“当て勘より棄権を報いる評価”**への転換が鍵である。 OpenAIcdn.openai.comarXivcs.columbia.eduOpenReview
清書メモ(論旨の骨子)
-
事前学習は分布の密度推定。妥当性判定器 IIV(Is-It-Valid)を考えると、真の分布Vと誤り集合E(例:ランダム生成)を1:1混合したタスクで、P(x∈V) > 1/|E| を満たすときに「妥当」と答えるのがベイズ最適。ゆえに一部のEは必ず「妥当」と誤判定される。OpenAI
-
**Good–Turing の“singleton率(1回出現の割合)≒未観測確率質量”**が下限の一つになり、ロングテールでは誤りをゼロにできない。Learning TheoryWikipedia
-
基本モデル(base)は**校正(calibration)**と誤り下限が理論的に結びつく。「完全に間違えない」には校正性を犠牲にする必要がある。arXivOpenAI
-
よって事前学習だけでは防ぎ切れない。一方、事後学習(RLHF/方針最適化・検証連鎖など)と評価設計次第で実用上の幻覚率は下げられる。OpenAIZenn
-
現行ベンチは「わからない」と言うインセンティブが弱く、多択での当て勘が報われやすい設計が多い。**選択的予測(abstention)**を前提にした評価が必要。arXivACL Anthology
補強ポイント(精度を上げるなら)
-
“1/|E|”の直観
等確率の誤りプールEを混ぜる設定では、決定境界は「言語モデルが与えた尤度 > 1/|E|」。誕生日例の「1/364」は(うるう日を除く簡略化として)分かりやすい。OpenAI -
Good–Turingの根拠
未観測質量の推定が「一回だけ観測された項目の比率」に等しくなる古典結果を引用すると説得力が増します。Learning TheoryWikipedia -
“基礎理論+最新”の橋渡し
Kalai & Vempala (2023) は「校正されたLMは必ず幻覚する」と下限を与え、OpenAI (2025) は「ハルシネーションはベースで不可避だが、事後で緩和可能」を体系化しています。arXivOpenAI
ベンチマーク設計の提案(実装しやすい順)
-
IDK許容・採点:回答/不回答を同時最適化。Risk–Coverage曲線やAURCで評価(高リスクを“不回答”に振り分けられるか)。ACL Anthology
-
過信罰(overconfidence penalty):不正解×高確信を強く減点。校正指標(ECE)も併記。arXiv
-
負例Eの統制:|E|や難度を操作し、境界条件(1/|E|)での挙動を測るA/Bセットを同梱。OpenAI
-
再言語化一貫性→選択的QA:同義再表現での一貫性を手掛かりに、低リスク部分の高被覆を評価。OpenReview
-
データ品質の項目化:ラベル/出典ノイズを“自動検出→除去”の有無で分割採点(Confident Learning 等)。arXiv+1
開発実務のヒント
-
Abstainファースト:確信度/証拠不足ならIDKを返す方針をポリシー化(タスク別に目標リスクを決め閾値を運用)。arXiv
-
検証連鎖(CoV)やRAGの“証拠必須”モード:出典が集まらない場合は非回答/要検索に倒す。Zenn
-
ノイズ意識の丸暗記:レア事実(誕生日など)は“記憶するなら根拠付き”に(出典キャッシュや監査ログを保存)。arXiv
関連リンク
-
OpenAI: Why language models hallucinate(研究概要とPDF) OpenAIcdn.openai.com
-
Kalai & Vempala (2023/24): Calibrated Language Models Must Hallucinate(下限とGood–Turingの接続) arXivACM Digital Library
-
Anthropic (2022): Language Models (Mostly) Know What They Know(自己評価・校正) Anthropic
-
Good–Turingと未観測質量(講義ノート:missing massの基礎) cs.columbia.edu
-
Selective prediction / Risk–Coverage / AURC(評価設計の要点) OpenReviewACL AnthologyarXiv
用語集(IT技術者向け)
-
校正(Calibration):確信度=正解確率の整合性。高校正ほど上記の下限に縛られる。 arXiv
-
Good–Turing推定:一回出現(singleton)の比率で未観測確率質量を推定する古典手法。 cs.columbia.edu
-
未観測質量(Missing Mass):学習集合に現れない事象の総確率。下限評価に直結。 cs.columbia.edu
-
選択的予測(Selective Prediction/Abstention):不確実な入力で棄権(IDK)を許す設定。 ACL Anthology
-
Risk–Coverage曲線 / AURC:棄権で被覆率を下げつつリスク(誤り)を最小化する評価。 OpenReview
-
検証連鎖 / RAG(証拠必須):回答を証拠で裏打ちし、証拠不足は非回答に倒す運用。 OpenAI
必要なら、このサマリをスライド1枚(図解:V/E混合と1/|E|境界・AURC・missing mass)に整えます。