2025年9月8日月曜日

LLMの幻覚は、事前学習＝密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。

LLMの幻覚は、事前学習＝密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。ベースLMが分布に忠実＝校正されるほど、真例Vと誤例Eの混合判定では P(V|x) > 1/|E| を超えたときに「正しい」と答えるのがベイズ最適となり、Eの一部を不可避に正例化してしまう（誕生日のような“任意事実”ほど顕著）。さらにロングテールでは Good–Turing の「未観測質量（≒singleton率）」が誤りの下限となり、丸暗記が必要な事実ほど下限が高い。ゆえに事前学習だけでは幻覚は消えない。一方、事後学習＋評価の再設計で実用リスクは下げられる。具体策は（1）選択的予測でのRisk–Coverage曲線/AURC評価と「IDK可」の採点設計、（2）不正解×高確信への過信罰と校正指標併記、（3）根拠必須モードのRAG/検証連鎖、（4）データ品質に応じた記憶・出典ログ化。現行ベンチの多くは多択で推測を得点化しやすく、不確実でも回答を促すため、**“当て勘より棄権を報いる評価”**への転換が鍵である。 OpenAIcdn.openai.comarXivcs.columbia.eduOpenReview

清書メモ（論旨の骨子）

事前学習は分布の密度推定。妥当性判定器 IIV（Is-It-Valid）を考えると、真の分布Vと誤り集合E（例：ランダム生成）を1:1混合したタスクで、P(x∈V) > 1/|E| を満たすときに「妥当」と答えるのがベイズ最適。ゆえに一部のEは必ず「妥当」と誤判定される。OpenAI
**Good–Turing の“singleton率（1回出現の割合）≒未観測確率質量”**が下限の一つになり、ロングテールでは誤りをゼロにできない。Learning TheoryWikipedia
基本モデル（base）は**校正（calibration）**と誤り下限が理論的に結びつく。「完全に間違えない」には校正性を犠牲にする必要がある。arXivOpenAI
よって事前学習だけでは防ぎ切れない。一方、事後学習（RLHF/方針最適化・検証連鎖など）と評価設計次第で実用上の幻覚率は下げられる。OpenAIZenn
現行ベンチは「わからない」と言うインセンティブが弱く、多択での当て勘が報われやすい設計が多い。**選択的予測（abstention）**を前提にした評価が必要。arXivACL Anthology

補強ポイント（精度を上げるなら）

“1/|E|”の直観
等確率の誤りプールEを混ぜる設定では、決定境界は「言語モデルが与えた尤度 > 1/|E|」。誕生日例の「1/364」は（うるう日を除く簡略化として）分かりやすい。OpenAI
Good–Turingの根拠
未観測質量の推定が「一回だけ観測された項目の比率」に等しくなる古典結果を引用すると説得力が増します。Learning TheoryWikipedia
“基礎理論＋最新”の橋渡し
Kalai & Vempala (2023) は「校正されたLMは必ず幻覚する」と下限を与え、OpenAI (2025) は「ハルシネーションはベースで不可避だが、事後で緩和可能」を体系化しています。arXivOpenAI

ベンチマーク設計の提案（実装しやすい順）

IDK許容・採点：回答/不回答を同時最適化。Risk–Coverage曲線やAURCで評価（高リスクを“不回答”に振り分けられるか）。ACL Anthology
過信罰（overconfidence penalty）：不正解×高確信を強く減点。校正指標（ECE）も併記。arXiv
負例Eの統制：|E|や難度を操作し、境界条件（1/|E|）での挙動を測るA/Bセットを同梱。OpenAI
再言語化一貫性→選択的QA：同義再表現での一貫性を手掛かりに、低リスク部分の高被覆を評価。OpenReview
データ品質の項目化：ラベル/出典ノイズを“自動検出→除去”の有無で分割採点（Confident Learning 等）。arXiv+1

開発実務のヒント

Abstainファースト：確信度/証拠不足ならIDKを返す方針をポリシー化（タスク別に目標リスクを決め閾値を運用）。arXiv
検証連鎖（CoV）やRAGの“証拠必須”モード：出典が集まらない場合は非回答/要検索に倒す。Zenn
ノイズ意識の丸暗記：レア事実（誕生日など）は“記憶するなら根拠付き”に（出典キャッシュや監査ログを保存）。arXiv

用語集（IT技術者向け）

校正（Calibration）：確信度＝正解確率の整合性。高校正ほど上記の下限に縛られる。 arXiv
Good–Turing推定：一回出現（singleton）の比率で未観測確率質量を推定する古典手法。 cs.columbia.edu
未観測質量（Missing Mass）：学習集合に現れない事象の総確率。下限評価に直結。 cs.columbia.edu
選択的予測（Selective Prediction/Abstention）：不確実な入力で棄権（IDK）を許す設定。 ACL Anthology
Risk–Coverage曲線 / AURC：棄権で被覆率を下げつつリスク（誤り）を最小化する評価。 OpenReview
検証連鎖 / RAG（証拠必須）：回答を証拠で裏打ちし、証拠不足は非回答に倒す運用。 OpenAI

必要なら、このサマリをスライド1枚（図解：V/E混合と1/|E|境界・AURC・missing mass）に整えます。

Books pro

2025年9月8日月曜日

LLMの幻覚は、事前学習＝密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。

清書メモ（論旨の骨子）

補強ポイント（精度を上げるなら）

ベンチマーク設計の提案（実装しやすい順）

開発実務のヒント

関連リンク

用語集（IT技術者向け）

ラベル

ブログアーカイブ

2025年9月8日月曜日

LLMの幻覚は、事前学習＝密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。

清書メモ（論旨の骨子）

補強ポイント（精度を上げるなら）

ベンチマーク設計の提案（実装しやすい順）

開発実務のヒント

関連リンク

用語集（IT技術者向け）

ラベル

ブログ アーカイブ

ブログアーカイブ