2026年5月21日木曜日

もつれ現象としてハルシネーションをとらえた例はありますか?

 

1. HallusionBench

かなり直接的な例です。
論文タイトル自体が “Entangled Language Hallucination and Visual Illusion” です。

これは大規模視覚言語モデル、つまり画像も読むLLMの失敗を調べるベンチマークで、画像理解において 言語的ハルシネーション視覚的錯覚 が絡み合うことを扱っています。画像にないものを、言語側の期待や文脈で補ってしまうような問題ですね。

ここでの「entangled」はかなりこちらの議論に近いです。
視覚スロットと言語スロットが独立に埋まるのではなく、画像からの情報、質問文、言語モデルの事前知識、Yes/Noバイアス、文脈推論 が絡んで、誤答が出る。

2. Causal-LLaVA / Causal Disentanglement

もう一つ近いのが、2025年の Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models です。

この論文は、物体ハルシネーションの原因として、学習データ内の共起バイアスにより entangled semantic representations、つまり「もつれた意味表現」が作られると説明しています。たとえば、画像に「キーボード」があると、頻繁に共起する「マウス」まで活性化してしまい、実際には写っていない物体を言ってしまう、というタイプです。

これはかなり「スロット間もつれ」です。

本来なら、

画像内の物体A
画像内の物体B
言語的に連想される物体C

を分けて扱うべきですが、学習表現の中で共起関係が絡み合っているため、Aを見たときにCまで「あるもの」として出てくる。

3. “Disentangling” 系の研究

ハルシネーション対策では、disentangle という語もよく出ます。
これは「もつれをほどく」という意味で、モデルの内部で混ざっている要因を分ける発想です。

たとえば、

  • 画像由来の根拠
  • 言語モデルの事前知識
  • 学習データの共起バイアス
  • 質問文の誘導
  • 文脈の自然さ
  • 外部検索文書の影響

を分離しようとする研究です。HallusionBenchも、視覚情報と言語的推論が絡む失敗を診断する構成になっています。

4. ただし「LLM一般のハルシネーション=もつれ」とはまだ言い切られていない

現時点で、研究の主流用語としては、

hallucination
faithfulness
grounding
context conflict
parametric knowledge
retrieval context
co-occurrence bias
entangled representations
causal disentanglement

あたりです。

「ハルシネーションはもつれ現象である」と大きく哲学的に定式化した標準理論がある、というより、マルチモーダルAIや表現学習の一部では、実際に“entangled”という語でかなり近い問題が扱われている、というのが正確です。

まとめると

あります。特に近いのは、

HallusionBench
言語的ハルシネーションと視覚的錯覚が絡む、という意味で “entangled” を前面に出している。

Causal-LLaVA
共起バイアスによって「もつれた意味表現」ができ、それが物体ハルシネーションを生むと説明している。

この二つは、いま話していた 「独立したスロットに値が入るのではなく、全体の文脈・共起・表現空間から複数スロットが同時に決まってしまう」 という見方にかなり近いです。