2025年9月8日月曜日

LLMの幻覚は、事前学習=密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。

 LLMの幻覚は、事前学習=密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。ベースLMが分布に忠実=校正されるほど、真例Vと誤例Eの混合判定では P(V|x) > 1/|E| を超えたときに「正しい」と答えるのがベイズ最適となり、Eの一部を不可避に正例化してしまう(誕生日のような“任意事実”ほど顕著)。さらにロングテールでは Good–Turing の「未観測質量(≒singleton率)」が誤りの下限となり、丸暗記が必要な事実ほど下限が高い。ゆえに事前学習だけでは幻覚は消えない。一方、事後学習+評価の再設計で実用リスクは下げられる。具体策は(1)選択的予測でのRisk–Coverage曲線/AURC評価と「IDK可」の採点設計、(2)不正解×高確信への過信罰校正指標併記、(3)根拠必須モードのRAG/検証連鎖、(4)データ品質に応じた記憶・出典ログ化。現行ベンチの多くは多択で推測を得点化しやすく、不確実でも回答を促すため、**“当て勘より棄権を報いる評価”**への転換が鍵である。 OpenAIcdn.openai.comarXivcs.columbia.eduOpenReview


清書メモ(論旨の骨子)

  • 事前学習は分布の密度推定。妥当性判定器 IIV(Is-It-Valid)を考えると、真の分布Vと誤り集合E(例:ランダム生成)を1:1混合したタスクで、P(x∈V) > 1/|E| を満たすときに「妥当」と答えるのがベイズ最適。ゆえに一部のEは必ず「妥当」と誤判定される。OpenAI

  • **Good–Turing の“singleton率(1回出現の割合)≒未観測確率質量”**が下限の一つになり、ロングテールでは誤りをゼロにできない。Learning TheoryWikipedia

  • 基本モデル(base)は**校正(calibration)**と誤り下限が理論的に結びつく。「完全に間違えない」には校正性を犠牲にする必要がある。arXivOpenAI

  • よって事前学習だけでは防ぎ切れない。一方、事後学習(RLHF/方針最適化・検証連鎖など)と評価設計次第で実用上の幻覚率は下げられる。OpenAIZenn

  • 現行ベンチは「わからない」と言うインセンティブが弱く、多択での当て勘が報われやすい設計が多い。**選択的予測(abstention)**を前提にした評価が必要。arXivACL Anthology

補強ポイント(精度を上げるなら)

  1. “1/|E|”の直観
    等確率の誤りプールEを混ぜる設定では、決定境界は「言語モデルが与えた尤度 > 1/|E|」。誕生日例の「1/364」は(うるう日を除く簡略化として)分かりやすい。OpenAI

  2. Good–Turingの根拠
    未観測質量の推定が「一回だけ観測された項目の比率」に等しくなる古典結果を引用すると説得力が増します。Learning TheoryWikipedia

  3. “基礎理論+最新”の橋渡し
    Kalai & Vempala (2023) は「校正されたLMは必ず幻覚する」と下限を与え、OpenAI (2025) は「ハルシネーションはベースで不可避だが、事後で緩和可能」を体系化しています。arXivOpenAI

ベンチマーク設計の提案(実装しやすい順)

  • IDK許容・採点:回答/不回答を同時最適化。Risk–Coverage曲線やAURCで評価(高リスクを“不回答”に振り分けられるか)。ACL Anthology

  • 過信罰(overconfidence penalty):不正解×高確信を強く減点。校正指標(ECE)も併記。arXiv

  • 負例Eの統制:|E|や難度を操作し、境界条件(1/|E|)での挙動を測るA/Bセットを同梱。OpenAI

  • 再言語化一貫性→選択的QA:同義再表現での一貫性を手掛かりに、低リスク部分の高被覆を評価。OpenReview

  • データ品質の項目化:ラベル/出典ノイズを“自動検出→除去”の有無で分割採点(Confident Learning 等)。arXiv+1

開発実務のヒント

  • Abstainファースト:確信度/証拠不足ならIDKを返す方針をポリシー化(タスク別に目標リスクを決め閾値を運用)。arXiv

  • 検証連鎖(CoV)やRAGの“証拠必須”モード:出典が集まらない場合は非回答/要検索に倒す。Zenn

  • ノイズ意識の丸暗記:レア事実(誕生日など)は“記憶するなら根拠付き”に(出典キャッシュや監査ログを保存)。arXiv

関連リンク

  • OpenAI: Why language models hallucinate(研究概要とPDF) OpenAIcdn.openai.com

  • Kalai & Vempala (2023/24): Calibrated Language Models Must Hallucinate(下限とGood–Turingの接続) arXivACM Digital Library

  • Anthropic (2022): Language Models (Mostly) Know What They Know(自己評価・校正) Anthropic

  • Good–Turingと未観測質量(講義ノート:missing massの基礎) cs.columbia.edu

  • Selective prediction / Risk–Coverage / AURC(評価設計の要点) OpenReviewACL AnthologyarXiv


用語集(IT技術者向け)

  • 校正(Calibration):確信度=正解確率の整合性。高校正ほど上記の下限に縛られる。 arXiv

  • Good–Turing推定:一回出現(singleton)の比率で未観測確率質量を推定する古典手法。 cs.columbia.edu

  • 未観測質量(Missing Mass):学習集合に現れない事象の総確率。下限評価に直結。 cs.columbia.edu

  • 選択的予測(Selective Prediction/Abstention):不確実な入力で棄権(IDK)を許す設定。 ACL Anthology

  • Risk–Coverage曲線 / AURC:棄権で被覆率を下げつつリスク(誤り)を最小化する評価。 OpenReview

  • 検証連鎖 / RAG(証拠必須):回答を証拠で裏打ちし、証拠不足は非回答に倒す運用。 OpenAI

必要なら、このサマリをスライド1枚(図解:V/E混合と1/|E|境界・AURC・missing mass)に整えます。

ホログラムとGLSLのSDF 類似点と相違点

 

共通点

  • 3D→2D符号化:3Dシーン情報を2Dパターン(干渉縞/距離場テクスチャ)に埋め込みます。

  • 再構成:2Dから3Dらしさを復元(光の伝搬/レイマーチ)して立体を知覚させます。

  • 場の表現:連続場(複素振幅/距離スカラー)として“連続的”に幾何を扱います。

  • GPU親和性:フラグメントシェーダで大規模並列計算が可能です。

  • 視点非依存な元データ:1つの符号化から多視点の立体感を引き出せます。

相違点(対照表)

観点ホログラムGLSLのSDFメモ
符号化量位相/振幅(複素場)距離スカラー情報量はホロがリッチ
物理性波動光学(回折・干渉)幾何光学近似(距離・法線・BRDF)焦点/調節手がかりはホロが再現
再構成光の伝搬計算(Fresnel/AS法、FFT)レイマーチ+陰影計算カーネルが根本的に異なる
遮蔽/多重像場として自然に含む距離ヒットで手続き的に表現反射/屈折はSDFで拡張可
解像感波長オーダーの高周波を保持ステップ数・ε・精度に依存SDFはジャギ/バンディングに注意
波長ごとに設計(単色が基本)RGBで自由ホロのカラーは難度・コスト高
奥行手がかり両眼視+調節+回折ボケ両眼視・運動視差中心調節はSDFでは疑似的
データ設計物体→位相マップ化が必要形状→SDF合成が自然制作ワークフローの違い
実体実写/物理デバイスで実在像画面上のレンダ出力の用途が異なる
ノイズ特性スペックル/回折ノイズサンプリング/誤差ノイズノイズ対策の手法が別
スケーリングFFTで大域計算レイマーチで局所反復並列性の質が違う
応用ディスプレイ/計測/セキュリティDCC/可視化/デモシーン産業領域が異なる

ブリッジ発想(相互に寄せる)

  • SDF→ホログラム風:ヒット深度 zz から位相 ϕ=2πz/λ\phi=2\pi z/\lambda を作り、Fresnel畳み込みで“再生”表現。

  • ホロ→SDF風:位相/振幅場から等位相面を抽出して等値面レンダ(擬似SDF)として可視化。

ひとことで

  • ホログラムは波(複素場)をそのまま持つ“物理的な3D”、SDFは距離場から“幾何学的に3Dを生成”

  • どちらも「2Dの場に3Dを埋め込む」が、扱う“場”の中身(波 vs 距離)と再構成カーネル(伝搬 vs レイマーチ)が本質的に違います。

WEB3とAALの最新動向

 

  • NIST SP 800-63 Rev.4が最終版に。AAL要件の再整理と「パスキー/ウォレット/継続評価」の扱い明確化。特に“同期(sync)可能”資格情報やエクスポート可否の要件が追加されました。NIST Pages

  • 端末内の加入者管理型ウォレット=多要素暗号認証器として扱い得る。解錠(PIN/生体)→ウォレットが発行する署名付き・オーディエンス制限アサーションでフィッシング耐性を満たす整理。クラウド托管のみのウォレットは暗号学的MFAとは見なさず、連携アサーションとして扱う旨が明記。NIST Publications

  • 同期パスキーとAAL:鍵を“同期ファブリック”に保管できる設計が規定されつつ、AAL3は非エクスポート鍵+隔離実行環境が要件。実務上、同期パスキーはAAL2相当、HWキー常用でAAL3という線引きが現実的です。NIST Publications+1

  • OTPは非フィッシング耐性の立場を再確認(TOTP/SMS含む)。高リスク操作はFIDO/WebAuthnや上記ウォレット連携へ。NIST Publications

  • Web3側の前進ERC-4337の普及でスマートアカウント運用が一般化、Pectra/EIP-7702でEOAの一時的委任・ガススポンサー等が容易に。パスキー連携のCoinbase Smart Walletなど、種々のウォレットがWebAuthnを正面採用。AlchemyLedgerCircleCoinbase

  • VC 2.0がW3C勧告に到達。SP 800-63C Rev.4の連携要件と相まって、eKYC/資格提示→ウォレット→AAL/FAL整合の設計がしやすくなりました。W3CNIST Computer Security Resource Center

実務ヒント(超短縮)

  1. 既定はAAL2+フィッシング耐性(端末内パスキー/ウォレット)。高額送金・権限移譲はAAL3(非エクスポートHW鍵)NIST Publications

  2. クラウド托管のみはMFA扱いにできない前提でFAL側の保証(署名・オーディエンス制限)を強化。NIST Publications

  3. 回復設計(マルチデバイス、リカバリ鍵、委任)を4337/7702前提で用意。Circle

  4. OTPは補助に留め、重要操作はOrigin束縛系に統一。NIST Publications

AAL3を満たしている製品やサービスの例を教えてください

 

代表例(ハードウェア認証器)

  • YubiKey 5 FIPS Series(FIDO2/PIV対応)
    FIPS 140-2 検証済(Overall L2/Physical L3)。ベンダはAAL3要件を満たす用途を明記。Yubico+1

  • FEITIAN FIPS対応 FIDO2/PIVキー
    FIPS 140-2 L2(Physical L3)などの検証実績があり、AAL3の多要素暗号ハードウェア条件を満たし得る。型番ごとにFIPS証跡を確認のこと。ftsafe.comFEITIAN Technologies US

  • Thales SafeNet eToken 5300(PKIトークン)
    FIPS 140-2 Overall L3検証のモデルあり(PKI+PINで多要素暗号ハードウェア)。一部は販売・証明のステータスが更新されているため調達時に現行証明を確認。NIST Computer Security Resource Centerdata-protection-updates.gemalto.com

  • PIV/CAC スマートカード(例:HID Crescendo など)
    PIVはNISTの枠組み上、AAL3プロファイルで運用可能(Derived PIVもAAL3の証明書ポリシーあり)。製品はFIPS 140-2準拠のカード/モジュールを選定。pages.nist.govNIST Publicationshidglobal.com

代表例(IdP/サービス:AAL3「対応可能」な構成)

  • Microsoft Entra ID(旧 Azure AD)
    FIDO2 セキュリティキー/スマートカード/Windows Hello for Business を用い、NIST AAL3の要件とFIPS検証に沿う構成ガイダンスを公式が提示。Microsoft Learn

  • Okta
    FIPS対応YubiKey(FIDO2/WebAuthn)CAC/PIVを使う構成でAAL3達成を案内する資料あり(商用セルでのFIPS適用範囲は別途注意)。Okta+1

  • Google Workspace/Advanced Protection
    企業/管理者向けにFIDO2セキュリティキー(Titan等)を強制でき、フィッシング耐性のある2SVを提供。AAL3要件としてはFIPS検証キー+検証器側のFIPS要件を満たす構成で運用すること。Google SupportGoogle Cloud

重要な前提(NIST 800-63Bの要点)

  • AAL3は非エクスポート鍵のハードウェア暗号認証器」「フィッシング耐性(verifier impersonation resistance)」「FIPS 140条件」「再認証≤12時間等」を要求。**検証器(サーバ側)**もFIPS 140 L1以上が必要。NIST Publicationspages.nist.gov

  • 多要素“暗号”ハードウェア認証器単体でAAL3到達し得るが、運用/ポリシー(OTPフォールバック禁止、UV必須など)を誤るとセッション自体はAAL3と見なされないpages.nist.gov

まとめ

  • デバイス例:YubiKey 5 FIPS、FEITIAN FIPSキー、Thales eToken 5300、PIV/CACカード。

  • サービス例:Entra ID/Okta(FIPS対応FIDO2やPIVでAAL3構成を提供)。

  • 留意:AAL3は製品だけでなく構成と運用で決まります(FIPS検証レベル、オリジン束縛のWebAuthn/CBA、UV必須、弱いフォールバック無効化等)。NIST Publications




2025年9月7日日曜日

モデル別おすすめオンプレPC(自作/WS)早見表

モデル別おすすめオンプレPC早見表

モデル別おすすめオンプレPC(自作/WS)早見表

オンプレ前提。価格は税込・目安です(GPU相場により変動)。狭い画面では横スクロールできます。

Ransomware Article Abbreviations (with Importance & MFA Notes)
Abbreviation Full form (English) 日本語(説明) Category 覚える重要度 MFAの実務ポイント
AD Active Directory ディレクトリサービス Platform A(必須) MFA/条件付きアクセス・パスキー登録の中核
AAL2 Authenticator Assurance Level 2 認証保証レベル2(NIST) Identity/Security A(必須) 業務MFAの最低基準。パスキーで満たす
CISA Cybersecurity and Infrastructure Security Agency 米国サイバーセキュリティ・インフラ庁 Organization A(必須) 一次資料:フィッシング耐性MFAを推奨
MFA Multi-Factor Authentication 多要素認証 Identity/Security A(必須) 本文中核。パスキー等“釣られないMFA”を採用
NIST National Institute of Standards and Technology 米国標準技術研究所 Organization A(必須) AAL2/63Bの根拠。運用基準に直結
NIST SP 800-63B Digital Identity Guidelines NIST特別刊行800-63B Standard/Publication A(必須) AAL2/フィッシング耐性MFAの要件
NISTIR 8374 NIST Interagency/Internal Report 8374 (Ransomware Risk Management) NIST内部報告8374(ランサムウェアRM) Standard/Publication A(必須) RMでMFA・復元テストの実務を要求
PAM Privileged Access Management 特権アクセス管理 Security/Governance A(必須) 特権操作はMFA必須+承認
RDP Remote Desktop Protocol リモートデスクトップ Protocol/Tech A(必須) 公開禁止。例外はVPN後段+MFAで保護
SSH Secure Shell セキュアシェル Protocol/Tech A(必須) 鍵+MFA/SSO。管理系はMFA必須
VPN Virtual Private Network 仮想専用網 Network/Security A(必須)
モデル(サイズ) おすすめ文章 できそうな用途(例) 推奨GPU/構成(VRAM目安) GPU価格の目安 想定PC合計(概算) 備考
Qwen 3(7B/14B) まずはこれ。FC安定&高コスパ 日本語チャット/RAG、ツール呼び出しエージェント GeForce RTX 4090(24GB)×1(24GBで余裕) 約35〜73万円 約55〜103万円 vLLMのFunction/Tool Callingで実装容易
Gemma 2(9B) Google系の安定感。軽量FCで導入向き 要約/QA、軽量エージェント RTX 4090×1 約35〜73万円 約55〜103万円 公式のFunction Calling手順あり
LLM-jp 13B(日本語) 日本語の素直さ重視なら本命 日本語社内FAQ/RAG、現場ボット RTX 4090×1(量子化で快適) 約35〜73万円 約55〜103万円 Instruct系あり。ツール呼び出しはvLLM側で
ELYZA Japanese Llama-2 13B 国産Llama派の定番。RAGの土台に 日本語向けチャット/RAG RTX 4090×1 約35〜73万円 約55〜103万円 GGUF等で軽量運用もしやすい
Mixtral 8×7B(MoE) 24GBで長文強いMoE 長文RAG、多言語、軽量エージェント RTX 4090×1(4bit時 ≈22.5GB 約35〜73万円 約55〜103万円 速度は7B密より控えめ/長文・多並列に強み
Llama 3.1 70B 精度と多段ツール重視の決定版 多段ツール/高度推論、社内横断エージェント RTX 6000 Ada(48GB)×1 / L40S(48GB)×1
代替:RTX 4090×2(テンソル並列)
RTX 6000 Ada:約109万円
L40S:約149万円
4090×2:70〜146万円
RTX 6000 Ada構成:約129〜144万円
L40S構成:約169〜184万円
4090×2構成:約96〜187万円
70B 4bit ≈35GB → 48GB級が楽。2GPUは帯域に注意

※ 本体その他の目安:CPU(Core i7/i9 または Ryzen 9)、RAM 64–128GB、NVMe 2TB、 電源 1000W級、筐体/冷却で約20〜30万円(2GPU構成は約25〜40万円想定)。
※ 価格は相場のレンジです。入手性・為替・モデルにより上下します。

グッターオイル

 以下では、「グッターオイル(gutter oil=地溝油)」の概要と、安全なリサイクルの考え方・日本での実例を要点でまとめます。

1) そもそも「グッターオイル」とは?

  • 主に中国や台湾で問題化した、下水・排水溝・グリーストラップ・屠畜残渣などから回収した廃油や、過度に繰り返し加熱された使用済み油を“食用油”として不正再生したものの俗称です。健康リスク(PAHs=多環芳香族炭化水素やベンゾ[a]ピレン等の有害物質の増加)が指摘され、各国で厳しく取り締まりの対象です。PMCcfs.gov.hk

  • 中国では2010年前後から全国的な摘発・規制強化が進み、違法な食用転用は重罰の対象となっています。エメラルドウィキペディア

2) 「リサイクル」は“食用に戻さない”ことが大前提

  • 使用済み食用油(UCO)は、食用に戻さず、バイオディーゼル(BDF)や持続可能な航空燃料(SAF)、石けん・脂肪酸など非食品用途に回すのが国際的・国内的な原則です。日本農林規格(JAS)にも、廃食用油のリサイクル工程管理が定義されています。農林水産省

  • EU などでは UCO 由来燃料にサプライチェーン認証(ISCC等)が用いられ、不正混入や“見せかけの廃油”を抑止するガイダンスが最新化されています。ISCC System+1starconcord.com.sg

3) 正規のリサイクル先(代表例)

  • バイオディーゼル(B5等):上海では回収した廃油をB5(軽油95%+脂肪酸メチルエステル5%)として公用車に利用する取り組みが報告されています。人民日報オンライン

  • SAF(持続可能な航空燃料):日本でも UCO を原料にした SAF 供給や実証が進展。ユーグレナの「サステオ」や NEDO 実証、国内回収ボックス設置などの動きがあります。NEDOユーグレナ日本航空

  • 石けん・飼料用油脂・脂肪酸:用途管理のもとで再生油脂を利用(JASに明記)。農林水産省

4) 日本での枠組み・実務ポイント

  • 指針・規格:業界団体のBDFガイドライン(最新版 2024/2020版)や環境・エネルギー政策資料に、原料受入(酸価・水分・夾雑物など)や混合比(原則B5まで)、品質確認・保管などの注意点が整理されています。日本有機資源協会+1経済産業省

  • 自治体・民間回収:自治体や企業が拠点回収→BDF化・SAF化する事例が多数。家庭油はPET等に入れて“回収拠点に持ち込む”のが基本です(下水へ流さない)。JAL などが全国の「すてる油」回収スポットを案内しています。農林水産省日本航空

  • 工程管理JAS:回収〜再生〜出荷までの工程管理やトレーサビリティを規定。食品用途への転用は想定しておらず、非食品用途での安全・品質確保が主眼です。農林水産省

5) 健康リスクと「見分け」研究(参考)

  • 不正再生油は加熱劣化物やPAHsなどが増えやすく、発がん性物質の懸念が公的機関からも示されています。cfs.gov.hk

  • 研究面では、蛍光・ラマン・近赤外分光、GC/LC-MS、機械学習を用いた“その場”鑑別の試みも報告されています。サイエンスダイレクト+1PMC


まとめ(要点)

  • グッターオイル=違法な“食用再生油”の俗称。リサイクルするなら非食品用途が原則。PMC

  • 日本では、工程管理JASBDFガイドラインに沿い、UCO→BDF/SAF/石けん等へ。家庭油は回収拠点へ農林水産省日本有機資源協会日本航空

ブラウザだけで“Blenderっぽい”3D制作ができるサービス

 汎用3D/アニメ・インタラクション寄り

  • Spline:モデリング、マテリアル、インタラクション、Web公開。glTF/GLB書き出しに対応。spline.designdocs.spline.design

  • Vectary:ブラウザ完結の3D&WebAR。glTF/OBJ/STLの読み込み、Web埋め込みに強い。vectary.com+2vectary.com+2

  • three.js Editor:three.jsの公式オンラインエディタ。GLB/GLTF/USDZなどにエクスポート可能(本格DCCというよりシーン編集に最適)。threejs.org

入門・教育/3Dプリント向け

  • Tinkercad(Autodesk):無料で直感的。3D設計・電子工作・コードまでブラウザで。Tinkercad

  • SelfCAD:オンラインでモデリング&スカルプト&レンダ。3Dプリント準備の機能も。SelfCAD+1

  • Figuro:ポリゴンモデリングに特化。OBJ/STLの入出力に対応。figuro.ioitch.io

CAD(機械・プロダクト設計)

  • Onshape:フルクラウドCAD。同時編集やコメントなどリアルタイム協調が強力。onshape.com

  • SketchUp for Web:定番のSketchUpをブラウザで。無料版あり、STL等の入出力や拡張でglTF/GLB/USdzも。sketchup.trimble.com+1help.sketchup.com

スカルプト/ボクセル・ローポリ

  • Womp:ブラウザで“ソリッド(SDF)”ベース造形。STL/OBJ/PLYへ書き出し可。womp.com

  • SculptGL:軽量WebGLスカルプト。stephaneginier.com

  • Blockbench:低ポリ/ボクセル系に最適。テクスチャ編集やWebアプリ版あり。blockbench.netMicrosoft Learn

アニメーション(リギング&モーション)

  • Mixamo(Adobe):ブラウザで自動リギング&膨大なモーション。FBXなどでダウンロード可能。Adobeヘルプセンター+1

(注意)レガシーだけど今も動く場合あり

  • Clara.io:かつては本格的なブラウザDCC。2022年に閉鎖告知が出たものの、現在も部分的に稼働との報告があり、安定性は未保証です。試す場合は自己責任で。CGChannelGameFromScratch.comwiki.archiveteam.org


ざっくり選び方

  • Webでそのまま見せたい・触ってほしい:Spline / Vectary / three.js Editor

  • 3Dプリントや教育用途:Tinkercad / SelfCAD / Figuro

  • 機械設計・図面的ワークフロー:Onshape / SketchUp for Web

  • スカルプトやボクセル表現:Womp / SculptGL / Blockbench

  • 人型の動きだけ欲しい:Mixamo