2025年9月8日月曜日

LLMの幻覚は、事前学習＝密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。

LLMの幻覚は、事前学習＝密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。ベースLMが分布に忠実＝校正されるほど、真例Vと誤例Eの混合判定では P(V|x) > 1/|E| を超えたときに「正しい」と答えるのがベイズ最適となり、Eの一部を不可避に正例化してしまう（誕生日のような“任意事実”ほど顕著）。さらにロングテールでは Good–Turing の「未観測質量（≒singleton率）」が誤りの下限となり、丸暗記が必要な事実ほど下限が高い。ゆえに事前学習だけでは幻覚は消えない。一方、事後学習＋評価の再設計で実用リスクは下げられる。具体策は（1）選択的予測でのRisk–Coverage曲線/AURC評価と「IDK可」の採点設計、（2）不正解×高確信への過信罰と校正指標併記、（3）根拠必須モードのRAG/検証連鎖、（4）データ品質に応じた記憶・出典ログ化。現行ベンチの多くは多択で推測を得点化しやすく、不確実でも回答を促すため、**“当て勘より棄権を報いる評価”**への転換が鍵である。 OpenAIcdn.openai.comarXivcs.columbia.eduOpenReview

清書メモ（論旨の骨子）

事前学習は分布の密度推定。妥当性判定器 IIV（Is-It-Valid）を考えると、真の分布Vと誤り集合E（例：ランダム生成）を1:1混合したタスクで、P(x∈V) > 1/|E| を満たすときに「妥当」と答えるのがベイズ最適。ゆえに一部のEは必ず「妥当」と誤判定される。OpenAI
**Good–Turing の“singleton率（1回出現の割合）≒未観測確率質量”**が下限の一つになり、ロングテールでは誤りをゼロにできない。Learning TheoryWikipedia
基本モデル（base）は**校正（calibration）**と誤り下限が理論的に結びつく。「完全に間違えない」には校正性を犠牲にする必要がある。arXivOpenAI
よって事前学習だけでは防ぎ切れない。一方、事後学習（RLHF/方針最適化・検証連鎖など）と評価設計次第で実用上の幻覚率は下げられる。OpenAIZenn
現行ベンチは「わからない」と言うインセンティブが弱く、多択での当て勘が報われやすい設計が多い。**選択的予測（abstention）**を前提にした評価が必要。arXivACL Anthology

補強ポイント（精度を上げるなら）

“1/|E|”の直観
等確率の誤りプールEを混ぜる設定では、決定境界は「言語モデルが与えた尤度 > 1/|E|」。誕生日例の「1/364」は（うるう日を除く簡略化として）分かりやすい。OpenAI
Good–Turingの根拠
未観測質量の推定が「一回だけ観測された項目の比率」に等しくなる古典結果を引用すると説得力が増します。Learning TheoryWikipedia
“基礎理論＋最新”の橋渡し
Kalai & Vempala (2023) は「校正されたLMは必ず幻覚する」と下限を与え、OpenAI (2025) は「ハルシネーションはベースで不可避だが、事後で緩和可能」を体系化しています。arXivOpenAI

ベンチマーク設計の提案（実装しやすい順）

IDK許容・採点：回答/不回答を同時最適化。Risk–Coverage曲線やAURCで評価（高リスクを“不回答”に振り分けられるか）。ACL Anthology
過信罰（overconfidence penalty）：不正解×高確信を強く減点。校正指標（ECE）も併記。arXiv
負例Eの統制：|E|や難度を操作し、境界条件（1/|E|）での挙動を測るA/Bセットを同梱。OpenAI
再言語化一貫性→選択的QA：同義再表現での一貫性を手掛かりに、低リスク部分の高被覆を評価。OpenReview
データ品質の項目化：ラベル/出典ノイズを“自動検出→除去”の有無で分割採点（Confident Learning 等）。arXiv+1

開発実務のヒント

Abstainファースト：確信度/証拠不足ならIDKを返す方針をポリシー化（タスク別に目標リスクを決め閾値を運用）。arXiv
検証連鎖（CoV）やRAGの“証拠必須”モード：出典が集まらない場合は非回答/要検索に倒す。Zenn
ノイズ意識の丸暗記：レア事実（誕生日など）は“記憶するなら根拠付き”に（出典キャッシュや監査ログを保存）。arXiv

用語集（IT技術者向け）

校正（Calibration）：確信度＝正解確率の整合性。高校正ほど上記の下限に縛られる。 arXiv
Good–Turing推定：一回出現（singleton）の比率で未観測確率質量を推定する古典手法。 cs.columbia.edu
未観測質量（Missing Mass）：学習集合に現れない事象の総確率。下限評価に直結。 cs.columbia.edu
選択的予測（Selective Prediction/Abstention）：不確実な入力で棄権（IDK）を許す設定。 ACL Anthology
Risk–Coverage曲線 / AURC：棄権で被覆率を下げつつリスク（誤り）を最小化する評価。 OpenReview
検証連鎖 / RAG（証拠必須）：回答を証拠で裏打ちし、証拠不足は非回答に倒す運用。 OpenAI

必要なら、このサマリをスライド1枚（図解：V/E混合と1/|E|境界・AURC・missing mass）に整えます。

ホログラムとGLSLのSDF 類似点と相違点

共通点

3D→2D符号化：3Dシーン情報を2Dパターン（干渉縞／距離場テクスチャ）に埋め込みます。
再構成：2Dから3Dらしさを復元（光の伝搬／レイマーチ）して立体を知覚させます。
場の表現：連続場（複素振幅／距離スカラー）として“連続的”に幾何を扱います。
GPU親和性：フラグメントシェーダで大規模並列計算が可能です。
視点非依存な元データ：1つの符号化から多視点の立体感を引き出せます。

相違点（対照表）

観点	ホログラム	GLSLのSDF	メモ
符号化量	位相/振幅（複素場）	距離スカラー	情報量はホロがリッチ
物理性	波動光学（回折・干渉）	幾何光学近似（距離・法線・BRDF）	焦点/調節手がかりはホロが再現
再構成	光の伝搬計算（Fresnel/AS法、FFT）	レイマーチ＋陰影	計算カーネルが根本的に異なる
遮蔽/多重像	場として自然に含む	距離ヒットで手続き的に表現	反射/屈折はSDFで拡張可
解像感	波長オーダーの高周波を保持	ステップ数・ε・精度に依存	SDFはジャギ/バンディングに注意
色	波長ごとに設計（単色が基本）	RGBで自由	ホロのカラーは難度・コスト高
奥行手がかり	両眼視＋調節＋回折ボケ	両眼視・運動視差中心	調節はSDFでは疑似的
データ設計	物体→位相マップ化が必要	形状→SDF合成が自然	制作ワークフローの違い
実体	実写/物理デバイスで実在像	画面上のレンダ	出力の用途が異なる
ノイズ特性	スペックル/回折ノイズ	サンプリング/誤差ノイズ	ノイズ対策の手法が別
スケーリング	FFTで大域計算	レイマーチで局所反復	並列性の質が違う
応用	ディスプレイ/計測/セキュリティ	DCC/可視化/デモシーン	産業領域が異なる

ブリッジ発想（相互に寄せる）

SDF→ホログラム風：ヒット深度 $z$ から位相 $\phi=2\pi z/\lambda$ を作り、Fresnel畳み込みで“再生”表現。
ホロ→SDF風：位相/振幅場から等位相面を抽出して等値面レンダ（擬似SDF）として可視化。

ひとことで

ホログラムは波（複素場）をそのまま持つ“物理的な3D”、SDFは距離場から“幾何学的に3Dを生成”。
どちらも「2Dの場に3Dを埋め込む」が、扱う“場”の中身（波 vs 距離）と再構成カーネル（伝搬 vs レイマーチ）が本質的に違います。

WEB3とAALの最新動向

NIST SP 800-63 Rev.4が最終版に。AAL要件の再整理と「パスキー/ウォレット/継続評価」の扱い明確化。特に“同期（sync）可能”資格情報やエクスポート可否の要件が追加されました。NIST Pages
端末内の加入者管理型ウォレット＝多要素暗号認証器として扱い得る。解錠（PIN/生体）→ウォレットが発行する署名付き・オーディエンス制限アサーションでフィッシング耐性を満たす整理。クラウド托管のみのウォレットは暗号学的MFAとは見なさず、連携アサーションとして扱う旨が明記。NIST Publications
同期パスキーとAAL：鍵を“同期ファブリック”に保管できる設計が規定されつつ、AAL3は非エクスポート鍵＋隔離実行環境が要件。実務上、同期パスキーはAAL2相当、HWキー常用でAAL3という線引きが現実的です。NIST Publications+1
OTPは非フィッシング耐性の立場を再確認（TOTP/SMS含む）。高リスク操作はFIDO/WebAuthnや上記ウォレット連携へ。NIST Publications
Web3側の前進：ERC-4337の普及でスマートアカウント運用が一般化、Pectra/EIP-7702でEOAの一時的委任・ガススポンサー等が容易に。パスキー連携のCoinbase Smart Walletなど、種々のウォレットがWebAuthnを正面採用。AlchemyLedgerCircleCoinbase
VC 2.0がW3C勧告に到達。SP 800-63C Rev.4の連携要件と相まって、eKYC/資格提示→ウォレット→AAL/FAL整合の設計がしやすくなりました。W3CNIST Computer Security Resource Center

実務ヒント（超短縮）

既定はAAL2＋フィッシング耐性（端末内パスキー/ウォレット）。高額送金・権限移譲はAAL3（非エクスポートHW鍵）。NIST Publications
クラウド托管のみはMFA扱いにできない前提でFAL側の保証（署名・オーディエンス制限）を強化。NIST Publications
回復設計（マルチデバイス、リカバリ鍵、委任）を4337/7702前提で用意。Circle
OTPは補助に留め、重要操作はOrigin束縛系に統一。NIST Publications

AAL3を満たしている製品やサービスの例を教えてください

代表例（ハードウェア認証器）

YubiKey 5 FIPS Series（FIDO2／PIV対応）
FIPS 140-2 検証済（Overall L2／Physical L3）。ベンダはAAL3要件を満たす用途を明記。Yubico+1
FEITIAN FIPS対応 FIDO2／PIVキー
FIPS 140-2 L2（Physical L3）などの検証実績があり、AAL3の多要素暗号ハードウェア条件を満たし得る。型番ごとにFIPS証跡を確認のこと。ftsafe.comFEITIAN Technologies US
Thales SafeNet eToken 5300（PKIトークン）
FIPS 140-2 Overall L3検証のモデルあり（PKI＋PINで多要素暗号ハードウェア）。一部は販売・証明のステータスが更新されているため調達時に現行証明を確認。NIST Computer Security Resource Centerdata-protection-updates.gemalto.com
PIV/CAC スマートカード（例：HID Crescendo など）
PIVはNISTの枠組み上、AAL3プロファイルで運用可能（Derived PIVもAAL3の証明書ポリシーあり）。製品はFIPS 140-2準拠のカード/モジュールを選定。pages.nist.govNIST Publicationshidglobal.com

代表例（IdP／サービス：AAL3「対応可能」な構成）

Microsoft Entra ID（旧 Azure AD）
FIDO2 セキュリティキー／スマートカード／Windows Hello for Business を用い、NIST AAL3の要件とFIPS検証に沿う構成ガイダンスを公式が提示。Microsoft Learn
Okta
FIPS対応YubiKey（FIDO2/WebAuthn）やCAC/PIVを使う構成でAAL3達成を案内する資料あり（商用セルでのFIPS適用範囲は別途注意）。Okta+1
Google Workspace／Advanced Protection
企業/管理者向けにFIDO2セキュリティキー（Titan等）を強制でき、フィッシング耐性のある2SVを提供。AAL3要件としてはFIPS検証キー＋検証器側のFIPS要件を満たす構成で運用すること。Google SupportGoogle Cloud

重要な前提（NIST 800-63Bの要点）

AAL3は「非エクスポート鍵のハードウェア暗号認証器」「フィッシング耐性（verifier impersonation resistance）」「FIPS 140条件」「再認証≤12時間等」を要求。**検証器（サーバ側）**もFIPS 140 L1以上が必要。NIST Publicationspages.nist.gov
多要素“暗号”ハードウェア認証器は単体でAAL3到達し得るが、運用/ポリシー（OTPフォールバック禁止、UV必須など）を誤るとセッション自体はAAL3と見なされない。pages.nist.gov

まとめ

デバイス例：YubiKey 5 FIPS、FEITIAN FIPSキー、Thales eToken 5300、PIV/CACカード。
サービス例：Entra ID／Okta（FIPS対応FIDO2やPIVでAAL3構成を提供）。
留意：AAL3は製品だけでなく構成と運用で決まります（FIPS検証レベル、オリジン束縛のWebAuthn/CBA、UV必須、弱いフォールバック無効化等）。NIST Publications

2025年9月7日日曜日

モデル別おすすめオンプレPC（自作/WS）早見表

モデル別おすすめオンプレPC早見表

モデル別おすすめオンプレPC（自作/WS）早見表

オンプレ前提。価格は税込・目安です（GPU相場により変動）。狭い画面では横スクロールできます。

Ransomware Article Abbreviations (with Importance & MFA Notes)
Abbreviation	Full form (English)	日本語（説明）	Category	覚える重要度	MFAの実務ポイント
AD	Active Directory	ディレクトリサービス	Platform	A（必須）	MFA/条件付きアクセス・パスキー登録の中核
AAL2	Authenticator Assurance Level 2	認証保証レベル2（NIST）	Identity/Security	A（必須）	業務MFAの最低基準。パスキーで満たす
CISA	Cybersecurity and Infrastructure Security Agency	米国サイバーセキュリティ・インフラ庁	Organization	A（必須）	一次資料：フィッシング耐性MFAを推奨
MFA	Multi-Factor Authentication	多要素認証	Identity/Security	A（必須）	本文中核。パスキー等“釣られないMFA”を採用
NIST	National Institute of Standards and Technology	米国標準技術研究所	Organization	A（必須）	AAL2/63Bの根拠。運用基準に直結
NIST SP 800-63B	Digital Identity Guidelines	NIST特別刊行800-63B	Standard/Publication	A（必須）	AAL2/フィッシング耐性MFAの要件
NISTIR 8374	NIST Interagency/Internal Report 8374 (Ransomware Risk Management)	NIST内部報告8374（ランサムウェアRM）	Standard/Publication	A（必須）	RMでMFA・復元テストの実務を要求
PAM	Privileged Access Management	特権アクセス管理	Security/Governance	A（必須）	特権操作はMFA必須＋承認
RDP	Remote Desktop Protocol	リモートデスクトップ	Protocol/Tech	A（必須）	公開禁止。例外はVPN後段＋MFAで保護
SSH	Secure Shell	セキュアシェル	Protocol/Tech	A（必須）	鍵＋MFA/SSO。管理系はMFA必須
VPN	Virtual Private Network	仮想専用網	Network/Security	A（必須）

モデル（サイズ）	おすすめ文章	できそうな用途（例）	推奨GPU/構成（VRAM目安）	GPU価格の目安	想定PC合計（概算）	備考
Qwen 3（7B/14B）	まずはこれ。FC安定＆高コスパ	日本語チャット／RAG、ツール呼び出しエージェント	GeForce RTX 4090（24GB）×1（24GBで余裕）	約35〜73万円	約55〜103万円	vLLMのFunction/Tool Callingで実装容易
Gemma 2（9B）	Google系の安定感。軽量FCで導入向き	要約／QA、軽量エージェント	RTX 4090×1	約35〜73万円	約55〜103万円	公式のFunction Calling手順あり
LLM-jp 13B（日本語）	日本語の素直さ重視なら本命	日本語社内FAQ／RAG、現場ボット	RTX 4090×1（量子化で快適）	約35〜73万円	約55〜103万円	Instruct系あり。ツール呼び出しはvLLM側で
ELYZA Japanese Llama-2 13B	国産Llama派の定番。RAGの土台に	日本語向けチャット／RAG	RTX 4090×1	約35〜73万円	約55〜103万円	GGUF等で軽量運用もしやすい
Mixtral 8×7B（MoE）	24GBで長文強いMoE	長文RAG、多言語、軽量エージェント	RTX 4090×1（4bit時 ≈22.5GB）	約35〜73万円	約55〜103万円	速度は7B密より控えめ／長文・多並列に強み
Llama 3.1 70B	精度と多段ツール重視の決定版	多段ツール／高度推論、社内横断エージェント	RTX 6000 Ada（48GB）×1 / L40S（48GB）×1 代替：RTX 4090×2（テンソル並列）	RTX 6000 Ada：約109万円 L40S：約149万円 4090×2：70〜146万円	RTX 6000 Ada構成：約129〜144万円 L40S構成：約169〜184万円 4090×2構成：約96〜187万円	70B 4bit ≈35GB → 48GB級が楽。2GPUは帯域に注意

※ 本体その他の目安：CPU（Core i7/i9 または Ryzen 9）、RAM 64–128GB、NVMe 2TB、電源 1000W級、筐体/冷却で約20〜30万円（2GPU構成は約25〜40万円想定）。
※ 価格は相場のレンジです。入手性・為替・モデルにより上下します。

P5LIVEは、ブラウザ上でp5.jsを即時実行しながら編集できるライブコーディング環境です

P5LIVEは、ブラウザ上でp5.jsを即時実行しながら編集できるライブコーディング環境です。オープンソース（MIT）でGitHub公開、ホットリロード、スニペット挿入、画面共有・共同編集などが利用でき、VJ的な実演や授業・ワークショップに向きます。UIはPC前提で情報量が多いため、スマホ特化にはフォークして①下部固定の大きな操作ボタン、②ワンタップのスニペットチップ、③PWA＋IndexedDBによるオフライン保存等を追加するのが現実的です。中核の実行部を流用でき、短期で最小版が構築可能です。また、自己ホスティングが容易で、学校やイベントのネットワーク環境にも柔軟に対応できます。スマホ版ではキャンバス／エディタのタブ切替、エラーオーバーレイ、共有用URL生成、テンプレート（setup/draw）からの開始、createCanvas(),background(),ellipse()など基本命令のプリセット化が有効です。これらはP5LIVEの設計思想と矛盾せず、軽量化と操作性の両立が可能です。

リンクはこちらです。

ライブ版（オンライン）: P5LIVE（ブラウザですぐ起動） [ ted davis ]
GitHub リポジトリ: ffd8/P5LIVE（READMEとソース一式） GitHub

※ READMEの「INSTALL」にオンライン/オフライン利用方法への案内があります

。 GitHub

グッターオイル

以下では、「グッターオイル（gutter oil＝地溝油）」の概要と、安全なリサイクルの考え方・日本での実例を要点でまとめます。

1) そもそも「グッターオイル」とは？

主に中国や台湾で問題化した、下水・排水溝・グリーストラップ・屠畜残渣などから回収した廃油や、過度に繰り返し加熱された使用済み油を“食用油”として不正再生したものの俗称です。健康リスク（PAHs＝多環芳香族炭化水素やベンゾ[a]ピレン等の有害物質の増加）が指摘され、各国で厳しく取り締まりの対象です。PMCcfs.gov.hk
中国では2010年前後から全国的な摘発・規制強化が進み、違法な食用転用は重罰の対象となっています。エメラルドウィキペディア

2) 「リサイクル」は“食用に戻さない”ことが大前提

使用済み食用油（UCO）は、食用に戻さず、バイオディーゼル（BDF）や持続可能な航空燃料（SAF）、石けん・脂肪酸など非食品用途に回すのが国際的・国内的な原則です。日本農林規格（JAS）にも、廃食用油のリサイクル工程管理が定義されています。農林水産省
EU などでは UCO 由来燃料にサプライチェーン認証（ISCC等）が用いられ、不正混入や“見せかけの廃油”を抑止するガイダンスが最新化されています。ISCC System+1starconcord.com.sg

3) 正規のリサイクル先（代表例）

バイオディーゼル（B5等）：上海では回収した廃油をB5（軽油95%＋脂肪酸メチルエステル5%）として公用車に利用する取り組みが報告されています。人民日報オンライン
SAF（持続可能な航空燃料）：日本でも UCO を原料にした SAF 供給や実証が進展。ユーグレナの「サステオ」や NEDO 実証、国内回収ボックス設置などの動きがあります。NEDOユーグレナ日本航空
石けん・飼料用油脂・脂肪酸：用途管理のもとで再生油脂を利用（JASに明記）。農林水産省

4) 日本での枠組み・実務ポイント

指針・規格：業界団体のBDFガイドライン（最新版 2024/2020版）や環境・エネルギー政策資料に、原料受入（酸価・水分・夾雑物など）や混合比（原則B5まで）、品質確認・保管などの注意点が整理されています。日本有機資源協会+1経済産業省
自治体・民間回収：自治体や企業が拠点回収→BDF化・SAF化する事例が多数。家庭油はPET等に入れて“回収拠点に持ち込む”のが基本です（下水へ流さない）。JAL などが全国の「すてる油」回収スポットを案内しています。農林水産省日本航空
工程管理JAS：回収〜再生〜出荷までの工程管理やトレーサビリティを規定。食品用途への転用は想定しておらず、非食品用途での安全・品質確保が主眼です。農林水産省

5) 健康リスクと「見分け」研究（参考）

不正再生油は加熱劣化物やPAHsなどが増えやすく、発がん性物質の懸念が公的機関からも示されています。cfs.gov.hk
研究面では、蛍光・ラマン・近赤外分光、GC/LC-MS、機械学習を用いた“その場”鑑別の試みも報告されています。サイエンスダイレクト+1PMC

まとめ（要点）

グッターオイル＝違法な“食用再生油”の俗称。リサイクルするなら非食品用途が原則。PMC
日本では、工程管理JASやBDFガイドラインに沿い、UCO→BDF/SAF/石けん等へ。家庭油は回収拠点へ。農林水産省日本有機資源協会日本航空

Food Safety in China: Science, Technology, Management and Regulation（Wiley, 2017）

中国の食品安全を総覧する定番。法規制やリスクコミュニケーション、**Food Fraud（不正混入・再生油問題など）**の章もあり、gutter oilに触れる文脈が揃っています。Kindle/ハードカバーあり。 Food Fraud Prevention Think Tank+3Amazon+3Amazon+3

https://it-lists.blogspot.com/2025/09/gutter-oi.html

Books pro

2025年9月8日月曜日

LLMの幻覚は、事前学習＝密度推定の統計的必然と、評価設計の歪みで統一的に説明できる。

清書メモ（論旨の骨子）

補強ポイント（精度を上げるなら）

ベンチマーク設計の提案（実装しやすい順）

開発実務のヒント

関連リンク

用語集（IT技術者向け）

ホログラムとGLSLのSDF 類似点と相違点

共通点

相違点（対照表）

ブリッジ発想（相互に寄せる）

ひとことで

WEB3とAALの最新動向

実務ヒント（超短縮）

AAL3を満たしている製品やサービスの例を教えてください

代表例（ハードウェア認証器）

代表例（IdP／サービス：AAL3「対応可能」な構成）

重要な前提（NIST 800-63Bの要点）

まとめ

2025年9月7日日曜日

モデル別おすすめオンプレPC（自作/WS）早見表

モデル別おすすめオンプレPC（自作/WS）早見表

P5LIVEは、ブラウザ上でp5.jsを即時実行しながら編集できるライブコーディング環境です

グッターオイル

1) そもそも「グッターオイル」とは？

2) 「リサイクル」は“食用に戻さない”ことが大前提

3) 正規のリサイクル先（代表例）

4) 日本での枠組み・実務ポイント

5) 健康リスクと「見分け」研究（参考）

まとめ（要点）

ラベル

ブログアーカイブ

2025年9月8日月曜日

清書メモ（論旨の骨子）

補強ポイント（精度を上げるなら）

ベンチマーク設計の提案（実装しやすい順）

開発実務のヒント

関連リンク

用語集（IT技術者向け）

共通点

相違点（対照表）

ブリッジ発想（相互に寄せる）

ひとことで

実務ヒント（超短縮）

代表例（ハードウェア認証器）

代表例（IdP／サービス：AAL3「対応可能」な構成）

重要な前提（NIST 800-63Bの要点）

まとめ

2025年9月7日日曜日

モデル別おすすめオンプレPC（自作/WS）早見表

1) そもそも「グッターオイル」とは？

2) 「リサイクル」は“食用に戻さない”ことが大前提

3) 正規のリサイクル先（代表例）

4) 日本での枠組み・実務ポイント

5) 健康リスクと「見分け」研究（参考）

まとめ（要点）

ラベル

ブログ アーカイブ

ブログアーカイブ