Books pro: ざっくり言うと――「n-gram（マルコフ連鎖）系の確率的カットアップ」です。

2025年8月24日日曜日

素材テキストを小片に分け、頻度と前後の連接関係から遷移確率を作り、重み付きランダムで文章を伸ばし、**前処理（前選択）／後処理（後選択）**で狙いの文体に整えています。

断片化
文字 or 語の n-gram に分割（日本語なら分かち書きは任意）。
統計化
出現回数（頻度）と隣接ペア（連接）をカウント＝遷移表を作成。
生成（確率的連結）
直前の断片に“つながりやすい”候補を重み付き乱択で選び、ランダムウォーク的に文を伸長。
制御（ルール）
文頭/文末トークン、最大長、同語連続の禁止、句読点比率などで暴走や破綻を抑制。
前選択／後選択
- 前選択：テーマに合う素材側の絞り込み（出典や語彙を偏らせる）。
- 後選択：出力フィルタ（禁則語、品詞・語尾パターン、句読点整形、スコア閾値）で仕上げ。

要するに、「頻度×連接」をコアに、乱択で並べ直し、ルールで体裁を整える――これが一般的な骨格です。

Books pro