2025年8月24日日曜日

ざっくり言うと――「n-gram(マルコフ連鎖)系の確率的カットアップ」です。

 素材テキストを小片に分け、頻度前後の連接関係から遷移確率を作り、重み付きランダムで文章を伸ばし、**前処理(前選択)/後処理(後選択)**で狙いの文体に整えています。

何をしているか(一般化)

  1. 断片化
    文字 or 語の n-gram に分割(日本語なら分かち書きは任意)。

  2. 統計化
    出現回数(頻度)と隣接ペア(連接)をカウント=遷移表を作成。

  3. 生成(確率的連結)
    直前の断片に“つながりやすい”候補を重み付き乱択で選び、ランダムウォーク的に文を伸長。

  4. 制御(ルール)
    文頭/文末トークン、最大長、同語連続の禁止、句読点比率などで暴走や破綻を抑制。

  5. 前選択/後選択

    • 前選択:テーマに合う素材側の絞り込み(出典や語彙を偏らせる)。

    • 後選択:出力フィルタ(禁則語、品詞・語尾パターン、句読点整形、スコア閾値)で仕上げ。

技法名の言い換え

  • マルコフ連鎖テキスト生成(n-gram 言語モデル)

  • 連接表+重み付きサンプリングによる確率的再配列

  • ヒューリスティックな前処理/後処理による品質制御

要するに、「頻度×連接」をコアに、乱択で並べ直し、ルールで体裁を整える――これが一般的な骨格です。