2026年4月4日土曜日

■ Urchin(アーチン)日本語サマリ

 

■ 1. 時系列

  • 1998年
    Paul Muret により開発開始
    → Webアクセスを「可視化する」ツールとして誕生
  • 2004年頃
    「Urchin On Demand」登場
    → 後のGoogle Analyticsの原型
  • 2005年
    Google が買収
    → 「Urchin from Google」として統合
  • 2005年11月
    Google Analyticsが無料化
    → Urchinは「クラウド版」と「オンプレ版」に分岐
  • 2008〜2010年
    Urchin 6 / 6.5 / 7 リリース
    → API・イベント・並列処理など強化
  • 2012年
    販売終了(ただし既存環境は継続利用可能)

■ 2. 基本思想(コア)

● ログ中心主義

  • すべての真実は「サーバーログ」にある
  • JSではなく「実際の通信記録」を使う

● バッチ処理思想

  • リアルタイムではなく後処理
  • ログをまとめて処理し、結果を構築

● データ主権(重要)

  • データは自分のサーバーに保持
  • 外部に送らない(=後のGAとの決定的違い)

● 再処理可能性

  • 過去ログを何度でも再解析できる
  • 設定変更で履歴を書き換えられる

■ 3. 技術仕様(かなり重要)

■ パイプライン

アクセス → サーバーログ → 解析 → 月次DB → レポート

■ 入力

  • Apache / IISログ
  • W3C形式
  • カスタムログ対応(.lf定義)

■ 処理

  • バッチ処理(スケジューラ)
  • プロファイル単位でロック制御
  • 異常時はロールバック

■ データ構造

  • 月単位DB
  • ハッシュテーブル構造
  • 事前集計(pre-aggregation)

👉 つまり
クエリ時ではなく事前に計算する設計


■ 制約(かなり本質)

  • ユニークレコード上限あり(例:10,000〜)
  • 高カーディナリティに弱い
  • メモリ依存

👉
自由な分析ではなく「設計された分析」


■ 出力

  • Web UI
  • HTML / SVG
  • Excel / Word出力

■ API

  • HTTPベース(セッションなし)
  • 認証必須
  • 外部ツール連携可能

■ 4. 技術思想の要点

■ ① 事前集計型

  • 重い処理は先にやる
  • レポートは軽くする

■ ② 状態固定型

  • 月次DBでスナップショット化
  • 過去は「確定された状態」

■ ③ ログ=真実

  • ページタグより信頼性重視
  • ボット・エラーも含めて観測

■ 5. OSS・コミュニティ

■ 結論

👉 Urchin本体はOSSではない(完全プロプライエタリ)


■ ただし周辺は開かれていた

  • Perlスクリプト群
  • API公開
  • ログ仕様公開
  • カスタムフォーマット対応

■ 痕跡(重要)

  • urchin.js(初期GAタグ)
  • UTMパラメータ
  • Google Analyticsの設計

👉
現在の計測文化の基盤を形成


■ 6. GAとの本質的違い

項目UrchinGoogle Analytics
データ源サーバーログブラウザJS
処理バッチリアルタイム
所有自社Google
モデル集計イベント

■ 7. 本質まとめ

Urchinとは:

👉 「ログを元に、現実を後から確定させる解析システム」