Recotem に SQL / GA4 Data API データソースを追加

推薦システム構築ツール Recotem のレシピ駆動パイプラインに、2 つのファーストパーティデータソースを追加しました。SQLAlchemy 2 経由の汎用 SQL ソース (sql) と、Google Analytics 4 Data API の直接読み込みソース (ga4) です。これまで標準対応していた CSV / Parquet / BigQuery に加え、運用中の RDB や GA4 から直接学習データを取り込めるようになっています。

追加した 2 つのデータソース

sql — 汎用 SQL データソース

SQLAlchemy 2 を使った汎用的な SQL データソースで、PostgreSQL / MySQL / MariaDB / SQLite に対応します。

data:
  source: sql
  dsn_env: RECOTEM_PURCHASE_DSN
  query: |
    SELECT user_id, item_id, purchased_at
    FROM purchases
    WHERE purchased_at >= :since
  params:
    since: '2025-01-01'
  user_column: user_id
  item_column: item_id

DSN はレシピに直接書かず、必ず環境変数経由で渡す設計です。pandas.read_sql を 100k 行単位でチャンク読み込みし、RECOTEM_MAX_SQL_ROWS で行数の上限をハードキャップします。サーバーサイドカーソル (stream_results=True) を使って、メモリに乗り切らないサイズのテーブルを安全に扱えます。

ga4 — GA4 Data API データソース

Google Analytics 4 の Data API を直接叩いて、イベントログを学習データとして取り込みます。

data:
  source: ga4
  property_id: '123456789'
  date_range:
    start_date: '2025-01-01'
    end_date: '2025-12-31'
  event_names: ['purchase', 'add_to_cart']
  user_column: clientId
  item_column: itemId

認証は Application Default Credentials (ADC) のみ対応で、レシピに credentials を埋め込めない設計です。runReport のページングは RECOTEM_GA4_MAX_PAGES で上限を設けています。ResourceExhausted / ServiceUnavailable に対しては 3 × api_timeout_seconds の予算ベースのリトライを行い、各 API コール後に壁時計のデッドラインを再チェックします。

SQL ソースのセキュリティ設計

SQL ソースは「ユーザーが任意の接続先 DSN を指定できる」性質上、SSRF を含む攻撃面が広くなります。以下のような多層防御を組み込んでいます。

読み取り専用トランザクションの強制

ダイアレクトごとに読み取り専用ヒントを発行します。

DB適用するヒント
PostgreSQLSET TRANSACTION READ ONLY
MySQLSET SESSION TRANSACTION READ ONLY
MariaDBSET SESSION TRANSACTION READ ONLY + max_statement_time
SQLitePRAGMA query_only=ON

特に SQLite は以前は silent no-op になっていたものを fail-closed に変更し、ステートメントタイムアウトが適用できない場合は構造化警告 (sql_statement_timeout_not_applied) を出すようにしました。

SSRF ガード

デフォルトで RFC1918 / loopback / link-local の宛先を拒否します。プライベートネットワーク内の RDB を読みたい場合は RECOTEM_SQL_ALLOW_PRIVATE=1 で明示的に opt-in します。

ガードは DSN の netloc だけでなく、各ドライバが認識するルーティング指定を全て検査します。

  • ?host= / ?hostaddr= (libpq)
  • ?service= / ?unix_socket= (拒否)
  • 絶対パスの ?host= (拒否)
  • ホスト情報を持たないネットワーク DSN (拒否)

これは SQLAlchemy の make_url が netloc しか url.host に格納しない一方で、libpq や PyMySQL は上記のクエリパラメータも参照するため、netloc だけ見ていると簡単にバイパスできてしまうからです。

DNS リバインディング対策

プローブとフェッチのタイミングで getaddrinfo を使って IPv4 / IPv6 双方を再解決し、解決された IP 集合をピン留めします。gethostbyname_ex 時代の IPv4 限定実装をやめたことで、デュアルスタックや IPv6 専用ホストでの誤検知も解消されました。

ログからの DSN ユーザー情報の除去

src/recotem/log_redaction.py に DSN userinfo スクラバーを追加し、構造化ログのチェーン先頭に置いています。空ユーザー名・URL エンコードされたパスワード・スキーム別の判定も組み込みで、s3:// / gs:// / az:// / abfs(s):// のようなオブジェクトストア URI は誤検知しないよう除外しています。

また、DataSourceError.code"datasource_error" に固定することで、pipeline.py が exc_info=False でロギングするようになり、psycopg / PyMySQL の例外チェーン経由で DSN userinfo が流出するのを防いでいます。

TLS 設定の Advisory

PostgreSQL / MySQL の DSN で sslmode= / ssl= が指定されていない場合、初期化時に sql_dsn_tls_not_configured を警告として記録します。

GA4 ソースの堅牢化

エラーの正しい分類

GA4 レスポンスの eventCount が非整数だった場合、以前は ValueError として exit code 1 (_EXIT_UNKNOWN) で落ちていましたが、DataSourceError (exit 3 / _EXIT_DATASOURCE) に変更しました。データソース起因の障害が運用上きちんと分類されるようになります。

Prometheus メトリクスの部分初期化耐性

_metrics_ga4 は atomic init とロールバックを実装しており、いずれかのカウンタ登録が失敗するとモジュール全体を no-op フォールバックにラッチします。catch する例外も第三者レジストリ起因の KeyError / ImportError まで広げて、本体の動作を阻害しないようにしています。

バリデーション強化

  • event_names は正規表現と長さ上限でバウンドチェック
  • weight_column が dimensions と衝突する場合はバリデーション時に拒否
  • ローリング XOR バグ修正済みの日付範囲バリデーション

新規追加された環境変数

変数デフォルト用途
RECOTEM_MAX_SQL_ROWS50,000,000SQL の行数ハードキャップ ([1,000, 500,000,000] にクランプ)
RECOTEM_SQL_ALLOW_PRIVATE(空)SQL ソースでプライベート / loopback DSN を許可
RECOTEM_GA4_MAX_PAGES500GA4 のページネーション上限 ([1, 10,000] にクランプ)

エントリーポイント登録とインストールヒント

新規データソースは [project.entry-points."recotem.datasources"] で登録しつつ、optional extras がインストールされていない wheel でもロード自体は通るように、フォールバック辞書と _BUILTIN_INSTALL_HINTS を用意しました。エラー時には適切な extras (postgres / mysql / sqlite / ga4 / all) をインストールするよう案内されます。

pip install 'recotem[postgres]'   # PostgreSQL
pip install 'recotem[mysql]'      # MySQL / MariaDB
pip install 'recotem[sqlite]'     # SQLite
pip install 'recotem[ga4]'        # GA4 Data API
pip install 'recotem[all]'        # 全部入り

テスト

ユニット / 統合 / fuzz の 3 階層で 1,674 ケース をカバーしました。

  • ユニット: 各ソースの設定バリデーション、SSRF の全ルーティング形式のパラメトライズ、IPv4 / IPv6 / デュアルスタックでの DNS リバインディング、PostgreSQL / MySQL / MariaDB / SQLite の読み取り専用 + ステートメントタイムアウトの SQL 完全一致検査、GA4 のリトライ判定 (ResourceExhausted / ServiceUnavailable / PermissionDenied)、weight_column 衝突拒否、非整数 eventCount 拒否、ログリダクションのオブジェクトストア URI 保持
  • 統合: SQLite を使った SQL の train + serve エンドツーエンド
  • Fuzz: 両ソースのレシピ形状に対する hypothesis のバイトミューテーション
  • レジストリ: 正常系とフォールバック経路の両方を検証、autouse フィクスチャでテスト間の LRU キャッシュ漏れを防止

まとめ

Recotem のデータソースに sqlga4 を追加し、運用中の RDB や GA4 のイベントログをそのまま学習データとして取り込めるようになりました。SQL ソースは SSRF / DNS リバインディング / DSN ログ流出対策を全ルーティング形式に対して入れ、読み取り専用も fail-closed に修正しています。GA4 ソースは ADC のみの認証・予算ベースのリトライ・部分初期化耐性のメトリクスといった、運用観点での堅牢化を行いました。既存の csv / parquet / bigquery レシピは無変更で、Recipe.source 判別子への追加だけの後方互換変更です。

Recotem 2.0: 設定ファイル駆動のCLI/ライブラリへ全面刷新

推薦システム構築ツールRecotemを 2.0 として全面的に書き直しました。これまでの Django + Vue + Celery + PostgreSQL + Redis という7サービス構成の Web アプリケーションから、YAML レシピを書いて recotem train / recotem serve を実行するだけのシングルパッケージ Python CLI/ライブラリに刷新しています。

なぜ書き直したのか

旧 Recotem は Web UI を中心に据えていたため、利用者は管理画面から学習ジョブを登録し、結果を確認し、モデルを配信する仕組みでした。便利な一方で、「ちょっと推薦モデルを動かしたい」「既存のデータパイプラインに組み込みたい」というケースでは複雑な構成です。PostgreSQL / Redis / Channels / Daphne / nginx といったサービスを立ち上げる必要があり、コンテナイメージも複数に分かれていました。

Recotem 2.0 では発想を逆転させ、「Web UI をやめて、設定ファイル(YAML レシピ)で完結させる」方針にしました。1 つの YAML が 1 つのモデル、1 つの /predict/{name} エンドポイントに対応します。インストールは pip install recotem の一発、配布物も単一の Docker イメージです。

レシピ駆動の利用フロー

1. レシピを書く

データソース、アルゴリズム、チューニング設定を 1 つの YAML にまとめます。

name: purchase-recommender
data:
  source: csv
  path: s3://my-bucket/purchases.csv
  user_column: user_id
  item_column: item_id
training:
  algorithms: [IALS, BPR, RP3beta]
  trials: 30
  timeout_per_trial: 300

2. 学習

recotem train recipe.yaml

irspack + Optuna でアルゴリズム選択とハイパーパラメータ探索を行い、HMAC 署名付きのバイナリアーティファクトを出力します。アルゴリズム別の試行回数や試行ごとのタイムアウトを指定でき、Optuna のストレージは in-memory / SQLite / PostgreSQL から選択して並列・再開可能なチューニングが実行できます。

3. サービング

recotem serve --recipes ./recipes/

ディレクトリ内のレシピを監視し、アーティファクトが更新されたら無停止でホットスワップします。FastAPI ベースで、/predict/{name} エンドポイントが自動的に生やされる仕組みです。

廃止したコンポーネント

シンプル化のために、旧バージョンで使っていた以下のスタックは全て削除しました。

  • バックエンド: Django, Django REST Framework, Django Channels, Daphne, Celery
  • データストア: PostgreSQL, Redis
  • フロントエンド: Vue, Vite, PrimeVue, Tailwind
  • インフラ: nginx プロキシ, 推論専用サブサービス

代わりに recotem パッケージひとつで完結します。配布は PyPI と単一 Docker イメージ、Helm チャートはサービング専用に学習用 CronJob オプション付きという構成です。

データソースのプラグイン化

データソースは recotem.datasources の entry point で拡張可能なプラグイン方式に変更しました。標準で以下に対応しています。

  • CSV / Parquet: ローカルファイルシステム, オブジェクトストア (s3://, gs://, az://, abfs://, abfss://), HTTPS
  • BigQuery: GA4 のBQ エクスポート構成を想定したパターン

HTTPS データソースを使う場合、sha256 による整合性ピンが必須で、RECOTEM_MAX_DOWNLOAD_BYTES(デフォルト 256 MiB)でダウンロードサイズの上限を設定できます。リダイレクト時のスキーム変更拒否や、プライベート IP への接続拒否(SSRF対策)も組み込まれており、安心して外部 URL を指定できます。

セキュリティ設計

CLI/ライブラリ化に伴い、アーティファクトの取り回しが運用上の中心になるため、署名と検証を強化しています。

  • HMAC 署名付きアーティファクト: マジックバイト + バージョン + リザーブ + kid + ヘッダ JSON + ペイロードという構造。複数 kid を持つ KeyRing でゼロダウンタイムの鍵ローテーションが可能
  • FQCN allow-list: 復元時に読み込めるクラスを手動で列挙し、numpy.* / scipy.sparse.* の限定的なモジュールプレフィックス許可と高リスクサブモジュール拒否を組み合わせる二重防御
  • API キー認証: X-API-Key ヘッダで認証。digest は hashlib.scrypt + ドメイン分離ソルト recotem.api-key.v1 で保存
  • TrustedHost / CORS デフォルト拒否: 余計なホスト/オリジンからのアクセスを排除
  • /health/health/details の分離: 匿名アクセス可能なヘルスチェックは件数のみ、kidbest_class といったメタデータは認証付きの /health/details のみで開示
  • OpenAPI のフェイルセキュア: /docs/openapi.jsonRECOTEM_ENVdevelopment / dev / test のときのみ有効
  • 構造化ログのリダクション: structlog のチェーン先頭にリダクションプロセッサを置き、シークレットや認証情報の混入を防止

--insecure-no-auth--dev-allow-unsigned といった開発用フラグは RECOTEM_ENV でガードされ、本番環境では使えない設計です。

オブザーバビリティ

/metrics エンドポイントは RECOTEM_METRICS_ENABLED=true のオプトイン方式で、12 種類の Prometheus メトリクスを出します。

  • 推論系: recotem_predict_total, recotem_predict_latency_seconds
  • モデル状態: recotem_model_loaded, recotem_active_recipes
  • 障害系: recotem_artifact_load_failures_total, recotem_artifact_stat_failures_total, recotem_watcher_unhandled_errors_total, recotem_metadata_lookup_errors_total, recotem_recipe_rescan_errors_total, recotem_recipes_dir_scan_failures_total
  • 運用系: recotem_swap_total, recotem_bigquery_storage_fallback_total

構造化ログには train_done / train_error / tuning_aborted といった正規化済みイベントを出力し、run_id / exit_code / artifact / best_class / best_score / trials / trained_at / kid などのフィールドを統一的に持たせています。

ホットスワップとフェイルセーフ

サービング側では、アーティファクトファイルの更新を検知して無停止で読み替えます。ここに以下の堅牢性が組み込まれています。

  • Read-once プロトコル: stat → read の TOCTOU を回避
  • Stale-on-swap-fail: ホットスワップ時の復元失敗で 503 にせず、直前のモデルを継続提供
  • Lenient startup: 壊れた YAML があっても起動を中断せず、/health/detailsloaded=false / last_load_error=... で開示
  • X-Recotem-Metadata-Degraded: 1 ヘッダ: メタデータ参照に失敗した推論レスポンスを明示的にマーク
  • OOM のフォールスルー: ファイル読み込みや学習パイプラインでの OOM は意図的にラップせず伝播

チュートリアル: 1 コマンドで動かす

examples/tutorial-purchase-log/ を新設し、HTTPS で取得できる小さな公開 CSV(sha256 ピン済み)を使ったゼロセットアップのクイックスタートを用意しました。compose.yaml の tutorial フローに組み込まれており、docker compose で学習からサービングまで通せます。

テスト

ユニット / 統合 / fuzz の 3 階層で 1,420 ケースをカバーしました。

  • hypothesis によるアーティファクトローダーのバイトミューテーション fuzz
  • レシピローダーの YAML ミューテーション fuzz
  • pytest-httpserver を使った HTTPS CSV ソースの統合テスト
  • 実ファイルウォッチャーでの並列ホットスワップテスト
  • 起動時の壊れた YAML 耐性テスト

CI では pytest / ruff lint / ruff format / シークレットログ検査 / Docker ビルド / e2e (train → serve → predict) / CodeQL / Trivy を回しています。

まとめ

Recotem 2.0 は、Web UI ベースの推薦システム管理ツールから、YAML レシピ駆動の CLI/ライブラリへと舵を切りました。pip install recotem でインストールして、recotem train recipe.yamlrecotem serve --recipes ./recipes/ を打つだけでモデル学習から API 配信まで完結します。Docker, Kubernetes (Helm), オブジェクトストア, BigQuery, Prometheus といったクラウドネイティブな環境とそのまま接続でき、HMAC 署名・scrypt API キー・SSRF 対策など運用に必要なセキュリティも揃っています。

Recotem v2.0 フルスタックモダナイゼーション

推薦システム構築ツールRecotemを v2.0 へ大幅にリファクタリングしました。バックエンド、フロントエンド、インフラ、CI/CD、ドキュメントまで全レイヤーを刷新し、今後もメンテナンスを続けられる状態にしています。315ファイルの変更、35,697行の追加という大規模な更新です。

リファクタリングの背景

Recotemはirspackをベースにした推薦システムのモデル構築・管理ツールです。しかし、依存ライブラリやフレームワークのバージョンが古くなり、Python 3.9、Django 3.2、Vue 2といった構成ではメンテナンスの継続が難しい状態でした。今後の開発や運用を見据えて、全面的なモダナイゼーションを実施しました。

バックエンドの刷新(Python 3.9→3.12、Django 3.2→5.1)

依存管理の近代化

requirements.txt から pyproject.toml + uv.lock(uv)に移行しました。uvによる高速な依存解決と再現性のある環境構築が可能になります。

主要ライブラリのアップグレード

ライブラリ旧バージョン新バージョン
Python3.93.12
Django3.25.1
djangorestframework3.123.15
celery5.15.4
numpy1.192.1
pandas1.32.2
scikit-learn0.241.6
SQLAlchemy1.42.0
optuna2.104.1
irspack0.1.160.4.0
psycopg2-binarypsycopg[binary] v3

アーキテクチャの改善

  • サービスレイヤーの導入: api/services/ に model、training、tuning、signing、project の各サービスを追加し、ビューからビジネスロジックを分離
  • WebSocketサポート: Django Channels + consumers.py でリアルタイムなジョブステータス通知を実現
  • ViewSetミックスイン: OwnedResourceMixinCreatedByResourceMixin によるオーナーシップベースのアクセス制御
  • APIバージョニング: /api/v1/ のURLプレフィックスを導入
  • 構造化ログ: JSON形式のログ出力とスロットルレート制御
  • マイグレーション整理: 複数のマイグレーションを 0002_schema_upgrade に集約

セキュリティ強化

  • HMAC-SHA256モデル署名: 学習済みモデルファイルに署名を付与し、改ざんを検知
  • 安全でないファイル形式のアップロード禁止: データアップロードから安全でないシリアライゼーション形式を除外し、任意コード実行のリスクを排除
  • ファイル名サニタイズ: Content-Dispositionヘッダーのファイル名をRFC 6266/5987に準拠してサニタイズ
  • resign_models管理コマンド: 既存の未署名モデルファイルにHMAC署名を追加するマイグレーションコマンド

フロントエンドの完全書き換え

フロントエンドはゼロからの書き直しです。

項目旧構成新構成
フレームワークVue 2 + Vuetify + Options APIVue 3.5 + PrimeVue 4 + Composition API
ビルドツールwebpackVite 6
スタイリングTailwind CSS 4
状態管理Pinia + TanStack Query
型システムTypeScript strict mode
APIクライアントopenapi-generator手動 ofetch クライアント
i18n英語・日本語ロケール

ダークモード対応や、ページベースのルーティング、コンポーザブルの活用など、Vue 3のベストプラクティスに沿った構成にしています。

インフラストラクチャの統合

Dockerの刷新

バックエンド用とCelery用で分かれていたDockerfileを、マルチステージビルドの単一Dockerfileに統合しました。非rootコンテナとしてポート8080でリッスンする構成に変更しています。

Docker Composeも5サービス構成(PostgreSQL、Redis、バックエンド、ワーカー、プロキシ)に再編成し、CI用のオーバーレイ(compose.ci.yaml)も用意しました。

nginxプロキシ

非rootのnginxをポート8000で統一的に配置し、SPA・API・WebSocket・Admin画面のリバースプロキシを一つの設定で管理します。WebSocketルートではJWTトークンがログに漏洩しないようサニタイズされたログフォーマットを使用しています。

Helmチャート

Kubernetes向けのHelmチャートにServiceAccount、PodDisruptionBudget、NetworkPolicy、HorizontalPodAutoscalerを追加し、本番運用に耐える構成にしました。

CI/CDの改善

  • GitHub Actions v4/v5へのアクション更新
  • CodeQLによるセキュリティスキャンの追加
  • Dependabotによる依存関係の自動更新
  • マルチアーキテクチャビルド + Trivyによる脆弱性スキャン
  • Node.js 16→20、Python 3.8→3.12のアップグレード

テストカバレッジ

バックエンド

17の新規/更新テストファイルをpytest + pytest-djangoで整備しました。

  • アクセス制御、WebSocketコンシューマー、シリアライザ、スロットル
  • モデルサービス、トレーニングサービス、署名検証
  • プロジェクト名のユニーク制約、ファイルミックスイン、ページネーション

フロントエンド

  • 30以上のユニットテスト(Vitest)
  • 10以上のE2Eテスト(Playwright)
  • コンポーネント、コンポーザブル、レイアウト、ページ、ルーター、ユーティリティのテスト

ドキュメントの整備

  • CLAUDE.mdCONTRIBUTING.mdSECURITY.mdCODE_OF_CONDUCT.md の追加
  • AWS、GCP、Kubernetes、Docker Composeのデプロイメントガイド
  • .env.example ファイルによる環境変数の説明

まとめ

Recotem v2.0では、バックエンドからフロントエンド、インフラ、CI/CDまで全面的にモダナイゼーションしました。Python 3.12 + Django 5.1、Vue 3.5 + Vite 6といった最新スタックへの移行に加えて、サービスレイヤーの導入やセキュリティ強化、テストカバレッジの充実により、今後のメンテナンスや機能追加がしやすい基盤を整えました。

  • PR #18: v2.0: Full-stack modernization