FessにCPU負荷ベースのリクエスト制御機能を追加

以前の記事でFessにIPベースのリクエスト制限機能を追加したことを紹介しましたが、今回はOpenSearchのCPU使用率に基づいてリクエストを制御する機能を追加しました。OpenSearchの負荷が高い場合にHTTP 429(Too Many Requests)を返すことで、過負荷状態でのサービス品質の低下を防ぎます。

概要

この機能は、OpenSearchクラスタのCPU使用率を定期的に監視し、設定した閾値を超えた場合にリクエストを拒否するサーブレットフィルター(LoadControlFilter)として実装されています。Web画面へのリクエストとAPIリクエストで独立した閾値を設定でき、デフォルトでは無効(閾値100%)になっています。

仕組み

監視の流れ

  1. バックグラウンドの監視タスク(LoadControlMonitorTarget)がOpenSearchのノード統計APIを定期的に呼び出し、各ノードのCPU使用率を取得
  2. 全ノードの中で最大のCPU使用率をSystemHelperに記録
  3. リクエストが来た際に、LoadControlFilterが現在のCPU使用率と閾値を比較
  4. 閾値を超えている場合はリクエストを拒否

制御対象外のリクエスト

以下のリクエストは制御対象外となります。

  • 管理画面(/admin)へのアクセス
  • エラーページ(/error)へのアクセス
  • ログインページ(/login)へのアクセス
  • 静的リソース(CSS、JS、画像、フォントなど)

リクエスト拒否時の動作

  • Web画面: ビジーエラーページにリダイレクトし、「サーバーが現在高負荷です」というメッセージを表示
  • API: ステータスコード429のJSONレスポンスを返却(Retry-After: 60ヘッダー付き)

APIのレスポンス例:

{
  "response": {
    "status": 9,
    "message": "Server is busy. Please retry after 60 seconds.",
    "retry_after": 60
  }
}

設定方法

fess_config.propertiesに以下の設定を追加します。

# Web画面のCPU閾値(%)。CPU使用率がこの値以上のときに429を返す(100: 無効)
web.load.control=100

# APIのCPU閾値(%)。CPU使用率がこの値以上のときに429を返す(100: 無効)
api.load.control=100

# OpenSearch CPU監視の間隔(秒)
load.control.monitor.interval=1

たとえば、APIに対してCPU使用率80%以上でリクエスト制御を有効にする場合は以下のように設定します。

api.load.control=80

Web画面とAPIで異なる閾値を設定することもできます。

web.load.control=90
api.load.control=70

IPベースの制限との違い

以前追加したIPベースのリクエスト制限とは異なるアプローチの機能です。

項目IPベースの制限CPU負荷ベースの制御
制限の基準特定IPからのリクエスト数OpenSearchのCPU使用率
目的特定クライアントの過剰アクセス防止サーバー全体の過負荷防止
設定レート制限、ブラックリスト/ホワイトリストCPU閾値(Web/API独立)

両方の機能を組み合わせることで、より効果的にサーバーを保護できます。

まとめ

CPU負荷ベースのリクエスト制御機能により、OpenSearchが高負荷状態のときにFessが自動的にリクエストを制限できるようになりました。デフォルトでは無効になっているため、必要に応じて閾値を設定してください。

AIドリブン開発のためのfess-workspaceリポジトリ

Fessの関連リポジトリは30個を超える感じになっており、Claude Codeとか使って、個々のリポジトリでの改修も限界がありました。たとえば、FessのWebアプリ側を修正しながら、クローラーのコードも修正するような場合は、リポジトリを横断して、対応する必要があったりと。

関連するリポジトリを横断的に修正ができるようにするために、fess-workspaceを作りました。今のところ、いい感じに使えています。たとえば、Fess 15.5からJUnit 5に移行しましたが、30個くらいあるリポジトリも同様に移行する必要があるのですが、Fess本体を参考にして、各リポジトリをClaude Codeに修正依頼したら、JUnit 5移行もさくっと完了しました。

という感じで、今まで、横断的な修正が面倒だなーと思っていたものはfess-workspaceで修正していこうかなと考えています。

FessのMIMEタイプ判定を拡張子ベースで上書きする

Fessのクロール時のMIMEタイプ判定は、Apache Tikaを使ったコンテンツベースの検出を行っています。しかし、ファイルの内容によっては誤判定されるケースがあります。例えば、REMコメントで始まるSQLファイルがWindowsバッチファイル(application/x-bat)として検出されてしまうことがあります。この問題に対応するため、Fess 15.5でfess_config.propertiesに拡張子ベースのMIMEタイプ上書き設定を追加しました。

背景

Tikaによるコンテンツベースの検出は多くの場合正確ですが、ファイルの内容が別のファイル形式と類似している場合に誤判定が発生することがあります。特にSQLファイルでは、Oracle Database用のスクリプトがREM(remark)コメントで始まることが多く、これがWindowsバッチファイルのコマンドと同じキーワードであるため、application/x-batとして誤検出されます。

このような場合、拡張子ベースでMIMEタイプを指定できれば、コンテンツベースの検出結果を上書きして正しいMIMEタイプを設定できます。

設定方法

fess_config.propertiesに以下の設定を追加します。

# 拡張子に基づくMIMEタイプの上書き設定(1行に1つ: .拡張子=MIMEタイプ)
crawler.document.mimetype.extension.overrides=\
.sql=text/x-sql\n\
.plsql=text/x-plsql

各行は.拡張子=MIMEタイプの形式で指定し、改行文字(\n)で区切ります。この設定で指定された拡張子のファイルは、コンテンツベースの判定結果よりも拡張子ベースの設定が優先されます。

動作の仕組み

新しく追加されたFessMimeTypeHelperクラスが、従来のMimeTypeHelperImplを拡張しています。初期化時にfess_config.propertiesから設定を読み込み、拡張子とMIMEタイプのマッピングを構築します。

ファイルのMIMEタイプを判定する際の動作は以下の通りです。

  1. ファイル名から拡張子を取得(大文字・小文字は区別しない)
  2. 拡張子が上書き設定に含まれている場合、設定されたMIMEタイプを返す
  3. 含まれていない場合、従来通りコンテンツベースの検出を行う

設定の記述ルール

  • 1行に1つのマッピングを記述する(\nで区切り)
  • 形式: .拡張子=MIMEタイプ
  • 拡張子の大文字・小文字は区別されない(.sql.SQLは同じ扱い)
  • 前後の空白は自動的にトリミングされる
  • 不正な形式の行(=を含まない行)は無視される
  • 空行は無視される
  • デフォルトは空文字列(上書きなし、従来の動作を維持)

設定例

SQLファイルの誤判定を修正する場合:

crawler.document.mimetype.extension.overrides=.sql=text/x-sql

複数の拡張子を設定する場合:

crawler.document.mimetype.extension.overrides=\
.sql=text/x-sql\n\
.plsql=text/x-plsql\n\
.pls=text/x-plsql

注意事項

  • この機能はFess 15.5以降で利用可能です
  • デフォルトでは上書き設定は空のため、従来の動作と変わりません
  • 拡張子の上書き設定はコンテンツベースの判定より優先されます
  • パスを含むファイル名(/path/to/file.sql)でも拡張子は正しく認識されます