Fess Crawlerのエクストラクターにweight設定を追加

Fess Crawlerのエクストラクターにweightを指定できるようにしました。これにより、同じMIMEタイプに対して複数のエクストラクターが登録されている場合に、優先度を制御できるようになります。

背景

Fess Crawlerでは、ドキュメントからテキストを抽出するためにエクストラクター(Extractor)を利用しています。エクストラクターはMIMEタイプに基づいて選択されますが、同じMIMEタイプに対して複数のエクストラクターが存在する場合、どちらを優先するかを制御する仕組みがありませんでした。

変更内容

ExtractorインターフェースにgetWeight()メソッドをデフォルトメソッドとして定義し、AbstractExtractor基底クラスにweightフィールドを追加しました。

Extractorインターフェースでは、デフォルトのweightとして1を返すようになっています。

public interface Extractor {
    ExtractData getText(InputStream in, Map<String, String> params);

    default int getWeight() {
        return 1;
    }
}

AbstractExtractorでは、weightフィールドとsetter/getterを実装しています。

public abstract class AbstractExtractor implements Extractor {
    protected int weight = 1;

    @Override
    public int getWeight() {
        return weight;
    }

    public void setWeight(final int weight) {
        this.weight = weight;
    }
}

設定方法

Fessの設定ファイル(XML)で、エクストラクターのweightを指定できます。weightの値が大きいエクストラクターが優先的に使用されます。

<component name="tikaExtractor" class="org.codelibs.fess.crawler.extractor.impl.TikaExtractor">
    <property name="weight">10</property>
</component>

デフォルトのweightは1なので、特に設定しなければ従来と同じ動作になります。

まとめ

この変更により、エクストラクターの優先度をweight値で柔軟に制御できるようになりました。カスタムエクストラクターを追加する際に、既存のエクストラクターとの優先順位を設定ファイルで簡単に調整できます。

fess-crawlerにPostScriptテキスト抽出機能を追加

fess-crawlerに、PostScript(.ps)ファイルからテキストを抽出するPsExtractorを追加しました。これにより、Fessのクロール対象としてPostScriptファイルも扱えるようになります。

PostScriptとは

PostScriptはAdobe Systemsが開発したページ記述言語で、印刷やDTPの分野で広く使われてきたフォーマットです。PostScriptファイルにはテキスト描画命令が含まれていますが、プログラミング言語としての側面もあり、テキストの抽出は単純ではありません。

PsExtractorの仕組み

PsExtractorは、PostScriptのshow系オペレータを解析してテキストを抽出します。対応しているオペレータは以下の通りです。

オペレータ説明
show基本的なテキスト描画
ashow文字間隔調整付きテキスト描画
widthshow特定文字の幅調整付きテキスト描画
awidthshowashow + widthshow の組み合わせ
kshowカーニングプロシージャ付きテキスト描画
xshow個別X座標指定のテキスト描画
yshow個別Y座標指定のテキスト描画
xyshow個別XY座標指定のテキスト描画

文字列リテラルとしては、括弧形式の文字列((Hello World))と16進文字列(<48656C6C6F>)の両方に対応しています。括弧形式の文字列では、エスケープシーケンス(\n\t、8進数など)やネストされた括弧も正しく処理されます。

DI設定

extractor.xmlpsExtractorコンポーネントを登録し、application/postscript MIMEタイプにマッピングしています。

制限事項

現在の実装では以下のケースには対応していません。

  • ループやプロシージャによる動的なテキスト生成
  • フォントエンコーディングの再定義
  • バイナリエンコードされたPostScriptファイル

静的にshow系オペレータで描画されるテキストの抽出に特化した実装となっています。

テスト

12件のテストケースを作成し、基本的なテキスト抽出、16進文字列、エスケープシーケンス、ネストされた括弧、空コンテンツ、各種show系オペレータなどの動作を検証しています。

変更の詳細はPR #140を参照してください。

FessのインデックスエクスポートでJSON形式をサポート

Fessのインデックスエクスポート機能で、従来のHTML形式に加えてJSON形式での出力をサポートしました。Strategyパターンを導入することで、エクスポート形式を柔軟に切り替えられるようになっています。

背景

Fessにはインデックスに保存されたドキュメントをファイルとしてエクスポートする IndexExportJob があります。これまではHTML形式でのみエクスポートが可能でしたが、データ連携や後処理の用途ではJSON形式の方が扱いやすいケースがあります。そこで、エクスポート形式を選択できるように拡張しました。

変更内容

Strategyパターンの導入

エクスポート形式の処理をStrategyパターンで設計し、IndexExportFormatterインターフェースを導入しました。

public interface IndexExportFormatter {
    String getFileExtension();
    String getIndexFileName();
    String format(Map<String, Object> source, Set<String> excludeFields);
}

このインターフェースを実装する形で、HTML用の HtmlIndexExportFormatter とJSON用の JsonIndexExportFormatter を用意しています。

HTML形式(既存)

HtmlIndexExportFormatter は従来の動作と同じく、ドキュメントをHTML形式で出力します。タイトルやコンテンツはHTMLの構造に配置され、その他のフィールドは <meta> タグとして出力されます。

JSON形式(新規)

JsonIndexExportFormatter はドキュメントをJSONオブジェクトとして出力します。ネストされたコレクションやマップにも対応しており、適切なJSONエスケープ処理が行われます。

設定方法

fess_config.properties に以下の設定を追加します。

index.export.format=html

デフォルトはHTML形式です。JSON形式に変更するには以下のように設定します。

index.export.format=json

また、ジョブのスクリプトで format() メソッドを使って指定することもできます。

return container.getComponent("indexExportJob")
    .format("json")
    .execute();

format() メソッドで指定した場合は、設定ファイルの値よりも優先されます。

出力例

同じドキュメントをそれぞれの形式でエクスポートした場合の例です。

HTML形式

<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
<title>サンプルページ</title>
<meta name="fess:url" content="https://example.com/page">
<meta name="fess:host" content="example.com">
</head>
<body>
ページの本文テキスト
</body>
</html>

JSON形式

{
  "title": "サンプルページ",
  "content": "ページの本文テキスト",
  "lang": "ja",
  "url": "https://example.com/page",
  "host": "example.com"
}

ファイルの拡張子

エクスポートされるファイルの拡張子も、選択したフォーマッターに応じて自動的に切り替わります。

形式拡張子インデックスファイル名
HTML.htmlindex.html
JSON.jsonindex.json

まとめ

Strategyパターンの導入により、エクスポート形式の追加が容易になりました。既存のHTML形式はデフォルトとしてそのまま利用でき、JSON形式が必要な場合は設定を変更するだけで切り替えられます。この変更はFess 15.5.0で利用可能になる予定です。