Playwrightを利用したクロール

Fessでは、もともとWebDriverを利用したクローラーなどがありましたが、最近ではメンテするのが面倒だったので、取り除いていました。しかしながら、JavaScriptもいい感じ処理できるようなクロールの仕組みは必要で、最近、Fessとか関係ない話で、Playwrightを使うことが多くなっていたので、そのうち、使えるようにしようとは考えていました。ということで、今回その機能を入れました。

とはいえ、今までも使うのが、かなり面倒でWebDriver版でクロールしようと思えばできる、くらいで仕組み的には、汎用的な感じではありませんでした。今回は、そこら辺も整理して、使いやすい感じにしてみました。

使い方としては、

  • Playwrightの実行環境がインストールされている
  • クロール設定で、設定パラメーターで設定する

をすれば、通常のウェブクローラーの変わりにPlaywrightでクロールします。設定パラメーターは以下を設定すればOKです。

client.crawlerClients=playwright:http://.*,playwright:https://.*

あとは、いつもどおりにクロールを実行するだけです。ひとまず、実験的な機能な感じではあるので、細かい問題はあるかもしれませんが…。マルチスレッドでクロールできるのか?とかもちょっと怪しい気もしますし。とりあえずは、試しながら改善はしていく予定です。

Fess 14.5から利用可能になる予定ですが、興味があれば利用してみてください。

コメントを残す

メールアドレスが公開されることはありません。