opensearchpyでtimeoutが使えない

opensearchpyのドキュメントにはtimeoutを引数で渡せると書いてあるけど、使えないのを忘れてハマるので、メモ的に残す。

このIssueにもあるように、

client.search(..., timeout=120)

みたいにすると、

opensearchpy.exceptions.ConnectionError: ConnectionError(Timeout value connect was 120, but it must be an int, float or None.) caused by: ValueError(Timeout value connect was 120, but it must be an int, float or None.)

みたいな感じで、Errorが発生する。timeoutを指定したい場合は

client.search(..., params={"timeout":120})

のような感じで、paramsで渡せば指定できる。

No module named ‘torch._six’

Dollyを試してみようと思い、

git clone https://github.com/databrickslabs/dolly.git
cd dolly
pip install -r requirements.txt

をして、Getting Started with Response Generationを実行してみたけど、

ModuleNotFoundError: No module named 'torch._six'

という感じで怒られる…。ぐぐってみると、._sixを消せば良いとのことなので、

sed -i "s/._six//" /usr/local/lib/python3.9/dist-packages/deepspeed/runtime/utils.py
sed -i "s/._six//" /usr/local/lib/python3.9/dist-packages/deepspeed/runtime/zero/stage_1_and_2.py

みたいな感じで、対象箇所を修正。でも、40Gのメモリーを積んだGPUでも、

from transformers import pipeline

from transformers import pipeline

instruct_pipeline = pipeline(model="databricks/dolly-v2-12b", trust_remote_code=True, device_map="auto")

の方はメモリー不足と言われる…。(厳しい時代だな…)

なので、

import torch
from transformers import pipeline

instruct_pipeline = pipeline(model="databricks/dolly-v2-12b", torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto")

を実行したら、処理できた。でも、24Gのメモリーを使っているっぽい…。Colab ProのGPUプレミアム設定で確認した感じです。

Dolly自体については、ChatGPTと比べると、現時点では、これから頑張っていく感じなのかなみたいな感じかな。

No module named ‘faiss.swigfaiss_avx2’

pipでfaissをインストールして利用していると、

INFO:faiss.loader:Loading faiss with AVX2 support.
INFO:faiss.loader:Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")

のようなログが出る。つまり、AVX2が利用できていない感じだと思うが、これの対応方法は、この情報によると、swigfaiss.pyをシンボリックリンクを作っておけば良いとのことで、試したらこのメッセージがなくなった。

cd your_python_path/site-packages/faiss
ln -s swigfaiss.py swigfaiss_avx2.py