機械学習モデルを Docker 風にローカルで操作する #Ollama 。
Intel Mac (MBP, Early 2015) だと 3B パラメーターの 2GB 程度の軽量モデル(Orca Mini)でも GPU メモリ不足で動いてくれない例の件。
なんと macOS 上の Docker だと動いた。
ソースをザクっと見ると、どうやら Mac 版のバイナリは Apple の Metal を使うようになっているため CPU モードであっても GPU が強制的に使われるっぽい。
そのため 2GB 程度の GPU じゃクソの役にもたたん、とエラーを吐くらしい。
Docker の場合は CPU が使われるので、GPU メモリ量にはひっかからないので、遅いけど動く、と。
重いとは言え、Llama2(7B パラメーターの 3.8GB サイズのモデル)でも、体感的に ISDN 時代くらいの速度で使える。
添付動画は、Docker でモデルを実行するコンテナ(ollama serve サービス)を起動して、ローカルから ollama コマンドでモデルを実行している例。
一度起動(モデルをメモリに読み込み)すれば、思ったよりも動いてくれる。
Embed Notice
HTML Code
Corresponding Notice
- Embed this notice
KEINOS (keinos@misskey.dev)'s status on Thursday, 16-Nov-2023 19:43:20 JSTKEINOS