機械学習モデルを Docker 風にローカルで操作する #Ollama 。
Intel Mac (MBP, Early 2015) だと 3B パラメーターの 2GB 程度の軽量モデル(Orca Mini)でも GPU メモリ不足で動いてくれない例の件。
なんと macOS 上の Docker だと動いた。
ソースをザクっと見ると、どうやら Mac 版のバイナリは Apple の Metal を使うようになっているため CPU モードであっても GPU が強制的に使われるっぽい。
そのため 2GB 程度の GPU じゃクソの役にもたたん、とエラーを吐くらしい。
Docker の場合は CPU が使われるので、GPU メモリ量にはひっかからないので、遅いけど動く、と。
重いとは言え、Llama2(7B パラメーターの 3.8GB サイズのモデル)でも、体感的に ISDN 時代くらいの速度で使える。
添付動画は、Docker でモデルを実行するコンテナ(ollama serve サービス)を起動して、ローカルから ollama コマンドでモデルを実行している例。
一度起動(モデルをメモリに読み込み)すれば、思ったよりも動いてくれる。
GNU social JP is a social network, courtesy of GNU social JP管理人. It runs on GNU social, version 2.0.2-dev, available under the GNU Affero General Public License.
All GNU social JP content and data are available under the Creative Commons Attribution 3.0 license.