macでgemma3nをDocker Modelsから使用する
Apple Silicon使ってるならAIのモデルの実験で一番手っ取り早いやり方がDocker Modelsを使うことだと思ってます。
自分のローカル端末の性能でどれくらい動くのかというのを実験したいなと思ったのでやってみます。
BETAではありますが、ModelsからDocker Hubを選択してGemma3nをPullしてみます。
Installedになりました。
これクリックすると中に入れるんですけど、なんかいろんなSizeのモデルありますよね。
規定でlatestが選ばれるので3.9GBのディスク容量が喰われると思っておけばいいですね。
Local選択したらありました。
一発目、多分メモリーに展開するのは五秒くらいかかりましたが、2回目のやり取りは即座に帰ってきました。しかも内容普通に問題なさそう。
ちょっと画像が読み込めるか確認したかったけど、無理っぽいのでGoogle AI Studioのモデルでやってみた。なんかエラーになった。
Visualって書いてあるモデルでやってみます。
ちょいモザイクしてますが、完璧に読み込めとる。。
めっちゃ応用範囲広がるなぁ。。
去年の確定申告で経費登録はほぼ自動でやったけど、今回はモデルを変えてやってみたいなと思いました。
ちなみに、去年(今年度の確定申告)使ったモデルは以下です。こちらは商用利用できなライセンスでしたが、たぶんgemma3nはいけそう。gemma3nをvast.aiとかのGPUマシンを一時的にホスティングして処理させたら安くサービス作れそうだなと思いました。(思うだけじゃなく、ちゃんと行動しないとなぁ。)
YomiTokuはAIを活用した日本語文書解析エンジンを提供するPythonパッケージです。 Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.
https://github.com/kotaro-kinoshita/yomitoku
55 forks.
1,420 stars.
10 open issues.
Recent commits:
- Merge pull request #217 from kotaro-kinoshita/chore/changelog-26153631767docs: Update CHANGELOG, GitHub
- docs: update CHANGELOG, github-actions[bot]
- Merge pull request #214 from kotaro-kinoshita/fix/convert_rgb_for_parseqfix: BGR画像でテキスト認識処理を実施するバグを修正, GitHub
- Merge pull request #215 from kotaro-kinoshita/fix/onnx-convert-bug-for-text-recognizerfix: バッチサイズの動的化のため PARSeq ONNX エクスポートの定数畳み込みを無効化, GitHub
- fix: disable constant folding in PARSeq ONNX exportWith do_constant_folding=True, ONNX folds seq_len * batch_size(= 101 * 1 = 101) into a constant during export with batch_size=1.At inference with batch_size > 1, the Reshape node receives(seq_len, batch, embed) and fails trying to reshape to (101, 512).Setting do_constant_folding=False keeps the multiplication dynamicso the reshape target is computed correctly at runtime.Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>, kotaro-kinoshita
ディスカッション
コメント一覧
まだ、コメントがありません