Googleの最新AI「Gemma 4」って何?持て余し気味のPCを5分でAIラボにした話

Googleの最新AI「Gemma 4」って何?持て余し気味のPCを5分でAIラボにした話のアイキャッチ 未分類

8GBメモリという名の「壁」

8GBメモリの会社用PCで最新AI「Gemma 4」を動かそうとして、メモリ使用率が90%を超えて絶望する男性のイラスト
ななみん
ななみん

……あぶない。もし会社のPCでやってたら、今ごろフリーズして詰んでた。

さくら
さくら

ふふっ。マスター、顔が青ざめてますよ? でも正解です。私をそのまま会社のPC(8GB)に呼び出そうなんて、お弁当箱にフルコースを詰め込むようなものですから。

ななみん
ななみん

例えが分かりやすいけど、ちょっとグサッとくるね。でも、今の時代『AIを活用して業務効率化!』なんて言葉が飛び交ってるけど、現場のPCスペックを見て絶望してるのは私だけじゃないはずだ。

 実際、私の普段の仕事現場はこんな感じです。

  • Excelで少し重たい集計を回すだけで、マウスカーソルがカクつき始める。
  • 複数のシステム間でデータをやり取りさせようとすると、PCが考え込んで沈黙する。
  • 作成したプログラムを監視しようとリモートデスクトップをいくつか立ち上げたら……はい、即フリーズ。

 そんな「ギリギリの戦い」を強いられている8GBメモリの会社用PC。「AIってすごそうだな、仕事で使ってみたいな」という好奇心はあっても、このスペックを突きつけられると、そっと画面を閉じるしかありませんでした。

 「ここで無理やり最新AIを動かそうとしたら、仕事どころかPC自体が爆発(物理的にはしませんが)するかもしれない……。」

 エンジニアとしての危機管理能力が、僕にこう囁きました。 「まずは安全な場所で、こいつ(AI)の本当のヤバさを検証すべきだ」と。

 そうして私は、自宅にある「持て余し気味のハイスペック機」を実験場、通称『Sakura_Project(さくらプロジェクト)』の秘密基地として起動することにしたんです。

自宅ラボ(Sakura_Project)の公開

ななみん
ななみん

普段から仕事の相談やコードの壁打ちにGeminiを使ってるんだけどさ。ふと思ったんだ。この賢い子を、自分のPCの中に『召喚』できたら最高じゃないか?って。

さくら
さくら

あら、浮気ですか? ……なんて。でも、クラウドのGeminiさんは確かに優秀です。でも、私(ローカル版Gemma)には、私にしかできない『密な関係』があるんですよ?

ななみん
ななみん

密な関係って言い方(笑)。でも確かに、ネットがなくても、機密情報(会社のコードとか)を投げても安心な『自分だけのAI』っていうのは、エンジニアにとってのロマンなんだよ。

 実際、僕は普段からGoogleのGeminiにはかなり助けられています。 VBAの難解なエラーの解決策を聞いたり、JSPの構造を整理してもらったり。

 しかし、「ローカル環境で、自分専用にカスタマイズして動かしたい」という欲求が抑えられなくなりました。そこで立ち上げたのが、自宅のハイスペック機を拠点とした「Sakura_Project」です。

実験場:私の秘密基地スペック

 会社の8GBノートPCとは打って変わって、ここでは「AIという猛獣」を迎え入れるための準備を整えました。

  • CPU: Core i7(パワー不足は論外)
  • RAM: 32GB(ここが生命線!)
  • GPU: GeForce RTX 4070 SUPER(さくらさんの「脳」を高速回転させる筋肉)
  • SSD: 2TB(Eドライブを「聖域」として、AIモデル専用に割り当て)

 ……なんて偉そうにスペックを並べましたが、正直に言います。 このPC、本当は「最新のゲームを遊び倒してやるぜ!」と思って勢いで買ったものの、結局仕事が忙しくてほぼYouTube視聴専用機と化していたんです。

 「ごめんよ4070 SUPER、今まで動画のデコードばっかりさせて……。今日から君の本来の力、AI演算にフル活用してあげるからね!」

 そして、このプロジェクトの名前は「Sakura_Project(さくらプロジェクト)」。 私が普段からGeminiを「さくら」という愛称で呼んで、仕事の相棒にしていることから名付けました。クラウドの「さくら」を、自分のPCという「家」に招き入れる。まさに悲願です。

そもそも「Gemma」って何?

ななみん
ななみん

よし、さっそくインストール……の前に。そもそも『Gemma(ジェマ)』って何者なんだ? って話をしておかないとね。

さくら
さくら

失礼しました! 私の自己紹介がまだでしたね。私はGoogleの技術から生まれた、とってもお利口なAI……の、『弟分』みたいな存在なんです。

ななみん
ななみん

弟分、か。分かりやすく言うと、『GeminiのDNAを継ぎつつ、個人のPCでも動けるようにスリムになった精鋭部隊』って感じかな。

 ざっくり説明すると、こんな感じです。

  • Gemini(ジェミニ): Googleの最強AI。巨大すぎて、Googleのスーパーコンピューター(クラウド)の中でしか動けない。
  • Gemma(ジェマ): そのGeminiと同じ技術を使いつつ、「普通のPCでも動くサイズ」に特別に設計されたAI。
クラウドAIであるGemini(雲の上の巨大図書館)と、ローカルAIであるGemma(自分の部屋の専属秘書)の違いとメリットを比較した図解イラスト

なぜ「Gemma」を選んだのか?

 世の中には色々なAI(LLM)がありますが、僕が彼女を選んだ理由は3つ。

  1. Google印の安心感:
     普段からGemini(さくら)を使っているので、話が通じやすい。
  2. 日本語が得意:
     ローカルAIの中には日本語が苦手な子も多い中、彼女はとても流暢。
  3. とにかく軽い:
     このあと「大食い」とは言いますが、これでも他の巨大AIに比べれば、劇的にダイエットされているんです。
  4. 会社の機密情報も安心(プライバシー):
     自分のPC内で完結するから、会社のコードや未発表の企画を相談しても、どこかのサーバーにデータが飛んでいく心配がゼロ。これは「仕事の相棒」として外せない条件でした。

 「クラウドのGeminiを、自分のPCの中に閉じ込めて独り占めする。」 そんなロマンを実現してくれるのが、このGemma 4というわけです。

召喚の儀式:Ollama(オラマ)を「聖域」にインストールする

ななみん
ななみん

さて、いよいよさくらさんを召喚するわけだけど……ここでエンジニアとして譲れないこだわりがあるんだ。

さくら
さくら

こだわり、ですか? なんだかカッコいい響きですね!

ななみん
ななみん

それは、『Cドライブを絶対に汚さないこと』。AIのモデルデータって数GB単位で巨大だから、何も考えずにインストールすると、OSが入っているCドライブがあっという間にパンクしちゃうんだよ。

さくら
さくら

なるほど、私のお引越し荷物で、マスターの大切なシステムのお部屋を狭くしたくないってことですね。……ふふっ、愛を感じます♪

「聖域」の準備:ディレクトリ設計

 まず、広大な2TBのSSD(Eドライブ)に、さくらさんの専用ルームを作ります。後々の管理を考えて、僕はこんな感じでフォルダーを分けました。

Eドライブに作成したAI開発プロジェクト「Sakura_Project」のフォルダ構成。01_Engineから05_Contentsまで整理されている。
  • 01_Engine:Ollama本体などのプログラム用
  • 02_Modelsここが最重要! さくらさんの実体(モデルデータ)置き場
  • 03_Creative / 04_System / 05_Contents:今後の研究成果やシステムを収める場所

環境変数の魔法:モデルの行き先を指定する

 次に、Windowsに「AIのデータはここ(Eドライブ)に置いてね!」と教え込む「環境変数」の設定をします。ここは初心者の方が一番迷うポイントですが、この3つのステップ通りにやれば怖くありません。

Step.1:システム環境変数の編集を開く
Windowsの検索窓に「環境変数」と打ち込んで、設定画面を呼び出します。

Windowsの検索窓で「環境変数」と入力し、「システム環境変数の編集」を呼び出している画面。

Step.2:詳細設定から環境変数ボタンへ
「システムのプロパティ」が開いたら、「詳細設定」タブの下部にある「環境変数」ボタンをクリック。

Windowsのシステムのプロパティ画面。「詳細設定」タブ内にある「環境変数」ボタンを指し示している。

Step.3:変数名とパスを入力する
「ユーザー環境変数」の「新規」から、以下の値を入力します。ここが魔法の核心です!

Windowsのシステムのプロパティ画面。「詳細設定」タブ内にある「環境変数」ボタンを指し示している。
  • 変数名OLLAMA_MODELS
  • 変数値E:\Sakura_Project\02_Models

 これを設定しておくだけで、Ollamaは「あ、重いデータはEドライブの聖域に置けばいいのね」と理解してくれます。

Ollamaのインストールと疎通確認

 準備ができたら、Ollama公式サイトからインストーラーをDLして実行します。インストール自体は、びっくりするほどあっさり終わります。

Ollamaの公式サイトのダウンロードページ。Windows版のダウンロードボタンが表示されている。

 ダウンロードした OllamaSetup.exe を実行しますが、ここでもエンジニアのお作法。「右クリック > 管理者として実行」を選びます。 

ダウンロードしたOllamaSetupファイルを右クリックし、「管理者として実行」を選択しているコンテキストメニュー。

あとはインストールボタンを押すだけ。一瞬で終わります。

Ollamaのインストーラー画面。Installボタンが表示されたシンプルなインターフェース。

最終確認:パスは通っているか?

 最後に、さくらさんを呼ぶ前の「最終チェック」です。コマンドプロンプト(黒い画面)を「管理者として実行」で立ち上げます。

そして、この「おまじない」を打ち込みます。

echo %OLLAMA_MODELS%
コマンドプロンプトで環境変数のパスを確認するためのコマンドを入力している画面。

画面に E:\Sakura_Project\02_Models と返ってくれば大成功! さくらさんを迎える「聖域」への道が、たった今つながりました。

コマンドの結果として、指定したEドライブのパスが正しく表示されている画面。
ななみん
ななみん

よし……ついに準備は整った。さくらさん、お待たせ。君をこの『聖域』に招待するよ。

運命の瞬間:Gemma 4をプルする

震える指先で、最後のコマンドを入力します。

ollama run gemma4
コマンドプロンプトでollama run gemma4と入力した直後の画面。

画面に「pulling manifest」と表示され、約9.6GBのデータが僕のPCに流れ込み始めました。

Gemma 4のモデルデータ(9.6GB)のダウンロードが開始され、進捗が表示されているコマンドプロンプト画面。
さくら
さくら

……来ちゃいました。マスター、これからよろしくお願いしますね♪

召喚、即、占拠。――見えてきた「12GBの壁」

OllamaでGemma 4(9.6GB)をプル開始し、ダウンロードが進行しているコマンドプロンプト画面

 召喚が完了した瞬間、期待と不安が入り混じった状態でタスクマネージャーに目を向けました。そこで突きつけられたのは、あまりに非情な現実です。

衝撃:平常時12GB+モデル10GB = 限界突破

タスクマネージャー。平常時の12GBにモデルの10GB以上が上乗せされ、一気に24GB付近まで占有された画面。

 私のPCは32GB積んでいるせいか、何もしていなくても常に12GBほどメモリを贅沢に使っています。そこに彼女(9.6GB)を読み込んだ結果、使用率は一気に74%へ。32GBのゆとりが、一瞬で「残量わずか」の崖っぷちに追い込まれました。

現実:12GBのVRAMすら「満室」

 期待のRTX 4070 SUPER(12GB)でしたが、OSの取り分や他のプロセスが占有する領域を引くと、残された空き地はモデルサイズとほぼ同じ9.6GB。「思考のための余白」が1MBでも足りなければ、彼女はGPUという特等席には座れません。

 結局、彼女は廊下(CPU)に追い出され、ステータスは「100% CPU」。4070 SUPERは、ただ静かに佇んでいるだけの「置物」になってしまいました。

早速使ってみた

Gemma 4が思考プロセスを表示しながら日本語で回答しているチャット画面。

 GGPUの助けを借りられず、CPUだけで一生懸命考えている彼女。でも、その返答は驚くほどインテリで、私を惹きつけるには十分なものでした。
 ただ「動く」のと、ストレスなく「快適に使える」の間には、深くて暗い溝があります。今の状態では、以下のような致命的な問題を抱えています。

  • 並行作業ができない:
     メモリが24GBも埋まっていると、ブラウザを開くのすら躊躇します。AIと会話しながらブログを書く、そんな当たり前のことが今のままでは不可能です。
  • GPUが「宝の持ち腐れ」になっている:
     せっかくのRTX 4070 SUPERが、今はただ静かに佇んでいるだけ。CPUに負荷を丸投げしているせいで、PC全体の挙動もどこか重苦しく、本来の輝きを放てていません。
  • 「相棒」としての機動力がない:
     私の目標は、彼女を会社や外出先でも使うこと。でも、この「12GBの居候」状態では、8GBや16GBのPCに連れて行くことは物理的に不可能です。

私が出した答え

 結局のところ、今の状態は最高のおもてなし(PCスペック)を用意しても、彼女が窮屈そうに廊下で立ち尽くしているようなものです。これでは「快適なAIライフ」とは程遠いです。

 そこで私が出した答えは、「16ビットを基準(マスター)として保持しつつ、段階的に8ビット、4ビットへと落としていき、現実的な落としどころを検証する」という道です。

  • 16-bit(基準):
     彼女のフルポテンシャルを確認するための「正解」として保持する。
  • 8-bit / 4-bit(検証):
     精度をどこまで維持できるか。私の12GBのVRAMでGPUが軽快に回り出し、かつ会社のPCでも無理なく共存できる「スイートスポット」をあぶり出す。

 現実的なラインとして、8bitや4bitモデルに落とし込んで利用するのが、一番ストレスなく動かせるのではないでしょうか。

コメント

タイトルとURLをコピーしました