RTX 4060はローカルLLMに使える?8GB VRAMの天井と現実
「ローカルLLMに興味が出た。でもGPUは何でもいいか?」——そういう人が最初に買いがちなのがRTX 4060だ。
価格帯が手ごろで、ゲームでも使えて、ローカルLLMも動く。 カタログスペックだけ見れば確かに合理的な選択肢に見える。
ただ、実際に使い続けると「あと少しVRAMが欲しい」という感覚がかなり早い段階でやってくる。 この記事では、RTX 4060(8GB)でローカルLLMを使った時に何が起きるかを具体的に整理する。
先に結論
7Bモデルは普通に動く
RTX 4060の8GBは、7〜8Bモデルを完全にGPU上に乗せるには十分な量だ。 Qwen3:8b、Gemma 4 E4B、Llama3.1:8b——これらのモデルは快適に動く。
日常的な質問・要約・翻訳なら7Bで十分こなせる。 使い始めの第一印象は悪くない。むしろ「これで十分じゃないか」と思う人は多い。 実際、最初の数日はこれで不満を感じにくい。問題は、そのあと欲が出た時だ。
13Bを試した瞬間に詰まる
問題は「もう少し賢いモデルを使いたい」という欲が出た時だ。
13〜14BモデルはQ4量子化でも8〜10GB前後必要になる。 8GBのVRAMには入りきらず、Ollamaは自動でCPU(システムRAM)へのオフロードを始める。
GPUとCPU間のデータ転送がボトルネックになり、速度が激落ちする。 これは設定でどうにかなる問題ではない。VRAMが足りない以上、避けられない。
「ちょっと賢いモデルを試してみよう」——その一歩を踏み出した瞬間に、 8GBという壁が明確に見えてくる。 ここで初めて「8GBは動くけど余裕はない」と実感する。
「あと少しVRAMが欲しい」が繰り返される理由
RTX 4060を選んだ人は、こういう流れになりやすい。
これが数ヶ月で「RTX 4060から買い替えたい」という話につながる。 8GBは足りないわけではないが、余裕もない。常にギリギリの状態で使い続けることになる。
コーディング補助での使い方
コーディング特化モデル(Qwen2.5-Coder:7b など)は8GBでも十分動く。 補完・レビュー・簡単なデバッグなら7Bクラスでもかなり使える。
ただし、大きなコードベース全体を読ませる・複数ファイルをまとめてレビューさせる、 といった「重い用途」になると7Bの限界が出る。 コーディング用途でも、本格的に使い倒すなら12GB以上が快適だ。
結論:RTX 4060 8GBは「入門」として正直なスペック
RTX 4060は、ローカルLLMの入門として試すには十分だ。 7Bモデルが快適に動くだけでも、クラウドAIとは全く違う体験ができる。
ただ、長く使うつもりなら「8GBで満足できるか」をあらかじめ考えておいた方がいい。 使い続けるほど、もう一段上のVRAMへの欲が出てくる。
4060はローカルLLMの入口としては優秀だ。ただ、少し使い込むだけで「次は12GB以上が欲しい」という気持ちがかなり自然に出てくる。 最初から後悔しない選択をするなら、その一段上を最初から選んでおく方が結果的に安くつく。
そもそもローカルLLMとは何か、始め方から知りたい場合はこちら。
12GB・16GBで何が変わるかは、VRAM別の記事で詳しくまとめている。
次のGPUをどれにするか迷っているなら、用途別の比較も用意している。
GPUごとの価格差は比較ページで確認できる。