ローカルAI2026-04-19

VRAM別でできること｜8GB・12GB・16GB・24GBの現実【ローカルLLM】

ローカルLLMは「動くかどうか」より「どこまで快適に使えるか」が重要になる。

そしてそれを決めるのがVRAMだ。同じOllamaで同じモデルを動かしても、 8GBと16GBでは体験が別物になる。「重い」「遅い」「詰まる」——その原因のほとんどはVRAM不足だ。

この記事ではVRAMのティア別に、使えるモデル・限界・正直なイライラポイントを書く。スペック表の読み方ではなく、実際に使ってどうかを軸に整理する。

結論から先に言う

VRAM	一言評価	代表GPU
8GB	とりあえず動く。すぐ限界が来る	RTX 4060
12GB	実用ライン。まだ足りない場面がある	RTX 4070 / RTX 3060 12GB
16GB	ストレスがほぼなくなる。おすすめライン	RTX 4080 / 4070 Ti S
24GB	別世界。制限がほぼ消える	RTX 4090

後悔しないラインは16GB。コスパを取るなら12GB。この2択が現実的な判断になる。

8GB（RTX 4060）— とりあえず動くが、すぐ壁にぶつかる

できること

→ 7B〜8Bモデルを完全GPU推論（Qwen3:8b、Llama3.1:8b など）
→ 40〜70トークン/秒程度で動作（環境・モデルによって変わる）。会話速度として十分
→ 軽量モデル（Gemma3:4b など）ならかなり快適

限界・イライラポイント

→ 13Bモデルは収まらない。RAMにオフロードすると1〜2トークン/秒まで落ちる
→ コンテキスト（会話の長さ）を増やすとVRAMが圧迫されてクラッシュする
→ 「もう少し賢いモデルを使いたい」と思ったとき、即座に壁にぶつかる
→ 常にVRAM残量を気にしながら使うことになる

入門として触るには十分。ただし本格的に使い始めると、数週間以内に「もっと欲しい」と感じる人がほとんどだ。

12GB（RTX 4070 / RTX 3060）— 実用ラインだが、中途半端さも残る

できること

→ 13B〜14Bモデルを完全GPU推論（Qwen2.5:14b、Llama3.1:13b など）
→ 7Bモデルなら高品質量子化（Q8）でも動く。回答精度が上がる
→ コーディング用途なら Qwen2.5-Coder:14b が実用レベルで動く
→ 8GBよりコンテキストに余裕ができ、長い会話が続けやすい

限界・イライラポイント

→ 30B以上のモデルはオフロードが必要で体感速度が落ちる
→ 「もう少し賢い回答が欲しい」という場面でモデルの選択肢が限られる
→ マルチタスク（ブラウザ＋モデル）で詰まることがある

日常的な文章生成・要約・翻訳ならこれで十分。コスパを重視するならここが現実的な選択肢。ただし「賢いモデルを使い倒したい」なら、もう一段上を検討した方がいい。

16GB（RTX 4080 / RTX 4070 Ti Super）— ストレスがほぼ消える

できること

→ 13B〜14Bモデルを高品質量子化（Q8）で余裕を持って動かせる
→ 30B〜34Bモデルを積極的な量子化（Q3〜Q4）で試せる
→ 複数のモデルを切り替えながら使ってもVRAMが枯渇しにくい
→ 長いコンテキスト（小説1本分など）も扱える
→ ブラウザを開きながら、複数アプリを動かしながらでも安定する

まだある限界

→ 70Bモデルはオフロード必須。速度は落ちる
→ 30Bクラスを高品質で動かすには少し足りない

大半のユーザーにとって「これで十分」と感じるラインがここだ。 VRAMを気にしながら使う、という感覚がほぼなくなる。本格的にローカルLLMを使うなら、最初から16GBを選ぶ方が後悔が少ない。

24GB（RTX 4090）— 別世界。制限がほぼ消える

できること

→ 30B〜34Bモデルを高品質量子化（Q4〜Q5）で快適に動かせる
→ Qwen2.5:32b、DeepSeek-R1:32b など、能力の高いモデルが選択肢に入る
→ 70B級の大型モデルも試しやすくなる（完全GPU推論は難しいが、オフロードでも十分動く）
→ VRAMをほぼ意識せず使えるレベル

70Bモデル（Q4で約40GB）は24GBだけでは完全GPU推論には入りきらない。ただし部分オフロードで動かすことは可能で、30B〜34Bまでなら制限をほぼ感じない。

課題はコストだ。RTX 4090は20万円前後。「ローカルLLMのためだけに買う」には費用対効果を考える必要がある。 GPU・3Dゲーム・動画編集と組み合わせて使うなら話が変わる。

正直な比較：どこを選ぶべきか

まず触ってみたい→ 8GB（RTX 4060）

コストを抑えてとりあえず動かしたいなら。ただし数週間で限界を感じる可能性が高い。

コスパ重視→ 12GB（RTX 4070）

日常用途には十分。「もっと賢いモデルが使いたい」という欲が出てくるまでは満足できる。

後悔しない選択→ 16GB（RTX 4080 / 4070 Ti S）

ストレスなく使えるラインがここ。最初からここを選べばVRAM不足で買い直す必要がなくなる。

本気でやる→ 24GB（RTX 4090）

予算が問題なく、30B超のモデルを使い倒したいなら。ローカルLLM以外の用途でも使うなら十分な投資になる。

今の価格を確認する

GPUの価格は出品状況によって頻繁に変わる。「買い時か」を判断するには価格の推移を見るのが早い。このサイトでは楽天・Yahoo!・Amazonの価格を毎日追跡している。

Gadget Tracker — 価格監視ツール

ローカルLLM向けGPU 最安値・価格推移を毎日追跡中

RTX 4060〜4090まで、楽天・Yahoo!・Amazonを毎日比較。

GPU比較一覧を見る →

まとめ

ローカルLLMはVRAMで世界が変わる。

最初は8GBでもいい。動くし、体験できる。ただし使い続けるなら、物足りなくなるのは時間の問題だ。

「どこで妥協するか」ではなく「どこまでやりたいか」で選ぶと、買い直しのコストを払わずに済む。後悔しないラインは16GBで、コスパを優先するなら12GB——この判断が今のローカルLLM環境における現実的な結論だ。

← ローカルLLM入門 GPU価格一覧 →