VRAM別でできること|8GB・12GB・16GB・24GBの現実【ローカルLLM】
ローカルLLMは「動くかどうか」より「どこまで快適に使えるか」が重要になる。
そしてそれを決めるのがVRAMだ。同じOllamaで同じモデルを動かしても、 8GBと16GBでは体験が別物になる。 「重い」「遅い」「詰まる」——その原因のほとんどはVRAM不足だ。
この記事ではVRAMのティア別に、使えるモデル・限界・正直なイライラポイントを書く。 スペック表の読み方ではなく、実際に使ってどうかを軸に整理する。
結論から先に言う
| VRAM | 一言評価 | 代表GPU |
|---|---|---|
| 8GB | とりあえず動く。すぐ限界が来る | RTX 4060 |
| 12GB | 実用ライン。まだ足りない場面がある | RTX 4070 / RTX 3060 12GB |
| 16GB | ストレスがほぼなくなる。おすすめライン | RTX 4080 / 4070 Ti S |
| 24GB | 別世界。制限がほぼ消える | RTX 4090 |
後悔しないラインは16GB。コスパを取るなら12GB。この2択が現実的な判断になる。
8GB(RTX 4060)— とりあえず動くが、すぐ壁にぶつかる
- → 7B〜8Bモデルを完全GPU推論(Qwen3:8b、Llama3.1:8b など)
- → 40〜70トークン/秒程度で動作(環境・モデルによって変わる)。会話速度として十分
- → 軽量モデル(Gemma3:4b など)ならかなり快適
- → 13Bモデルは収まらない。RAMにオフロードすると1〜2トークン/秒まで落ちる
- → コンテキスト(会話の長さ)を増やすとVRAMが圧迫されてクラッシュする
- → 「もう少し賢いモデルを使いたい」と思ったとき、即座に壁にぶつかる
- → 常にVRAM残量を気にしながら使うことになる
入門として触るには十分。ただし本格的に使い始めると、数週間以内に「もっと欲しい」と感じる人がほとんどだ。
12GB(RTX 4070 / RTX 3060)— 実用ラインだが、中途半端さも残る
- → 13B〜14Bモデルを完全GPU推論(Qwen2.5:14b、Llama3.1:13b など)
- → 7Bモデルなら高品質量子化(Q8)でも動く。回答精度が上がる
- → コーディング用途なら Qwen2.5-Coder:14b が実用レベルで動く
- → 8GBよりコンテキストに余裕ができ、長い会話が続けやすい
- → 30B以上のモデルはオフロードが必要で体感速度が落ちる
- → 「もう少し賢い回答が欲しい」という場面でモデルの選択肢が限られる
- → マルチタスク(ブラウザ+モデル)で詰まることがある
日常的な文章生成・要約・翻訳ならこれで十分。コスパを重視するならここが現実的な選択肢。 ただし「賢いモデルを使い倒したい」なら、もう一段上を検討した方がいい。
16GB(RTX 4080 / RTX 4070 Ti Super)— ストレスがほぼ消える
- → 13B〜14Bモデルを高品質量子化(Q8)で余裕を持って動かせる
- → 30B〜34Bモデルを積極的な量子化(Q3〜Q4)で試せる
- → 複数のモデルを切り替えながら使ってもVRAMが枯渇しにくい
- → 長いコンテキスト(小説1本分など)も扱える
- → ブラウザを開きながら、複数アプリを動かしながらでも安定する
- → 70Bモデルはオフロード必須。速度は落ちる
- → 30Bクラスを高品質で動かすには少し足りない
大半のユーザーにとって「これで十分」と感じるラインがここだ。 VRAMを気にしながら使う、という感覚がほぼなくなる。 本格的にローカルLLMを使うなら、最初から16GBを選ぶ方が後悔が少ない。
24GB(RTX 4090)— 別世界。制限がほぼ消える
- → 30B〜34Bモデルを高品質量子化(Q4〜Q5)で快適に動かせる
- → Qwen2.5:32b、DeepSeek-R1:32b など、能力の高いモデルが選択肢に入る
- → 70B級の大型モデルも試しやすくなる(完全GPU推論は難しいが、オフロードでも十分動く)
- → VRAMをほぼ意識せず使えるレベル
70Bモデル(Q4で約40GB)は24GBだけでは完全GPU推論には入りきらない。ただし部分オフロードで動かすことは可能で、30B〜34Bまでなら制限をほぼ感じない。
課題はコストだ。RTX 4090は20万円前後。「ローカルLLMのためだけに買う」には費用対効果を考える必要がある。 GPU・3Dゲーム・動画編集と組み合わせて使うなら話が変わる。
正直な比較:どこを選ぶべきか
コストを抑えてとりあえず動かしたいなら。ただし数週間で限界を感じる可能性が高い。
日常用途には十分。「もっと賢いモデルが使いたい」という欲が出てくるまでは満足できる。
ストレスなく使えるラインがここ。最初からここを選べばVRAM不足で買い直す必要がなくなる。
予算が問題なく、30B超のモデルを使い倒したいなら。ローカルLLM以外の用途でも使うなら十分な投資になる。
今の価格を確認する
GPUの価格は出品状況によって頻繁に変わる。「買い時か」を判断するには価格の推移を見るのが早い。 このサイトでは楽天・Yahoo!・Amazonの価格を毎日追跡している。
まとめ
ローカルLLMはVRAMで世界が変わる。
最初は8GBでもいい。動くし、体験できる。 ただし使い続けるなら、物足りなくなるのは時間の問題だ。
「どこで妥協するか」ではなく「どこまでやりたいか」で選ぶと、 買い直しのコストを払わずに済む。 後悔しないラインは16GBで、コスパを優先するなら12GB——この判断が今のローカルLLM環境における現実的な結論だ。