メモリ2026-04-10

DDR5は速いだけじゃない：AI推論でメモリ帯域が直接効く理由

「VRAMが足りていればメモリは何でもいい」——そう思っていた時期が自分にもあった。

ところがllama.cppで70Bモデルを動かし始めたとき、DDR4とDDR5でトークン生成速度に明確な差が出ることに気づく。VRAMには余裕があるのに、なぜか遅い。その正体がメモリ帯域だ。

DDR5が「速い」のは知っていた。でもそれがAI推論に「直接効く」理由までは把握していない人が多い。ここで整理する。

なぜメモリ帯域がAI推論に効くのか

AI推論の処理はGPU（VRAM）の中で完結する——これは正しい。しかしモデルのサイズがVRAMを超えた瞬間、話が変わる。

llama.cppなどはVRAMに収まらない層をCPUのメインメモリ（RAM）にオフロードして推論を続ける。このとき、GPU↔CPUのデータ転送がボトルネックになる—— というのはPCIeの話として前回のマザーボード記事で触れた。

もう一段深いところに、CPU↔RAM間の転送がある。 CPUがオフロードされた層を処理するとき、RAMからデータを引っ張る速度がそのままトークン生成速度に現れる。ここでメモリ帯域が効いてくる。

推論の流れ（CPUオフロードあり）

GPU（VRAM）で処理 → 容量超過分をRAMにオフロード → CPUがRAMからデータ読み取り → GPU返却

↑ RAM→CPUの読み取り速度 = メモリ帯域がここで効く

「DDR5は速い」という話は知っていても、数字で見ている人は少ない。

DDR4-3200からDDR5-4800に変えるだけで帯域は約1.5倍。DDR5-6000なら約1.9倍になる。 CPUオフロード推論では、この差がトークン生成速度にほぼそのまま出る。

影響が出るケース：70B以上のモデルをCPUオフロードしながら動かす。デュアルチャネル構成（2枚差し）が前提。シングルチャネル（1枚差し）では帯域が半減するので要注意。

このサイトでは上記のDDR5メモリ各モデルの価格を毎日追跡しています。価格一覧を見る →

DDR5を選ぶとして、次の問いは「速いメモリを少なく」か「遅いメモリを多く」かだ。

容量優先（32GB × 2 = 64GB）

70B以上のモデルをオフロードするなら容量が先に詰まる。 DDR5-4800の64GBと、DDR5-6000の32GBを比べたとき、大容量モデルを扱うなら前者の方が実用的なケースが多い。

速度優先（16GB × 2 = 32GB、高クロック）

モデルがVRAMに収まっている場合（7B〜13B）、 CPUオフロードが発生しないのでメモリ帯域の影響は軽微。 Stable DiffusionのようにVRAM完結型の用途なら32GBでも十分だ。

悩んだら「今使っているモデルがVRAMに収まっているか」を確認する。収まっていれば速度より容量を増やす方向を考える必要はない。収まっていないなら64GB構成が先になる。

「64GBを4枚で」と考えている場合、注意が必要だ。

DDR5はチャネルあたりの負荷が増えると、XMPプロファイルが無効化され定格速度（4800MHz程度）に落とされることがある。つまり、高クロックの16GB×4枚が、同じ64GBの32GB×2枚より遅くなるケースが現実にある。

推奨構成：64GBを目指すなら16GB×4より32GB×2の方が安全。クロックが期待通りに通りやすく、帯域の計算が素直に成立する。 4枚挿し前提の場合はマザーボードの対応メモリリストを必ず確認する。

モデルがVRAMに収まる（SDXL、7B〜13B）

メモリ帯域の影響は小さい。DDR5 32GBで十分。速度より安定性を優先。

CPUオフロード運用（32B〜70B）

DDR5 64GB（32GB×2 デュアルチャネル）を優先。シングルチャネルは帯域が半減するので論外。4枚挿しより2枚挿しの方がクロックが安定する。

70B以上を本気で動かしたい

DDR5 64GBに加えてクロック速度も見る。DDR5-5600以上を選べばオフロード推論の体感が変わる。32GB×2の構成を選ぶこと。

DDR4からDDR5への移行を「なんとなく新しいから」で判断している人は多い。 CPUオフロード推論を使うなら、その「なんとなく」には根拠がある。使わないなら、急いでDDR5に乗り換える理由は薄い。