DDR5は速いだけじゃない:AI推論でメモリ帯域が直接効く理由
「VRAMが足りていればメモリは何でもいい」——そう思っていた時期が自分にもあった。
ところがllama.cppで70Bモデルを動かし始めたとき、DDR4とDDR5でトークン生成速度に 明確な差が出ることに気づく。VRAMには余裕があるのに、なぜか遅い。 その正体がメモリ帯域だ。
DDR5が「速い」のは知っていた。でもそれがAI推論に「直接効く」理由までは 把握していない人が多い。ここで整理する。
なぜメモリ帯域がAI推論に効くのか
AI推論の処理はGPU(VRAM)の中で完結する——これは正しい。 しかしモデルのサイズがVRAMを超えた瞬間、話が変わる。
llama.cppなどはVRAMに収まらない層をCPUのメインメモリ(RAM)にオフロードして推論を続ける。 このとき、GPU↔CPUのデータ転送がボトルネックになる—— というのはPCIeの話として前回のマザーボード記事で触れた。
もう一段深いところに、CPU↔RAM間の転送がある。 CPUがオフロードされた層を処理するとき、RAMからデータを引っ張る速度が そのままトークン生成速度に現れる。ここでメモリ帯域が効いてくる。
DDR4 vs DDR5:帯域幅の実際の差
「DDR5は速い」という話は知っていても、数字で見ている人は少ない。
| 規格 | 転送速度(1枚) | デュアルチャネル時 |
|---|---|---|
| DDR4-3200 | 約25.6 GB/s | 約51.2 GB/s |
| DDR5-4800 | 約38.4 GB/s | 約76.8 GB/s |
| DDR5-6000 | 約48.0 GB/s | 約96.0 GB/s |
DDR4-3200からDDR5-4800に変えるだけで帯域は約1.5倍。DDR5-6000なら約1.9倍になる。 CPUオフロード推論では、この差がトークン生成速度にほぼそのまま出る。
速度 vs 容量:AI用途ではどちらを優先するか
DDR5を選ぶとして、次の問いは「速いメモリを少なく」か「遅いメモリを多く」かだ。
70B以上のモデルをオフロードするなら容量が先に詰まる。 DDR5-4800の64GBと、DDR5-6000の32GBを比べたとき、 大容量モデルを扱うなら前者の方が実用的なケースが多い。
モデルがVRAMに収まっている場合(7B〜13B)、 CPUオフロードが発生しないのでメモリ帯域の影響は軽微。 Stable DiffusionのようにVRAM完結型の用途なら32GBでも十分だ。
悩んだら「今使っているモデルがVRAMに収まっているか」を確認する。 収まっていれば速度より容量を増やす方向を考える必要はない。 収まっていないなら64GB構成が先になる。
見落としがちな罠:4枚挿しでクロックが落ちる
「64GBを4枚で」と考えている場合、注意が必要だ。
DDR5はチャネルあたりの負荷が増えると、XMPプロファイルが無効化され 定格速度(4800MHz程度)に落とされることがある。 つまり、高クロックの16GB×4枚が、同じ64GBの32GB×2枚より遅くなるケースが現実にある。
結論:用途別の判断
メモリ帯域の影響は小さい。DDR5 32GBで十分。速度より安定性を優先。
DDR5 64GB(32GB×2 デュアルチャネル)を優先。シングルチャネルは帯域が半減するので論外。4枚挿しより2枚挿しの方がクロックが安定する。
DDR5 64GBに加えてクロック速度も見る。DDR5-5600以上を選べばオフロード推論の体感が変わる。32GB×2の構成を選ぶこと。
DDR4からDDR5への移行を「なんとなく新しいから」で判断している人は多い。 CPUオフロード推論を使うなら、その「なんとなく」には根拠がある。 使わないなら、急いでDDR5に乗り換える理由は薄い。