Mac Studio M4 Ultra で動かすローカルLLM──実用ラインの探り方
AI

Mac Studio M4 Ultra で動かすローカルLLM──実用ラインの探り方

192GB UMA のApple SiliconはローカルLLMの本命か。Llama 3.3 70B / Qwen2.5 / DeepSeek の実用域を実測ベースで検証する。

KIYODO00
#Mac Studio#ローカルLLM#Apple Silicon#LM Studio#Ollama

2024年に投入されたMac Studio M2 Ultraの時点で「ローカルLLM最適マシン」と言われていたApple Silicon系は、2025年10月のM4 Ultra(最大512GB UMA構成)登場で完全に別ステージへ移った。NVIDIAのコンシューマGPUは24GB(RTX 5090)止まりで、70Bクラスの量子化モデルを実用速度で動かそうとするとマルチGPU構成が前提になる。一方Mac Studio M4 Ultra 192GB構成なら、単機で70B fp16や123B(Mistral Large)4bit量子化が走る。

この記事ではローカルLLMを「実用」と呼べるラインがどこにあるか、2026年6月時点で見えてきた現実を整理する。

ハードウェア構成──192GBが現実的なスイートスポット

Mac Studio M4 Ultraの選択肢は60コアGPU / 80コアGPUの2本、メモリは64・128・192・256・512GB。価格は構成によって80万〜200万円超まで開く。

ローカルLLM用途の費用対効果が最も良いのは「80コアGPU + 192GB」付近、というのが各種コミュニティの一致した見方だ。512GBは「Llama 3 405Bを動かしたい」というニッチ層向けで、企業のオンプレ推論サーバー代替を狙う層が主役になりつつある。

実用モデルライン──70B 4bit が日常使い

筆者環境(M4 Ultra 80コア / 192GB / LM Studio 0.3系)での体感は次の通り。すべてMLX系の最適化前提。

  • Llama 3.3 70B Instruct(4bit Q4_K_M相当) … 25-32 tok/s、応答品質は十分高い
  • Qwen2.5 72B Instruct(4bit) … 22-28 tok/s、日本語自然さは70Bでは頭一つ抜ける
  • DeepSeek-V3.5 / R1系(4bit MoE) … プロンプト初動は遅いが定常はLlama 70B並み
  • Mistral Large 123B(4bit) … 12-15 tok/s、推敲用途には実用

これくらいの速度が出れば、Claude/GPTの代替には届かないが「ローカルで完結させたい一次ドラフト」「機密文書の要約」用途は十分回せる。

ソフトウェアスタック──LM StudioかOllamaか

操作系は2026年も大きくは変わらず、LM Studio(GUI + OpenAI互換API)かOllama(CLI + 同API)の二択。

  • LM Studio … MLXバックエンドが本家統合済み、UIから量子化レベル比較が早い
  • Ollama … スクリプト・自動化との相性、Modelfileによる蒸留設定がしやすい

両方入れて、用途で使い分けるのが2026年現在のベストプラクティスに見える。

弱点──プロンプト処理速度とコンテキスト長

ApplianceとしてのMac Studioの弱点は2つ。

  1. prompt eval(プロンプト処理)が遅い。長文を一気に投げると最初のトークンが出るまで秒単位で待たされる。RAGや長文要約用途では体感に影響する
  2. コンテキストが伸びるとメモリ消費が爆発する。128K contextをフルに使う場合、70Bでも追加で数十GBは見ておく必要がある

このため、巨大コンテキストが要る用途はクラウドAPI、定常的なやり取りはローカル、というハイブリッド運用が現実的だ。

コスト比較──API利用との分岐点

Claude Sonnet 4.5やGPT-5 miniをAPIで叩く場合、月数千円〜数万円のレンジで済む層も多い。Mac Studio 192GB構成は概ね130万円前後。電気代と減価償却を含めても、「月20万円以上APIに払っている」もしくは「機密情報をクラウドに出せない」のどちらかでない限り、純粋に経済合理的とは言い切れない。

ただし「24時間動かせるエージェント基盤」「ファインチューニング」「APIレート制限フリー」を価値と見れば話は別だ。

推測される今後──M5世代と統合GPUの限界

Apple Silicon Mシリーズが今のペースでメモリ帯域を伸ばし続ければ、2027年のM5世代では70B fp16が30 tok/s台に乗る可能性がある(推測)。一方でNVIDIA Blackwell世代のコンシューマGPUがVRAM 48GBクラスを投入してきた場合、優位は揺らぐ。

よくある質問

Q. M3 Ultraからの買い替えは合理的か? LLM用途ならMLXパフォーマンス改善とメモリ帯域の差で体感1.3-1.5倍程度。今すぐ買い替えるほどではない、というのが筆者の評価。

Q. RTX 5090複数枚との比較は? 70B以上は2枚以上要るので電源と筐体の制約が厳しい。単機完結のシンプルさはMac Studioが圧勝。

Q. 推論以外(学習・LoRA)にも使える? LoRA程度なら可能。フルファインチューニングはCUDAエコシステム依存のスクリプトが多く、現実的ではない。

あわせて読みたい

コメント (0)

まだコメントはありません。最初の一言を残しませんか?