ChatGPT・Claude を毎日触っているうちに、「社内コードを AI に貼るのは気が引ける」「月額課金が止まると作業が止まる」「飛行機内や社内 VPN でも AI を動かしたい」と感じてきたのではないでしょうか。実際、ラッコキーワード実測(2026 年 5 月時点)でも「LLM ローカル」は月 1,600 件・SEO 難易度 39 の MOFU 領域。私自身は業務で OpenAI / Anthropic / Google の API を毎日叩いていますが、ローカル LLM は Mac で Ollama を触った個人検証レベル——業務本番運用ではない、という温度感が出発点です。
結論から言うと、ローカル LLM は「業務本番のメイン」ではなく「個人検証から始めて、特定用途で組み合わせる」のが筋——というのが、MacBook Pro で Ollama を触り、クラウド API と毎日比較している私の率直な感覚です。本記事ではハードウェア要件、主要モデル、日本語対応、5 分で動かす最小手順、用途別おすすめ、職種別ユースケースまで現役視点で整理します。
とりあえず最短で「自分の PC で LLM を動かす感触を掴みたい」方は、セクション 1「結論」と セクション 9「5 分で動かす最小手順」から読み始めると、本日中に最初の一歩が踏めます。
01 — 結論:ローカル LLM = 個人検証ではアリ、業務本番のメインはクラウド API が筋(一行マップ)
📖 この章で使う用語
- LLM(Large Language Model:大規模言語モデル):ChatGPT や Claude などの中身を動かす、文章を予測する装置。詳しくは LLM とは で扱っています。
- ローカル LLM:自分の PC や手元のサーバで動かす LLM の総称。「クラウド AI = レンタル車に対し、ローカル LLM = 自家用車」のイメージ。
- クラウド AI:ChatGPT / Claude / Gemini のように、運営会社のサーバで動く AI。インターネット越しに使う。
- 個人検証レベル:業務本番運用ではなく、自分の PC で触って動かしてみた範囲、という意味。
まず結論から書きます。ローカル LLM は 「個人検証ではアリ、業務本番のメインはクラウド API が筋」——これが、Apple Silicon Mac で Ollama を触り、業務では Anthropic / OpenAI / Google の API を毎日叩いている私の、いちばん実用的な答えです。
3 行で覚えていただきたいのは、次の住み分けです。
- ローカル LLM = プライバシー・無料・オフライン・カスタマイズ・学習目的(自家用車のように、自分の手元で完結する選択肢)
- クラウド AI(API) = 性能・速度・運用負担の軽さ(レンタル車のように、フル装備で借りて使う選択肢)
- 使い分け = 用途と機密性・コスト要件で、ローカルとクラウドを「組み合わせて」運用するのが現実解
「迷ったらこの 3 行だけ覚えれば OK」のマップです。新しいローカル LLM ツールやモデルが次々に出てきても、まず「これは自家用車側の選択肢か、レンタル車側か、組み合わせ用か」を確かめれば、置き場所に迷わなくなります。
ここで本記事の立ち位置と、私自身の経験範囲を最初にお伝えしておきます。本記事は「個人検証レベル + 公開情報からの整理」の温度感で書きます。具体的には、(1) Apple Silicon Mac(MacBook Pro)で Ollama を触り、Code Llama / DeepSeek Coder / Llama 3 などを動かしたのは個人検証レベルです。業務本番運用ではありません。(2) 業務本番運用で叩いているのは Anthropic / OpenAI / Google の API(クラウド側)と、必要に応じて AWS Bedrock 経由 Claude です。(3) Mistral / Gemma / Qwen / Phi などのモデルは概念・選定の整理レベルまでで、手元で長時間動かし込んだ範囲ではありません。(4) 日本語特化モデル(Llama-3-ELYZA-JP / Swallow など)は公開情報からの整理で扱います。(5) 小説生成は個人検証経験がないため、本記事では公開情報からの整理として扱います。
既存記事との役割分担も明示しておきます。本記事は LLM とは(LLM 概念ハブ、クラウド主軸)のスポーク記事として、「LLM を自分の PC で動かす」軸に絞って書きます。AI コードレビューでローカル LLM をどう使うかは AI コードレビュー のセクション 7 で別建てしており、本記事はモデル選びとハードウェア要件を主軸にします。AI エージェント構築でローカル LLM をどう組み合わせるかは AIエージェント 作り方 で別建てしており、本記事はエージェント文脈は概観のみです。RAG での組み合わせは RAG とは を、AI コーディング全体地図は AI コーディング を、それぞれご覧ください。
なお、ローカル LLM の世界はモデル更新サイクルが非常に早く、半年経つと景色が変わっている可能性が高い領域です。本記事の数字・モデル名・ライセンス条件はすべて 2026 年 5 月時点のもので、最新の状況は各モデル公式(Meta / Mistral AI / Google / Alibaba / DeepSeek / Microsoft)と Hugging Face で必ず事前確認してから判断してください。「絶対このモデルが一番」「必ずこのスペックで動く」とは申し上げません。
02 — LLM ローカルとは——クラウド AI との違いを 1 枚の図で
📖 この章で使う用語
- OSS LLM(Open Source Software LLM):ソースコードとモデル重み(weights)が公開されている LLM。Llama / Mistral / Gemma が代表例。
- プロプライエタリ LLM:開発元が内部仕様を非公開にしている商用 LLM。GPT 系 / Claude 系 / Gemini 系が代表例。
- モデル重み(weights):LLM が学習で身につけた「言葉の関係性の数値」の一式。ダウンロードできる「LLM 本体ファイル」のイメージ。
- 推論(inference):学習済みモデルに文章を渡して、応答を生成させる処理。「AI に質問して回答をもらう」その瞬間の計算。
ここから、ローカル LLM とクラウド AI の「決定的な違い」を 4 点で整理します。まず LLM そのものの基本概念があやふやな方は、LLM とは を先にご覧いただくと、本記事の理解が深まります。
クラウド AI(ChatGPT / Claude / Gemini)とローカル LLM の違いは、次の 4 点に集約できます。
① モデルが置かれている場所:クラウド AI は OpenAI / Anthropic / Google のサーバ上にモデルが置かれています。利用者の手元には何もダウンロードされません。ローカル LLM は逆で、モデル本体(数 GB 〜 数十 GB のファイル)を利用者の PC にダウンロードします。
② 推論計算が走る場所:クラウド AI はインターネット越しにリクエストを送り、運営会社のサーバ側で推論計算(GPU や TPU を使った重い処理)が走ります。ローカル LLM は自分の PC の CPU / GPU で推論計算が走ります。
③ インターネット接続の必要性:クラウド AI はインターネット必須。回線が落ちると使えません。ローカル LLM は一度モデルをダウンロードすれば、オフラインで動きます。飛行機の中・出張先の WiFi 不安定環境・社内 VPN の縛り——どれもローカル LLM の出番です。
④ 月額課金:クラウド AI は基本的に従量課金または月額サブスク(ChatGPT Plus / Claude Pro / Gemini Advanced 等)。ローカル LLM は一度動けばランニング費用ゼロ(ハードウェア代と電気代を除く)。
営業時代の身近なたとえで整理すると、クラウド AI = レンタル車、ローカル LLM = 自家用車 のイメージです。レンタル車は最新装備でフル整備、料金は使った分だけ。自家用車は購入費用とメンテナンス手間がかかる代わりに、深夜でも休日でも自由に動かせて、誰にも行き先を報告しなくていい。どちらが優れているという話ではなく、用途で使い分けるのが現実的、というのがいちばん落ち着く整理です。
もう 1 つ、ローカル LLM を理解するうえで欠かせない区別が OSS LLM とプロプライエタリ LLM です。ローカル LLM として動かせるのは基本的に OSS LLM——つまり、開発元がモデル重みを公開しているモデルだけです。Llama(Meta)、Mistral(Mistral AI)、Gemma(Google)、Qwen(Alibaba)、DeepSeek(DeepSeek 社)、Phi(Microsoft)が代表例です。一方、GPT 系・Claude 系・Gemini 系はプロプライエタリ LLM——モデル重みは非公開で、利用者は API 越しにしかアクセスできません。「クラウド AI のフロンティアモデルを、そっくり同じ性能で自分の PC で動かす」ことはできない——これは 2026 年 5 月時点の現実です。
2026 年 5 月時点の業界動向としては、OSS LLM の性能はクラウドのフロンティアモデルに着実に追いついてきており、用途を絞れば実用レベルの差は縮まっています。LMSYS Chatbot Arena(人間評価ベースのモデル比較)でも、Llama 3 系統や Qwen 系統は GPT-4 系列に肉薄するスコアを公開情報で記録しています(最新ランキングは lmarena.ai で必ずご確認ください)。とはいえ、汎用的な業務本番運用の主力としては、まだクラウド API が現実解という整理が、私の業務感覚と公開情報の双方から見える 2026 年 5 月時点の姿です。
03 — ローカル LLM 5 つのメリット——プライバシー / オフライン / 無料 / カスタマイズ / 学習目的
📖 この章で使う用語
- オフライン動作:インターネット接続なしで動くこと。出張・飛行機内・社内 VPN 環境で重要。
- 量子化(Quantization):モデルの数値精度を落としてサイズを小さくする技術。4-bit / 5-bit / 8-bit が代表的。
- ファインチューニング(fine-tuning):既存モデルに追加学習させて特定用途に最適化する操作。
- LoRA(Low-Rank Adaptation):ファインチューニングの軽量手法。少ない計算量で挙動を変えられる。
ここから、ローカル LLM の 5 つのメリットを 1 つずつ整理します。サジェスト 9 位「メリット」、10 位「無料」を真正面から扱う章です。本章は、個人検証レベルで実感した範囲 + 公開情報からの整理 という温度感で書きます——業務本番運用での実感ではない点を、最初にお伝えしておきます。
メリット ① プライバシー:データが手元から出ない
これがローカル LLM の最大のメリットです。クラウド AI に質問するときは、入力した文章(社内コード・顧客情報・契約書ドラフトなど)が運営会社のサーバを経由します。多くのクラウド AI 提供事業者は「API 利用時の入力データはモデル学習には使わない」と公表していますが(最新のデータ利用ポリシーは各公式で必ずご確認ください)、それでも「社外に出すこと自体が抵抗ある」「社内規定で外部 AI への入力が禁止されている」というケースは少なくありません。
ローカル LLM なら、入力も出力もすべて自分の PC で完結します。インターネットには 1 バイトも流れません。社内コードの整形、機密性の高い顧客リストの下処理、契約書ドラフトの校正——「外に出したくないデータの AI 処理」では、ローカル LLM が現実解になります。AI コードレビュー のセクション 7 でも、社内コードを外部に送れない環境向けの選択肢として Ollama + Code Llama / DeepSeek Coder が整理されています。本記事ではそこからの送り出しで、より広くハードウェア・モデル選びを扱います。
メリット ② オフライン動作:ネット環境を選ばない
飛行機内、新幹線のトンネル、出張先のフリー WiFi が遅い、社内 VPN の縛りで外部サービスが使えない——これらの環境で、クラウド AI は使えません。ローカル LLM はインターネット接続がゼロでも動きます。私の個人検証でも、機内モードの MacBook Pro で Ollama + Llama 3 を動かして、簡単な文章整形やコードの読み解きをさせた経験があります。「ネットがない時間に AI を使いたい」というニッチですが確実なニーズに応えてくれます。
メリット ③ 無料:ハードウェア代を除けば月額課金ゼロ
クラウド AI は基本的に従量課金または月額サブスクです。ChatGPT Plus が月 20 ドル前後、Claude Pro が月 20 ドル前後、API 従量課金も合算すれば毎月の固定費が一定額発生します(料金は変動するため、最新値は各公式で必ずご確認ください)。
ローカル LLM は、一度動かしてしまえばランニング費用は基本的にゼロです。電気代と PC のメンテナンス費用は別途かかりますが、API 課金は発生しません。学習用途・趣味用途・個人ブログ用途など、「コストを完全に固定費化したい」ケースでは、ローカル LLM が選択肢になります。ただし**「絶対無料で運用できる」とは申し上げません**——後述のハードウェア要件で、初期費用としてある程度のスペックを持つ Mac や PC が必要になる点には注意してください。
メリット ④ カスタマイズ性:量子化・LoRA・ファインチューニング
ローカル LLM は、モデル本体を自分の手元に持っている強みを活かして、カスタマイズの自由度が高い です。具体的には次の 3 つです。
- 量子化(Quantization):モデルの数値精度を 4-bit / 5-bit / 8-bit に落として、サイズと計算量を下げる。8 GB の Llama 3 8B を 4 GB の Q4_K_M に圧縮するイメージ
- LoRA(Low-Rank Adaptation):少ない計算量で、自社データや特定用途に合わせて挙動を微調整する
- フルファインチューニング:大規模に追加学習させて、特定領域(医療・法務・社内 FAQ など)に特化させる
クラウド AI でもファインチューニング機能は提供されていますが(OpenAI / Anthropic の Fine-tuning API など)、ローカル LLM の自由度はそれを超えます。ただし、これらは個人検証レベルでは触れますが、業務本番運用に乗せる場合はモデル品質の劣化・データセット作成負担・運用保守の人手が必要 な領域です。私自身、本格的なファインチューニングを業務本番運用に乗せた経験はないため、本セクションは公開情報からの整理レベルでの紹介です。
メリット ⑤ 学習目的:AI の中身を体感で理解できる
最後は、これから生成AIエンジニアを目指す未経験の方にとって、いちばん地味だけれど大きいメリットです。ローカル LLM を自分の PC で動かすと、AI の中身が体感で見えてきます。モデルサイズが何 GB か、量子化で何 GB に圧縮されるか、推論にどれだけ時間がかかるか、RAM や GPU をどれだけ食うか——クラウド AI を API 越しに叩いているだけでは見えない「モデルの物理的な実体」が、ローカル LLM だと手元で確認できます。
営業時代の私は、商品を売る前に必ず自分で触ってみる癖がありました。スペック表だけでは伝わらない「重さ」「動作音」「立ち上がりの速さ」を実機で確認しないと、お客様への提案に説得力が出ない感覚です。生成AIエンジニアになる前段階で、ローカル LLM を 1 度動かしておくと、「クラウド AI を API 越しに使っている時の中身で何が起きているか」が立体的に理解できるようになります。これは、学習目的としてのローカル LLM のいちばん大きい価値だと、私は個人的に感じています。
04 — ローカル LLM 5 つのデメリット——性能 / スペック / セットアップ / モデル更新 / 商用利用ライセンス
📖 この章で使う用語
- ベンチマーク:LLM の性能を測る統一指標。LMSYS Chatbot Arena / HuggingFace Open LLM Leaderboard が代表例。
- モデル更新サイクル:LLM のバージョンアップ頻度。クラウド AI は運営側が自動更新、ローカル LLM は利用者が手動で追従。
- 商用利用ライセンス:そのモデルを商用で使ってよいかの法的条件。モデルごとに異なる。
メリットだけ並べるとフェアではないので、デメリットも 5 つ正直に書きます。本章を読んでから、もう一度メリット側と見比べていただくと、「自分にとってローカル LLM が現実解か」が立体的に判断できると思います。
デメリット ① 性能差:フロンティアモデルとはまだ差がある
2026 年 5 月時点、クラウド最先端モデル(GPT-5 系列 / Claude Opus 4.6 / 4.7 / Gemini Ultra 2 等)と、ローカルで動かせる OSS LLM の最高峰(Llama 3.1 70B / Mixtral 8x22B 等)の間には、まだ性能差があります。LMSYS Chatbot Arena や Hugging Face Open LLM Leaderboard などの公開ベンチマークでも、フロンティアモデルが上位を占めています(最新ランキングは lmarena.ai と huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard で必ずご確認ください)。
ただし、これは「全ての用途で差がある」という話ではありません。特定タスク(コード補完、英文要約、定型的な文章整形など)では、Llama 3 8B クラスのローカル LLM でも実用十分な品質が出ます。「フロンティアモデルの代替」ではなく、「用途を絞った相棒」として使うのが、ローカル LLM の現実的な立ち位置です。フロンティアモデルの選び方は Claude Opus で別建てしているので、興味がある方はそちらをご覧ください。
デメリット ② ハードウェア要件:それなりのスペックが要る
ローカル LLM を動かすには、一定以上の RAM・VRAM・GPU が必要です。古いノート PC や、メモリ 8 GB クラスの環境だと、量子化モデルでも動作が厳しい場合があります。詳細は セクション 5 で扱いますが、「どんな PC でも動く」とは申し上げません。最低限のスペック要件があり、用途とモデルサイズによって、Apple Silicon Mac なら 16 GB / 32 GB / 64 GB を分けて選ぶことになります。
デメリット ③ セットアップ負担:環境構築と量子化選定の学習コスト
クラウド AI なら、ブラウザでサインアップして即座にチャット画面で使えます。ローカル LLM はそうはいきません。Ollama や LM Studio などのツールをインストールし、モデルをダウンロードし、量子化版(Q4_K_M / Q5_K_M / Q8_0 等の中から)を選び、CLI かアプリ画面で動かす——という流れになります。一度慣れれば 5 分の作業ですが、最初の 1 回は CLI 操作やファイルパスの理解で躓きやすい領域です。これから生成AIエンジニアを目指す方にとっては、この「セットアップ自体が学習機会」になるので、必ずしも全部がデメリットではないとも言えます。
デメリット ④ モデル更新:自分で追従する手間
クラウド AI は、運営側がモデルを自動更新します。利用者は何もしなくても、半年に 1 度くらいの頻度で「GPT-4 → GPT-5」「Claude 4.5 → 4.6 → 4.7」のように、内部モデルが置き換わっていきます。ローカル LLM はそうはいきません。新しい Llama 3.2 が出たら、自分で ollama pull llama3.2 を打って手動でダウンロードし、古いモデルを整理する——という運用が必要です。「常に最新を追いたい」場合、運用の手間が地味に重い——これがローカル LLM の実務上の悩みです。
デメリット ⑤ 商用利用ライセンス:モデルごとに条件が違う
これが最も注意が必要なデメリットです。OSS LLM だからといって、何でも自由に商用利用できるわけではありません。たとえば 2026 年 5 月時点の Llama 系統は Llama 3 Community License で、月間アクティブユーザー 7 億人を超える企業の場合は別途許諾が必要、という条項があります(最新条項は llama.com で必ずご確認ください)。Mistral 系統は Apache 2.0 と独自ライセンスが混在し、Gemma は Gemma Terms of Use があり、Qwen / DeepSeek もそれぞれ独自の条項を持っています。
「OSS LLM = 何でも自由」とは申し上げません。商用利用を検討する場合、(1) そのモデルのライセンス条項を必ず公式(モデル開発元)で確認、(2) 社内法務・コンプライアンス部門に相談、(3) 必要に応じて専門の弁護士の方に相談——という 3 ステップを必ず踏んでください。私自身、ローカル LLM の商用本番運用経験がないため、本セクションは公開情報からの整理レベルでの注意喚起です。
ここで重要なメタ宣言を 1 つ。「絶対ローカル LLM だけで業務が回る」とは申し上げません。2026 年 5 月時点の私の業務感覚では、業務本番運用のメインはクラウド API(Claude 使い方 / ChatGPT 始め方 / AWS Bedrock で詳述)で、ローカル LLM は機密性要件・コスト最適化・オフライン要件のある特定用途で「組み合わせる」のが現実解です。
05 — ハードウェア要件——Apple Silicon Mac / RAM / VRAM / GPU の現実
📖 この章で使う用語
- Apple Silicon:Apple が自社設計した Mac 用 CPU 系列(M1 / M2 / M3 / M4)。CPU・GPU・メモリが 1 チップに統合されている。
- 統合メモリ(Unified Memory):Apple Silicon の特徴で、CPU と GPU が同じ RAM を共有する設計。LLM 推論で VRAM ボトルネックが緩和される。
- Metal:Apple の GPU プログラミング API。Ollama などが Mac で GPU 加速するのに使う。
- VRAM(Video RAM):GPU 専用メモリ。LLM をローカルで動かすときに「載るか/載らないか」を決める要素。
- 量子化版(4-bit / 5-bit / 8-bit):モデルサイズを下げて RAM / VRAM 要件を緩める版。Q4_K_M / Q5_K_M / Q8_0 等の表記。
ここから、サジェスト 2 位「スペック」・3 位「gpu」・6 位「mac」を 1 章で吸収します。本記事の差別化軸の 1 つで、Apple Silicon Mac 中心の解説 を厚く書きます。私自身の業務 PC が MacBook Pro で、Ollama を個人検証したのも Mac M シリーズの環境だからです。Windows + NVIDIA GPU の場合は公開情報からの整理として並列に扱います。
05-1. Apple Silicon Mac の Metal アクセラレーション(M シリーズ統合メモリの強み)
Apple Silicon Mac(M1 / M2 / M3 / M4)には、ローカル LLM 用途で 2 つの大きな強みがあります。
① 統合メモリアーキテクチャ:通常のデスクトップ PC は CPU と GPU が別々のメモリ(システム RAM と VRAM)を持っており、LLM をロードするときに「VRAM に収まるか」が大きな制約になります。たとえば NVIDIA RTX 3060 の VRAM は 12 GB ですが、8 GB を超える量子化モデルはそのままでは載りません。
Apple Silicon は逆で、CPU と GPU が 同じ RAM を共有 します。たとえば 32 GB RAM の MacBook Pro なら、その 32 GB を CPU と GPU が状況に応じて分け合います。VRAM ボトルネックがなく、システム RAM の容量がそのまま LLM のロード上限になります。Llama 3 70B の量子化版(約 40 GB)を動かすのに、64 GB RAM の Mac Studio なら 1 台でロードできる、というのが大きな違いです。
② Metal アクセラレーション:Apple 独自の GPU プログラミング API「Metal」を使うことで、Ollama や llama.cpp などのツールは Mac の GPU を活用して推論を加速します。CPU だけで動かす場合と比べて、Apple Silicon Mac 上での推論速度は数倍速くなるのが標準的な体感です(公開情報からの整理)。
私の個人検証では、MacBook Pro M シリーズ + 32 GB RAM の組み合わせで、Llama 3 8B の量子化版(Q4_K_M、約 5 GB)が、応答開始まで 1-2 秒、トークン生成速度は毎秒 20-40 トークン程度——という体感でした。クラウド AI の応答速度(GPT-4 / Claude Opus で毎秒 30-60 トークン前後)と比べても、量子化版の小型モデルなら十分に「使える速度」が出ます。
05-2. メモリ推奨(16GB / 32GB / 64GB の使い分け)
Apple Silicon Mac でローカル LLM を動かす場合の、RAM 容量別の現実的な目安です。「絶対このスペックなら大丈夫」とは申し上げません——用途・モデルサイズ・並行作業の有無で振れる領域である点を、最初にお伝えしておきます。
RAM 16 GB:Llama 3 8B / Gemma 7B / Mistral 7B クラスの量子化版(Q4_K_M、約 4-5 GB)が動きます。エディタやブラウザを開きながらでも、軽い文章整形やコードの読み解きは実用速度で動かせる目安です。「ローカル LLM の感触を掴みたい」入門段階の最小構成、というのが私の個人検証の感覚です。
RAM 32 GB:13B クラスのモデル(Llama 2 13B / Mistral 7B の高精度量子化版など)が快適に動きます。70B クラスは量子化を強くかける(Q4_K_M / Q3_K_M)と動かせる場合がありますが、応答速度は落ちます。文章生成・コード生成・社内 RAG の検証など、複数用途で個人検証するなら 32 GB がバランスのいい目安、というのが私の体感です。
RAM 64 GB 以上:Llama 3.1 70B / Mixtral 8x22B クラスの大型モデルの量子化版が動きます。Mac Studio や MacBook Pro の上位構成が必要で、価格も跳ね上がります。本格的にローカル LLM をメインで使い込みたい場合、または社内 PoC を進めたい場合の選択肢です。私自身、個人検証では 32 GB クラスの環境までしか使い込んでいません——70B クラスの本格運用は公開情報からの整理レベルでの紹介です。
05-3. Windows + NVIDIA GPU の場合(公開情報からの整理)
Windows + NVIDIA GPU 環境でのローカル LLM 運用は、私自身の業務 PC が Mac のため、本セクションは 公開情報からの整理 で扱います。公式 NVIDIA ドキュメントや Ollama / LM Studio の公式情報をもとに整理します。
NVIDIA GPU の VRAM 容量が、動かせるモデルサイズを直接決めます。一般的な目安(2026 年 5 月時点の公開情報):
- VRAM 8 GB(RTX 3060 等):7B クラスの量子化版が動く下限ライン
- VRAM 12 GB(RTX 3060 12GB / RTX 4070 等):7-13B クラスの量子化版が快適
- VRAM 24 GB(RTX 3090 / RTX 4090 等):13-30B クラスや、70B クラスの強い量子化版
Apple Silicon Mac の統合メモリと違い、Windows + NVIDIA GPU の場合は VRAM が明確なボトルネックになります。VRAM を超えるモデルは CPU 側のシステム RAM にオフロードする運用になり、速度が大きく落ちる傾向があります。最新の機種別ベンチマークは Ollama 公式や Hugging Face Discussions などで必ずご確認ください。
05-4. 量子化(4-bit / 5-bit / 8-bit)でモデルサイズを下げる
最後に、ローカル LLM を「自分の PC で動かせるサイズ」に落とすための 量子化 の整理です。
LLM のモデル重みは、本来 16-bit や 32-bit の浮動小数点数で記録されています。これを 8-bit / 5-bit / 4-bit のような低精度に圧縮するのが量子化です。Llama 3 8B の元データ(16-bit)は約 16 GB ですが、4-bit 量子化版(Q4_K_M)にすると約 4.7 GB まで圧縮されます。RAM / VRAM 要件が約 1/4 になる代わりに、応答品質が少しずつ劣化していく——というトレードオフです。
代表的な量子化レベルの目安(2026 年 5 月時点の Ollama / llama.cpp の公開情報からの整理):
- Q4_K_M(4-bit、medium):サイズ最小、品質は実用ライン。入門段階の標準
- Q5_K_M(5-bit、medium):Q4 より少し大きい、品質はやや向上
- Q8_0(8-bit):元データに近い品質、サイズは Q4 の約 2 倍
私の個人検証では、まず Q4_K_M で動かしてみて、応答品質に不満を感じたら Q5 / Q8 に上げる、という運用が現実的でした。「絶対この量子化レベルがいい」とは申し上げません——用途と PC スペックで振れる領域です。
06 — 主要モデル一覧——Llama / Mistral / Gemma / Qwen / DeepSeek / Phi の俯瞰
📖 この章で使う用語
- Llama(ラマ):Meta(旧 Facebook)が公開している OSS LLM の代表。
- Mistral(ミストラル):フランスの AI 企業 Mistral AI が公開している OSS LLM。
- Gemma(ジェマ):Google が公開している OSS LLM。Gemini 系の研究を OSS 化した位置づけ。
- Qwen(クウェン):Alibaba が公開している OSS LLM。多言語対応に強み。
- DeepSeek(ディープシーク):DeepSeek 社が公開している OSS LLM。コード特化版(DeepSeek Coder)も人気。
- Phi(ファイ):Microsoft が公開している小規模・高効率 OSS LLM。
- パラメータ規模:LLM が覚えている「言葉と言葉の関係の数値」の総数。7B(70 億)/ 13B / 70B のように表記。
サジェスト 1 位「おすすめ」・5 位「モデル」を 1 章で吸収します。6 系統のモデルファミリーの俯瞰 を整理します。本章の前提として、私の経験範囲を最初に正直にお伝えしておきます。
(a) 個人検証で触った範囲:Llama 3 8B / Code Llama / DeepSeek Coder を Ollama 経由で個人検証 (b) 概念・選定の整理レベル:Mistral / Gemma / Qwen / Phi は、公式ドキュメントとベンチマーク情報を元に整理レベル (c) 業務本番運用:いずれも業務本番運用には乗せておらず、本記事は個人検証 + 公開情報の整理として書きます
迷ったときの一行マップを先にお伝えします。「迷ったらまず Llama 3 8B か Gemma 7B」——これが、ローカル LLM の入り口として、私が個人検証視点でおすすめする選び方です。両方とも量子化版で 16 GB RAM の Mac で動き、日本語にもある程度対応します。
06-1. Meta Llama 系(Llama 3 / Llama 3.1 / Code Llama)
Meta(Facebook の親会社)が公開している OSS LLM の代表格です。2026 年 5 月時点の公開情報では、Llama 3 / Llama 3.1 / Llama 3.2 系列があり、パラメータ規模は 8B / 70B / 405B のレンジでリリースされています。
- Llama 3 / 3.1 8B:ローカル LLM の標準モデル。量子化版で 5 GB 前後、16 GB RAM の Mac で動く
- Llama 3.1 70B:高品質、64 GB RAM 推奨。量子化を強くかければ 32 GB でも動かせる
- Code Llama:コード特化版、AI コードレビュー のセクション 7 で詳述
商用利用ライセンスは Llama 3 Community License で、月間アクティブユーザー 7 億人を超える企業は別途許諾が必要、という条項があります(2026 年 5 月時点、最新条項は llama.com で必ずご確認ください)。中小規模の用途では実質的に自由に商用利用できる、というのが公開情報からの整理です。
06-2. Mistral 系(Mistral 7B / Mixtral 8x7B / Mixtral 8x22B)
フランスの AI 企業 Mistral AI が公開している OSS LLM。英語性能の高さとライセンスの寛容さ で人気があります。
- Mistral 7B:7B クラスの代表的選択肢、Apache 2.0 ライセンス、商用利用も比較的自由
- Mixtral 8x7B / 8x22B:Mixture of Experts(MoE)アーキテクチャで、実効パラメータが大きい
- 一部の最新モデルは Mistral 独自ライセンスに移行している部分もあり、商用利用前に必ず公式(mistral.ai)でご確認ください
私自身、Mistral 系統は公式ドキュメントとベンチマーク情報を元にした選定整理レベルでの紹介です。手元で長時間動かし込んだ範囲ではない点を、お伝えしておきます。
06-3. Google Gemma 系(Gemma / Gemma 2 / CodeGemma)
Google が公開している OSS LLM。Gemini 系の研究を OSS 化した位置づけで、2B / 7B / 9B / 27B クラスのモデルがリリースされています。
- Gemma 7B / Gemma 2 9B:7-9B クラスの選択肢、Apple Silicon Mac 16 GB で動く
- CodeGemma:コード特化版
- ライセンスは Gemma Terms of Use(Apache 2.0 とは異なる Google 独自条項)。商用利用前に必ず公式(ai.google.dev/gemma)でご確認ください
私の個人検証では、Llama 3 8B と Gemma 7B を並行して触った範囲で、日本語応答の品質には個体差があり、用途で使い分けるのが現実的、という感覚でした。
06-4. Qwen / DeepSeek / Phi 系(多言語・コード特化・小規模高効率)
最後に 3 系統まとめて整理します。
- Qwen(Alibaba):中国語・日本語など多言語に強い OSS LLM。Qwen 2.5 系列は 0.5B / 1.5B / 7B / 14B / 32B / 72B クラスがあり、ライセンス条件はモデルサイズで異なります(公式 qwen.io で必ずご確認ください)。日本語性能の評判が公開情報で言及されることも多い系統です
- DeepSeek(DeepSeek 社):コード特化版 DeepSeek Coder が人気。AI コードレビュー のセクション 7 で詳述しています
- Phi(Microsoft):Phi-3 / Phi-3.5 系列は、小型サイズ(3.8B / 7B / 14B)でも高品質を狙う設計。学術用途やエッジデバイスでの利用が想定された系統です
これらは私自身、公開情報からの整理レベルでの紹介になります。手元で長時間動かし込んだ範囲は、Llama 3 / Code Llama / DeepSeek Coder の 3 系統に絞られる点を、お伝えしておきます。
2026 年 5 月時点の業界動向としては、フロンティアモデル(GPT / Claude / Gemini)と OSS LLM の性能差は縮まり続けている、という整理が公開情報の主流です(LMSYS Chatbot Arena のリーダーボードを継続的に観察した感触)。とはいえ汎用的な業務本番運用としては、まだクラウド API が現実解、というのが 2026 年 5 月時点の私の業務感覚です。
07 — 日本語対応モデル——Llama-3-ELYZA-JP / Swallow / Qwen / Gemma の整理
📖 この章で使う用語
- 継続学習(Continual Pretraining):既存の英語ベース LLM に日本語データを追加学習させる手法。
- Llama-3-ELYZA-JP:ELYZA 社が Llama 3 をベースに日本語追加学習させた OSS LLM。
- Swallow:東京工業大学等が継続学習で日本語化した OSS LLM 系列。
サジェスト 4 位「日本語」を独立 H2 で深掘りします。SERP(検索結果)上位の記事は英語モデル一色になりがちで、日本語対応モデルの整理は手薄な領域です。本記事の差別化軸の 1 つとして、独立 H2 で整理します。
ただし重要な前置きを 1 つ。本章は公開情報からの整理レベル で書きます。私自身、日本語業務処理のメインは Claude / ChatGPT / Gemini の API(クラウド側)で、ローカルの日本語特化モデルの個人検証も限定的です。「絶対この日本語モデルが一番」とは申し上げません——用途と最新リリースで揺れる領域で、Hugging Face で必ず最新状況を確認していただくのが現実的です。
07-1. Llama-3-ELYZA-JP:日本企業発の日本語追加学習モデル
ELYZA 社(日本企業)が Llama 3 をベースに日本語データで継続学習させた OSS LLM です。Llama-3-ELYZA-JP-8B などのモデルが Hugging Face で公開されており、日本語タスクでの評価が公開情報で言及されることが多い系統です(最新リリースは huggingface.co/elyza で必ずご確認ください)。
商用利用は Llama 3 のライセンス条項を継承するため、Meta の Community License に従う必要があります。ELYZA 社独自の追加条項がある可能性もあるため、公式の利用条件を必ずご確認ください。
07-2. Swallow:日本の大学発の継続学習モデル
東京工業大学(現・東京科学大学)と国立情報学研究所(NII)等の共同研究で開発された日本語特化 OSS LLM 系列です。Llama や Mistral などのベースモデルに日本語データで継続学習させたモデル群(Swallow / Swallow-MS など)が公開されています。
学術機関発のため、研究目的・教育目的での利用は比較的自由ですが、商用利用にはベースモデルのライセンス条項(Llama Community License や Apache 2.0 など)が適用されます。最新条件は huggingface.co/tokyotech-llm で必ずご確認ください。
07-3. Qwen:多言語対応で日本語性能も高評価(公開情報)
Alibaba が公開する Qwen 系列は、中国語をベースに多言語対応を強みとしており、日本語タスクの性能も公開情報で高く評価されることがあります(最新ベンチマークは公式 qwen.io と LMSYS Chatbot Arena で必ずご確認ください)。Qwen 2.5 系列は 0.5B から 72B まで幅広いサイズ展開があり、用途に応じて選びやすい系統です。
ライセンス条件はモデルサイズと用途で異なる点に注意が必要です。商用利用前に必ず公式でご確認ください。
07-4. Gemma:Google 製の日本語対応 OSS LLM
Google の Gemma 系列も、Gemini で培われた多言語データを反映しており、日本語応答の品質は公開情報で評価される系統の 1 つです。Gemma 2 9B は Apple Silicon Mac 16 GB の量子化版で実用速度が出る目安、というのが Ollama 公式の公開情報からの整理です。
07-5. 日本語モデルの選び方ガイド(公開情報からの整理)
最後に、日本語対応ローカル LLM を選ぶ際の整理軸を 3 つお伝えします。
- 業務用途の機密性:機密情報を含む日本語処理なら、社内ネットワーク内で完結するローカル日本語モデルが選択肢
- パラメータ規模と PC スペック:MacBook Pro 16 GB なら 7-9B クラス、32 GB なら 13B クラス、64 GB なら 70B クラス(量子化前提)
- ライセンス条項:商用利用前に必ず公式とライセンス全文をご確認ください
重要なメタ宣言:本章は公開情報からの整理レベルでの紹介です。私自身、業務日本語処理のメインは Claude / ChatGPT / Gemini の API(クラウド側)で、ローカルの日本語特化モデルは個人検証も限定的なため、「絶対 ELYZA が一番」「絶対 Swallow が安心」とは申し上げません。最新のリリース動向は huggingface.co の各組織アカウントで継続的にご確認いただくのが現実的です。
08 — 構築ツール 4 種——Ollama / LM Studio / llama.cpp / GPT4All の俯瞰
📖 この章で使う用語
- Ollama(オラマ):手元 PC で OSS LLM を動かす最も簡単なツール。CLI ベース。
- LM Studio:GUI(画面操作)で LLM を動かせるアプリ。初心者向け。
- llama.cpp:C++ で書かれた最も低レイヤーの推論エンジン。量子化の自由度が高い。
- GPT4All:GUI ベースの LLM 実行ツール。複数モデル管理機能あり。
- CLI(Command Line Interface):パソコンに文字でコマンドを打って指示を出す画面。営業時代の私は「真っ黒な怖い画面」だと思っていました。
サジェスト 8 位「構築」を吸収する章です。ローカル LLM を動かすツールを 4 種類俯瞰します。「迷ったらまず Ollama」——これが、入門段階のいちばん現実的な一行マップです。
08-1. Ollama:CLI ベース、最も簡単(個人検証で常用)
私の個人検証で実際に使ったのが Ollama です。brew install ollama の 1 行でインストールでき、ollama pull llama3 / ollama run llama3 の 2 行でモデルを動かせます。CLI ベースで「真っ黒な画面」に文字を打つ運用ですが、慣れれば最速です。
AI コードレビュー のセクション 7 でも、Ollama + Code Llama / DeepSeek Coder の組み合わせが扱われています。本記事は Llama 3 / Gemma 中心、AI コードレビュー側は Code Llama / DeepSeek Coder 中心で内容を分担しています。
Ollama の強みは、(1) インストールが 1 行、(2) モデル管理が ollama pull で完結、(3) REST API がデフォルトで立つ(ポート 11434)、(4) Python / JavaScript のクライアントライブラリが充実、の 4 点です。これから生成AIエンジニアを目指す方が最初に触るローカル LLM ツールとしては、いちばん遠回りが少ない選択肢、というのが私の個人検証視点での感覚です。
08-2. LM Studio:GUI ベース、初心者向け
LM Studio は、ブラウザのような GUI(画面操作)で LLM を動かせるアプリです。Hugging Face にあるモデルを画面から検索・ダウンロードでき、チャット画面も内蔵されています。「CLI に抵抗がある」「画面操作で完結させたい」方向けの選択肢です。
私自身は LM Studio を個人検証で使い込んだ範囲ではない点をお伝えしておきます。本章は LM Studio 公式(lmstudio.ai)の公開情報からの整理レベルです。
08-3. llama.cpp:最も低レイヤー、量子化の自由度が高い
llama.cpp は、Ollama や LM Studio の 裏側で動いている推論エンジン です。C++ で書かれており、量子化のオプションや実行時の調整パラメータの自由度が、ツールの中でいちばん広い選択肢です。
ただし、CLI 操作の習熟度がそれなりに必要で、入門段階の方が最初に触るには学習コストが高めです。Ollama や LM Studio に慣れた後、「量子化を自分で細かく調整したい」「ベンチマークを取りたい」段階で llama.cpp に降りていく、という順序が一般的、というのが公開情報からの整理です。
08-4. GPT4All:GUI ベース、複数モデル管理
GPT4All は、複数モデルを 1 つのアプリ内で管理できる GUI ツールです。LM Studio に近い操作感で、初心者向けの選択肢の 1 つです。本章は GPT4All 公式(gpt4all.io)の公開情報からの整理レベルでの紹介です。
08-5. 結論:迷ったらまず Ollama、慣れたら LM Studio や llama.cpp に幅を広げる
4 ツールの俯瞰として、入門段階の方には Ollama を、画面操作派には LM Studio を、自由度を求める段階には llama.cpp を——というのが、公開情報からの整理を踏まえた現実的な順序です。「絶対これが一番」とは申し上げません——慣れと用途で振れる領域です。
09 — 5 分で動かす——Ollama + Llama 3 / Gemma の最小セットアップ(Mac M シリーズ前提)
📖 この章で使う用語
- Homebrew(ホームブリュー):macOS でコマンドラインアプリを管理するパッケージマネージャ。
brew installで 1 行インストール。- REST API:プログラムから他プログラムを呼び出すための標準的なインターネット越しの仕組み。Ollama はデフォルトで
http://localhost:11434に立つ。- localhost(ローカルホスト):自分の PC 自身を指すアドレス。インターネットに出ずに、PC 内部で完結する通信。
ここから、Mac M シリーズで Ollama + Llama 3 / Gemma を 5 分で動かす最小手順 を 5 ステップで整理します。本セクションは「業務本番運用の推奨」ではなく、ローカル LLM の感触を掴むための最小動線 という位置づけです。私の個人検証で実際に動かしている手順をベースに書きます。
09-1. ステップ ①:Homebrew で Ollama をインストール
Mac で Homebrew が既に入っている前提で、次の 1 行でインストールします。
# Mac M シリーズ前提(Apple Silicon)
brew install ollama
Homebrew が入っていない場合は、まず https://brew.sh の指示に従って Homebrew を導入してください。Apple Silicon Mac なら標準で対応しています。
09-2. ステップ ②:Ollama サーバーを起動
インストールが終わったら、Ollama サーバーを起動します。
# Ollama サーバーを起動(バックグラウンドで動き続ける)
ollama serve
別のターミナルウィンドウを開いて、次のステップに進んでください。サーバーは http://localhost:11434 で待ち受けます。サーバーを起動しなくても ollama run コマンドで自動的に立ち上がる場合もあります(OS とバージョンに依存)。
09-3. ステップ ③:Llama 3 / Gemma をダウンロード
サジェストされた 2 つのモデルから、お好きな方をダウンロードします。
# Llama 3 8B(量子化版、約 5 GB)をダウンロード
ollama pull llama3
# Gemma 7B(量子化版、約 5 GB)をダウンロード
ollama pull gemma:7b
ダウンロードには、回線速度に応じて 5-15 分程度かかります。一度落とせば、以降は手元のディスクから即時起動します。
09-4. ステップ ④:CLI でチャット
ダウンロードが完了したら、CLI から対話できます。
# Llama 3 とチャット(対話モード)
ollama run llama3
# Gemma とチャット
ollama run gemma:7b
>>> プロンプトが出たら、自由に質問を打ち込んでください。終了するには /bye か Ctrl+D で抜けます。
09-5. ステップ ⑤:Python から REST API で呼び出し
最後に、Python プログラムから Ollama を呼び出す最小コードです。Ollama は REST API(HTTP)で動くため、Python の標準ライブラリでも叩けますし、ollama という Python ライブラリも公式に提供されています。
# Ollama 公式 Python ライブラリでの最小呼び出し
# pip install ollama でインストール
import ollama
response = ollama.chat(
model='llama3',
messages=[
{'role': 'user', 'content': 'ローカル LLM のメリットを 3 つ教えてください'}
]
)
print(response['message']['content'])
これで、Python プログラムからローカル LLM を呼び出せるようになります。RAG / エージェント / 業務スクリプトに組み込む土台ができた状態です。
重要なメタ宣言:本セクションの手順は、ローカル LLM の感触を掴むための最小動線です。業務本番運用の推奨手順ではありません。業務本番運用に進む場合は、(1) モデルライセンスの再確認、(2) 社内コンプライアンス部門との合意、(3) 性能・可用性・運用負担の事前検証、の 3 ステップが必須です——というのが、私の業務感覚で正直にお伝えできる範囲です。
10 — 用途別おすすめ——コード生成 / 文章作成 / RAG / エージェント / 小説の 5 用途
📖 この章で使う用語
- RAG(Retrieval-Augmented Generation:検索拡張生成):LLM の応答に「外部ドキュメント検索結果」を組み合わせる手法。詳しくは RAG とは で扱っています。
- ベクトル DB:意味が近いものを素早く取れる DB。FAISS / Chroma / Weaviate が代表例。
- AIエージェント:自分で計画を立てて、ツールを使い分けながらタスクをこなす AI。詳しくは AIエージェント 作り方 で扱っています。
ここから、ローカル LLM の 5 つの代表用途を整理します。本章は 個人検証 + 公開情報からの整理 の温度感で書きます。「絶対この用途ならこのモデル」とは申し上げません——個人差・モデル更新サイクル・PC スペックで振れる領域です。
10-1. コード生成・レビュー → Code Llama / DeepSeek Coder
ローカル LLM の代表用途の 1 つが、コード生成とコードレビューです。Code Llama(Meta)と DeepSeek Coder(DeepSeek 社)は、コードに特化して学習された OSS LLM で、Apple Silicon Mac 16 GB 環境でも量子化版が動きます。
詳しくは AI コードレビュー のセクション 7 「ローカル LLM でのコードレビュー」で別建てしているので、本記事では概観のみに留めます。社内コードを外部に出せない環境で、AI コードレビューを試したい場合の有力な選択肢です。AI コーディングの全体像は AI コーディング でも俯瞰しています。
10-2. 文章作成・要約・校正 → Llama 3 / Gemma / Qwen
汎用的な文章作成・要約用途では、Llama 3 8B / Gemma 7B / Qwen 2.5 7B のいずれかから入るのが、入門段階の現実的な選び方です。私の個人検証では、英語文章は Llama 3、日本語文章は Gemma または ELYZA-JP——という使い分けが体感的に落ち着く感覚でした(あくまで私の個人検証範囲での印象であり、絶対的な評価ではありません)。
なかでも 文章校正 は、ローカル LLM の利点が出やすい用途です。誤字脱字チェック・冗長表現の言い換え・トーン調整といった校正作業は、社外に出せない契約書ドラフト・人事文書・顧客メールなど機密性の高い文章を、クラウドに貼らずに手元で回せます。日本語校正なら ELYZA-JP / Gemma、英語混じりなら Llama 3、という入り方が私の個人検証では落ち着きました。ただし「絶対クラウド AI 並みに校正できる」とは申し上げません——込み入った文脈理解や長文の一貫性チェックではクラウド API に分があるため、機密文書の一次校正はローカル、最終仕上げは用途に応じてという使い分けが現実的です。
クラウド AI(Claude 使い方 / ChatGPT 始め方 で詳述)と比べると、汎用文章作成では応答品質の差がまだあるため、「クラウド AI の代替」ではなく「機密情報を含む下書きの整形・校正」用途で使うのが、私の業務感覚に近い整理です。
10-3. RAG(社内検索)→ Llama 3 + FAISS / Chroma
社内ドキュメント検索を AI 化する RAG では、ローカル LLM + ベクトル DB の組み合わせが、機密情報を外に出さずに動かせる構成として注目されています。詳しい RAG の概念は RAG とは で別建てしているので、本記事では構成例の俯瞰のみです。
私自身の業務 RAG はクラウド API(Anthropic / OpenAI / Google)+ ベクトル DB(FAISS / Chroma / Weaviate)が主軸で、ローカル LLM の RAG は個人検証レベルです。「業務本番運用に乗せる場合」は、推論速度・モデル品質・運用負担の 3 つの壁を事前検証してから判断してください——というのが、私の業務感覚での正直なお伝えです。
10-4. AIエージェント → ローカル LLM + LangChain(個人検証レベル)
ローカル LLM を AIエージェントの推論エンジンとして使う選択肢もあります。LangChain / LangGraph などのフレームワーク経由で、ローカル LLM をプラグインできます。
詳しいエージェント構築は AIエージェント 作り方 で別建てしており、ローカル LLM ルートは「個人検証レベル」として扱われています。私の業務エージェントは Claude / ChatGPT / Gemini の API が主軸で、ローカル LLM エージェントは個人検証範囲の知見に留まる点を、お伝えしておきます。
10-5. 小説・創作系 → 詳しくは次セクションで深掘り
最後に小説・創作系用途です。本記事の差別化軸の 1 つで、SERP 上位の記事はほぼ触れない論点です。詳しくは セクション 11 で独立 H2 として深掘りします。
11 — 小説・創作系のユースケース——クラウド AI が拒否しがちな表現でも、ローカルなら自由度高い(個人検証なし、公開情報からの整理)
📖 この章で使う用語
- コンテンツモデレーション(content moderation):AI 出力が不適切な内容を含まないかチェックする機能。クラウド AI に内蔵。
- 拒否回答(Refusal):AI が「お答えできません」と返す挙動。クラウド AI の安全装置の 1 つ。
サジェスト 7 位「小説」を扱う章です。SERP(検索結果)上位の記事はほぼ触れない領域で、本記事の差別化軸の 1 つです。ただし、最初に重要な前置きをします。
本章は公開情報からの整理レベルで書きます。私自身、小説生成での個人検証経験がありません。ローカル LLM の個人検証は主に文章整形・コード読み解き・要約用途で、創作系(小説・キャラクター対話・暴力描写を含む文学表現など)の生成は試していません。本セクションは Hugging Face や Reddit r/LocalLLaMA などの公開情報を整理した内容です。
11-1. なぜローカル LLM が小説生成で言及されるのか
クラウド AI(ChatGPT / Claude / Gemini)は、コンテンツモデレーションが組み込まれており、暴力描写・性表現・差別表現を含む小説的な文章を生成しようとすると、拒否回答(「お答えできません」)が返ることが知られています。これは、運営会社が利用規約とプラットフォーム責任の観点で安全装置を組み込んでいるためで、各社の方針として理解できる設計です(最新のポリシーは各公式でご確認ください)。
一方、ローカル LLM はモデルが自分の手元にあるため、コンテンツモデレーションを自分の責任で外せる場合があります(モデルライセンスと配布元の利用条件が許す範囲で)。文学的表現の自由度を保ちたい創作者・小説家・脚本家の方々の間で、ローカル LLM が選択肢として言及される、というのが公開情報からの整理です。
11-2. 日本語小説生成で言及される系統(公開情報)
公開情報で日本語小説生成の文脈で言及されることがあるモデル系統としては、日本語特化モデル(Llama-3-ELYZA-JP / Swallow など)がよく挙げられます。日本語の語彙・文体・物語構造への適応度が、英語ベースのモデルよりも自然になりやすい、というのが公開情報の主流の整理です。
ただし、私自身の個人検証経験がないため、本セクションは「こういう議論が公開情報で観測される」という整理に留まります。具体的なモデル評価や、創作系での品質比較は、Hugging Face の各モデルカードや、創作者コミュニティ(pixiv 関連のディスカッション、X / Twitter での創作系発信、各種同人ブログなど)で、最新の動向をご確認いただくのが現実的です。
11-3. 小説生成で必ず守るべき 3 つの留意点
小説生成でローカル LLM を使う場合、絶対に外せない 3 つの留意点があります。
留意点 ①:出力内容の責任は完全に利用者にある
クラウド AI なら、運営会社が出力内容にある程度のフィルタリングを設けていますが、ローカル LLM ではそれを利用者の側で外している場合があります。生成された文章を公開・配布・販売する場合、その内容に対する法的・道義的責任は完全に利用者にある——これが、ローカル LLM での小説生成で最も重い前提です。
留意点 ②:著作権・公序良俗・プラットフォーム規約への配慮
生成された小説を公開する先(pixiv / 小説投稿サイト / Kindle ダイレクト・パブリッシング / Note 等)には、それぞれ独自の利用規約があります。実在人物のモデル化、既存作品の二次創作、暴力・性的表現の取り扱いについて、各プラットフォームの規約に従う必要があります。公序良俗に反する内容は、ローカルで生成できたとしても、社会的責任が問われる可能性があります。
留意点 ③:モデルライセンス(商用利用条項)
生成された小説を商用販売する場合、ベースとなったローカル LLM のライセンス条項に従う必要があります。Llama 系・Mistral 系・Gemma 系それぞれで条項が異なり、生成物の権利関係も含めて確認が必要です。
11-4. 「絶対安全に小説生成ができる」とは申し上げません
最後に、明確にお伝えしておきます。「絶対安全に小説生成ができる」「絶対自由に何でも書ける」とは申し上げません。法的責任は完全に利用者の側にあり、最終判断は法務・弁護士の方へご相談ください。本記事は公開情報からの整理レベルでの紹介に留まり、特定の用途・特定のモデル・特定の生成内容を推奨するものではありません。
12 — 誰がローカル LLM を入れる価値があるか——判断基準は「外に出せないデータを持っているか」
📖 この章で使う用語
- ターミナル:パソコンに文字でコマンドを打って指示を出す画面。営業時代の私は「真っ黒な怖い画面」だと思っていました。
ここまで読んで「で、自分は入れるべきなのか?」が気になっている方へ。職種を 5 つ並べる前に、判断基準を 1 つだけお伝えします。ローカル LLM が効くかどうかは、職種ではなく「外に出せないデータを日常的に触っているか」と「学習目的で中身を知りたいか」の 2 点でほぼ決まります。
12-1. 私が実際にローカル LLM を入れた理由(学習目的=いちばんの一次体験)
私自身がローカル LLM を入れた一番の理由は、業務効率化ではなく 学習目的 でした。業務ではクラウド API(Anthropic / OpenAI / Google)を毎日叩いていますが、API 越しだと「モデルが何 GB で、量子化で何 GB に縮んで、推論に何秒かかって、RAM をどれだけ食うか」が一切見えません。MacBook Pro で Ollama を入れて Llama 3 8B を動かしてみて初めて、自分が毎日 API で呼んでいる相手の物理的な重さが手元で見えるようになりました。
営業時代、商品を売る前に必ず実機を触る癖がありました。スペック表だけでは伝わらない「重さ」「立ち上がりの速さ」を確認しないと、お客様への提案に説得力が出ない感覚です。生成AIエンジニアになった今も同じで、ローカルで 1 度動かしておくと、クラウド AI を使うときに中で何が起きているかが立体的に分かります。これから生成AIエンジニアを目指す未経験の方には、この「中身が見える」体験をいちばん強くおすすめします。未経験からの転職は 未経験エンジニア 転職 も併せてどうぞ。
12-2. 「外に出せないデータ」を日常的に触る実務の方
もう 1 つの軸が機密性です。顧客リスト・人事評価・契約書ドラフト・社内コードなど、社内規定やフリーランス契約で「外部 AI への入力が禁止されている」データ を日常的に触る方は、ローカル LLM の最大の受益者です。入力も出力もすべて自分の PC で完結し、インターネットには 1 バイトも流れないので、「外に出してはいけないデータ」の AI 処理が初めて成立します。
具体的には、営業職の受注メモ整形、事務職の個人情報を含む議事録整形、個人事業主の取引先メモ整理、副業ライターの編集部に渡す前の原稿下書き——いずれも「外部 AI 禁止」の壁にぶつかりやすい場面です。ただし、これらは私自身がローカル LLM で本番運用した領域ではなく、「外に出せないデータを持つ人ならこの構成が効く」という判断基準の当てはめです(私の一次体験は学習目的とコード読み解き・文章整形の個人検証範囲)。共通する最初の壁は、(1) Mac の RAM 容量(16 GB 以上)、(2) ターミナルでの最初のコマンド入力、(3) 社内 IT 部門との合意——の 3 点です。
12-3. オフライン要件のある方と、逆に「入れなくていい」方
飛行機内・出張先の不安定な WiFi・社内 VPN の縛りで外部サービスが使えない環境も、ローカル LLM の出番です。私自身、機内モードの MacBook Pro で Ollama + Llama 3 を動かし、簡単な文章整形やコードの読み解きをさせた経験があります。「ネットがない時間に AI を使いたい」というニッチですが確実なニーズに、ローカル LLM は応えてくれます。
逆に、外に出して問題ないデータしか触らず、常時ネットがあり、学習目的もない方 は、無理にローカルを入れる必要はありません。クラウド API(Claude 使い方 / ChatGPT 始め方)に集中したほうが、性能も運用負担も有利です。「全員が入れるべき」とは申し上げません——自分が上の 3 つのどれかに当てはまるかで判断していただくのが現実的です。
13 — 失敗パターン 5 個——個人検証で見つかった落とし穴
📖 この章で使う用語
- 量子化ロス(Quantization Loss):量子化により精度が下がる現象。
最後に、私の個人検証で見つかった失敗パターンと、公開情報で言及される落とし穴を 5 個整理します。これからローカル LLM を触る方が、同じ穴に落ちないための事前共有です。
失敗 ①:クラウド API と同じ精度を期待してしまう
これがいちばん多い落とし穴です。GPT-5 や Claude Opus と同じ感覚で Llama 3 8B に複雑な依頼をすると、応答品質に大きな差を感じます。ローカル LLM は「フロンティアモデルの代替」ではなく「用途を絞った相棒」 として捉え、簡単な整形・要約・コードの読み解きから始めるのが現実的です。AI コードレビュー のセクション 7 でも、同様の整理を共有しています。
失敗 ②:量子化選定の誤り(精度劣化と RAM 不足の両方を避ける)
量子化版の選び方を誤ると、(a) 4-bit で精度が落ちすぎて使い物にならない、または (b) 8-bit で RAM 不足になって OS が固まる——のどちらかに陥ります。私の個人検証の感覚では、まず Q4_K_M から触ってみて、応答品質に不満を感じたら Q5_K_M や Q8_0 に上げる、という順序が現実的でした。「絶対この量子化レベル」とは申し上げません——用途と PC スペックで振れる領域です。
失敗 ③:モデルライセンス未確認で商用利用
OSS LLM のライセンス条項を確認せずに商用利用を始めて、後から問題が発覚するケースです。Llama / Mistral / Gemma / Qwen / DeepSeek / Phi のいずれも、ライセンス条項がモデルごとに異なります。商用利用前に必ず公式ドキュメントを確認し、社内法務・コンプライアンス部門に相談してください。私自身、業務本番運用に乗せた経験がないため、本項は公開情報からの整理レベルでの注意喚起です。
失敗 ④:日本語性能を英語モデルでそのまま期待する
Llama 3 8B(英語ベース)に日本語応答を期待すると、文法の乱れや不自然な表現が目立つことがあります。日本語処理が主体なら、Llama-3-ELYZA-JP / Swallow / Qwen / Gemma など、日本語学習に重きを置いた系統 を選ぶのが現実的です。これは公開情報からの整理レベルでの紹介で、最新リリースと評判は Hugging Face で必ずご確認ください。
失敗 ⑤:業務本番運用に飛びついてしまう
「ローカル LLM が動いたから、明日から業務本番運用に乗せよう」と早回ししてしまうケースです。私の業務感覚では、個人検証 → 部分業務(PoC)→ 業務本番運用、の 3 段階を経るのが現実的 です。性能・運用負担・モデル更新・ライセンスの 4 つの壁を事前検証せずに本番運用に飛びつくと、後から大きく修正することになる可能性があります。業務本番運用への移行判断は、セクション 14 で別建てします。
「絶対これを守れば失敗しない」とは申し上げません——個人差・モデル更新・チーム規模で振れる領域です。
14 — 業務常用に踏み出すときの注意——コスト / 性能 / 運用負担 → API への送り
📖 この章で使う用語
- PoC(Proof of Concept:概念実証):本番導入前の小規模試行。「実証実験」のニュアンス。
- エンタープライズ(enterprise):大企業・組織向け。IAM 連携 / VPC 内通信 / 監査ログなどの要件を含む。
最後に、ローカル LLM を業務常用に乗せようと検討している方向けに、3 つの壁と、現実的な使い分けの提案を整理します。
14-1. 業務本番運用の 3 つの壁
壁 ①:性能の壁:フロンティアモデル(GPT-5 / Claude Opus 4.6 / 4.7 / Gemini Ultra 2 等)と、ローカル OSS LLM の最高峰の間には、まだ性能差があります(セクション 4 参照)。特定タスクで実用十分でも、汎用業務本番運用としてはクラウド API が現実解、というのが 2026 年 5 月時点の私の業務感覚です。
壁 ②:運用負担:モデル更新・GPU メンテナンス・スケーリングを自社で運用する負担は、想像以上に重い領域です。クラウド AI なら運営会社が自動更新しますが、ローカル LLM は社内で運用人員を抱える必要があります。中小規模組織でこの運用負担を捻出するのは、現実的には難しいケースが多い、というのが公開情報からの整理です。
壁 ③:モデルライセンスとコンプライアンス:商用利用条件はモデルごとに異なり、社内法務・コンプライアンス部門との合意形成が必要です。特にエンタープライズ要件(IAM 連携 / VPC 内通信 / 監査ログ / SOC 2 / ISO 27001 等)が絡むと、自前運用のコストが急上昇します。
14-2. 現実的な使い分けの提案
私の業務感覚で、現実的に落ち着く使い分けをお伝えします。「絶対これが正解」とは申し上げません——あくまで 1 つの判断軸として参考にしていただければと思います。
業務本番運用のメイン:クラウド API が現実解
- Claude 使い方:Anthropic 直 API を業務本番で運用
- ChatGPT 始め方:OpenAI API も並行運用
- AWS Bedrock:エンタープライズ要件(IAM / VPC / 監査ログ)があるとき
- Claude Opus:深掘り推論や 1M context が必要なとき
- Claude Opus と Sonnet の違い:3 モデルの使い分け俯瞰
特定用途でローカル LLM を組み合わせる:
- 機密情報を外に出せない処理(社内コード整形、顧客リスト整形、人事評価下書き等)
- オフライン環境(飛行機内、出張先、社内 VPN 縛り)
- コスト最適化(大量バッチ処理のうち、機密性低いものをローカルに逃がす)
- 個人検証・学習目的(生成AIエンジニアを目指す方の理解深化)
14-3. 最終判断は社内情シス・法務・コンプラ部門へ
ローカル LLM の業務本番運用、または部分業務利用を始める前に、必ず社内の情シス部門・法務部門・コンプライアンス部門に相談してください。モデルライセンス・データ取り扱い・運用責任の整理は、本記事 1 本では網羅しきれない領域です。「絶対安全」「必ず通る」とは申し上げません——組織と用途で個別判断が必要です。
私自身、ローカル LLM の業務本番運用経験がないため、本セクションは公開情報と業務本番運用(クラウド API 側)の経験からの整理レベルでの紹介になります。最終判断は専門部門と、必要に応じて弁護士の方へご相談ください。
15 — よくある質問(FAQ)
Q1: ローカル LLM だけで業務を回せますか?
A. 「絶対回せる」とは申し上げません。私の業務感覚では、ローカル LLM は 個人検証 → 部分用途で組み合わせる のが現実的で、業務本番のメインは Claude / ChatGPT / Gemini API、エンタープライズ要件があれば AWS Bedrock 経由が筋という整理です。性能・運用負担・モデルライセンスの 3 つの壁が高く、特定用途(社内コードの整形 / 機密データの下処理 / 完全オフライン環境)で組み合わせるのが、2026 年 5 月時点の現実的な姿です。詳細は セクション 14 をご参照ください。
Q2: Mac で LLM を動かすには、どのスペックが必要ですか?
A. 「絶対このスペック」とは申し上げません(モデルサイズと用途で振れます)。私の個人検証の感触では、Apple Silicon Mac(M1 以降)+ 16 GB RAM で 7B クラスの量子化版モデル(Q4_K_M)が動く、32 GB RAM で 13B クラスが快適、64 GB RAM で 70B クラスの量子化版が動く——というのが目安です。Windows + NVIDIA GPU の場合は VRAM 12 GB / 24 GB クラスが目安として公開情報で言及されますが、私自身は Mac での検証のみです。詳細は セクション 5 をご参照ください。
Q3: 日本語に強いローカル LLM はどれですか?
A. 「絶対これが一番」とは申し上げません。2026 年 5 月時点で公開情報からの整理として、(1) Llama-3-ELYZA-JP(ELYZA 社が日本語追加学習)、(2) Swallow(東京工業大学等の継続学習)、(3) Qwen(Alibaba 開発、多言語対応に強み)、(4) Gemma(Google 開発、日本語対応)が代表的に言及される系統です。私自身の業務日本語処理は Claude / ChatGPT / Gemini API が主軸で、ローカル日本語モデルは個人検証も限定的なため、本記事は公開情報からの整理として紹介する立ち位置です。詳細は セクション 7 をご参照ください。
Q4: ローカル LLM で小説生成はできますか?
A. 「絶対安全にできる」とは申し上げません。設計上、クラウド AI(ChatGPT / Claude / Gemini)が拒否しがちな表現でも、ローカル LLM は自分の責任で自由度の高い出力が可能というのは公開情報で言及されます。ただし、(1) 出力内容の責任は完全に利用者にある、(2) 著作権・公序良俗・プラットフォーム規約への配慮、(3) モデルライセンス(商用利用条項)の 3 つは絶対に外せません。私自身は小説生成での個人検証経験がないため、本記事は公開情報からの整理として扱います。最終判断は法務・弁護士の方へご相談ください。詳細は セクション 11 をご参照ください。
Q5: ローカル LLM を始めるなら、最初の一歩は何ですか?
A. 私の個人検証視点での目安は、Mac M シリーズ(16 GB RAM 以上)+ Ollama + Llama 3 8B / Gemma 7B(量子化版) からの開始です。brew install ollama → ollama pull llama3 → ollama run llama3 の 3 行で動きます。業務本番運用の推奨ではなく、ローカル LLM の感触を掴むための最小動線 として、まず触ってみるのがおすすめです。詳細は セクション 9 の最小手順をご参照ください。
Q6: ローカル LLM で文章校正はできますか?
A. できます。私の個人検証の感触では、誤字脱字チェック・冗長表現の言い換え・トーン調整 といった文章校正は、ローカル LLM(Llama 3 8B / Gemma 7B / 日本語なら ELYZA-JP)が比較的得意な用途です。社外に出せない契約書ドラフト・人事文書・顧客メールなど、機密性の高い文章をクラウドに貼らずに校正できる のが最大の利点です。ただし「絶対クラウド AI 並み」とは申し上げません——込み入った文脈理解や長文の一貫性ではクラウド API(Claude / ChatGPT / Gemini)に分があるため、機密文書の一次校正はローカル、最終仕上げは用途に応じて という使い分けが私の業務感覚に近い整理です。詳細は セクション 10 をご参照ください。
筆者について:営業職 7 年から SES・自社開発を経て生成AIエンジニアになった aikun が、MacBook Pro で Ollama を実際に動かした個人検証と、業務でクラウド API(Anthropic / OpenAI / Google)を毎日叩いている手触りをもとに書いています。ローカル LLM の業務本番運用経験はなく、どこまでが一次体験でどこからが公開情報の整理かは、本文で都度明示しています。
出典
- Ollama 公式ドキュメント(取得:2026-05-20)
- Llama 公式(Meta)(取得:2026-05-20)
- Mistral AI 公式(取得:2026-05-20)
- Google Gemma 公式(取得:2026-05-20)
- Qwen 公式(Alibaba)(取得:2026-05-20)
- DeepSeek 公式(取得:2026-05-20)
- Microsoft Phi 公式(取得:2026-05-20)
- Hugging Face Open LLM Leaderboard(取得:2026-05-20)
- LMSYS Chatbot Arena(取得:2026-05-20)
- Apple Silicon 公式情報(取得:2026-05-20)
- LM Studio 公式(取得:2026-05-20)
- llama.cpp GitHub リポジトリ(取得:2026-05-20)
訂正・最新情報のご指摘について:本記事の誤り・最新情報のご指摘は send@bon-bon-tools.com までお知らせください。ローカル LLM はモデル更新サイクルが非常に早く、リリース動向・ライセンス条項は数か月で変わる領域です。各モデル公式と Hugging Face で最新状況を必ず併せてご確認ください。
関連記事
- Ollama 使い方 — 本記事の深掘りスポーク。入れる→動かす→管理→API組み込みを操作に絞って通しで解説
- ローカルLLM 小説の現実 — 本記事の深掘りスポーク。向くモデル・プロンプト設計・長文の一貫性の壁・著作権まで整理
- LLM とは — LLM 概念ハブ(クラウド主軸)、本記事の親
- AI コードレビュー — セクション 7 でローカル LLM を Code Llama / DeepSeek Coder 中心に既述、本記事への送り元
- AIエージェント 作り方 — 補足ルートとしてローカル LLM 構築を扱う
- RAG とは — RAG 概念ハブ、ローカル LLM + ベクトル DB 構成の概念
- AI コーディング — AI コーディング親ハブ(補完 / 対話 / エージェント 3 レイヤー俯瞰)
- 生成AI 入門 — 5 ペルソナ別 30 日学習プランの基礎
- AWS Bedrock — エンタープライズ AI 基盤クラウド経路
- Claude Sonnet 4.6 — クラウド側主力モデルの最新
- Claude 使い方 — 業務本番運用クラウド API
- ChatGPT 始め方 — 業務本番運用クラウド API
- AI 業務効率化 ツール — 業務効率化ツール俯瞰
- AIエージェント とは — AIエージェント概念ハブ
- Claude Opus — フロンティアモデル比較
- Claude Opus と Sonnet の違い — モデル使い分け俯瞰
- Claude 料金プラン — クラウド API 料金比較
- Claude Code 使い方 — CLI コーディングエージェント
- Claude Code 始め方 — Claude Code 初回 30 分
- Cursor 使い方 — IDE 統合型コーディングエージェント
- Claude Cowork 使い方 — デスクトップエージェント
- Claude Code Action — GitHub Actions 統合
- Dify 使い方 — ノーコード AI エージェント基盤
- AI 業務効率化 事例 — 5 領域×5 職種マトリクス
- AI 議事録 おすすめ — 議事録 AI 整理
- AI 翻訳 おすすめ — 翻訳 AI 整理
- AI 画像生成 無料 — UI ベース無料 6 ツール
- AI 画像生成 プロンプト — 4 要素モデル
- AI 動画生成 おすすめ — 動画 AI 整理
- 未経験エンジニア 転職 — エンジニア志望ユースケース連動
- SES やめとけ — SES の入口・地雷・出口整理
- Claude Skills とは何か——SKILL.md / 自作 3 系統 / Slash commands・MCP・Tools との違いを整理
- Azure OpenAI Service とは何か——GPT/Codex モデル一覧・料金・直 API/AWS Bedrock 3 経路使い分け・「Azure に Claude はない」誤解まで整理
- AIエージェント × MCP——標準仕様の手と目を増やす設計(自作 MCP サーバー本番運用者が整理)
- Claude Skills を自作する——SKILL.md の書き方から業務 3 系統・チーム配布まで「作る側」を実演
- Vibe coding とは——感覚で AI に書かせ、人間はレビューと方向づけに回る新スタイルを業務実践視点で整理
- Codex CLI とは——OpenAI 系の Claude Code 相当を、両方触った現役の生成AIエンジニアが比較しながら整理しました
- Vertex AI とは——Google Cloud の AI 基盤。Gemini と Claude on Vertex の二本柱・料金・3 基盤比較を業務試用視点で整理
- MCP サーバー 作り方——Python/TypeScript SDK で自作し本番運用まで「作る側」の完全マニュアル
- Gemini CLI 使い方——Google のターミナル型 AI コーディングを 3 ツール比較で整理
- Gemini API 使い方——コードから Gemini を呼ぶ最小サンプルを Python・GAS で