ChatGPT や Claude を毎日使ううちに、「社内コードを貼るのは気が引ける」「オフラインでも AI を動かしたい」とローカル LLM の入口で Ollama にたどり着いた方は多いはずです。「Ollama 使い方」はラッコ実測(2026 年 5 月時点)で月 1,000 件・直近 1 年 +611% と伸びています。私は業務で OpenAI / Anthropic / Google の API を毎日叩きますが、Ollama は MacBook Pro での個人検証——業務本番運用ではない、という温度感が出発点です。
結論から言うと、Ollama は「入れる→動かす→管理する→組み込む」の 4 段階で覚えるのが筋——というのが、Mac で触りクラウド API と毎日比べている私の感覚です。本記事は OS別インストールから API / Python 組み込み・GUI・つまずきどころまで、道具の操作に絞って整理します。
とりあえず最短で「自分の PC で 1 回動かしたい」方は、セクション 2「OS別インストール」と セクション 4「基本コマンド」から読み始めると、本日中に最初の一歩が踏めます。ハード要件やどのモデルを選ぶかの全体像は、親記事 LLM ローカル をご覧ください。
01 — 結論:Ollama は「入れる→動かす→管理→組み込む」の 4 段階で覚える(一行マップ)
📖 この章で使う用語
まず結論からお伝えします。Ollama は 「入れる→動かす→管理する→組み込む」の 4 段階 で覚えるのが、いちばん遠回りの少ない道筋です。新しいコマンドやオプションが次々に出てきても、まず「これは 4 段階のどこの話か」を確かめれば、置き場所に迷わなくなります。
- 入れる:OS に合わせて Ollama 本体をインストールする(セクション 2)
- 動かす:
ollama runでモデルを 1 回動かして手触りを掴む(セクション 3・セクション 4) - 管理する:モデルを入れる・消す・自分用にカスタムする(セクション 5)
- 組み込む:REST API / Python から自分のアプリやワークフローに繋ぐ(セクション 6・セクション 7)
「迷ったらこの 4 段階だけ覚えれば OK」のマップです。
ここで本記事の立ち位置と、私自身の経験範囲を最初にお伝えしておきます。本記事は Ollama という「道具の操作」一点に絞って書きます。Mac でのセットアップ・CLI 操作・モデルの pull と動作確認・量子化版を動かしたときの体感・REST API / Python からの呼び出し設計は、自分で触った範囲としてお伝えできます。一方、Windows / Linux / Ubuntu の OS別手順は私自身が触っておらず、公開情報からの整理として書きます。そして大前提として、私の業務本番運用のメインはクラウド API(Anthropic / OpenAI / Google)で、Ollama は MacBook Pro での個人検証レベルです。
役割分担も明示しておきます。ハードウェア要件(RAM / VRAM / GPU の使い分け)、どのモデルを選ぶか、量子化レベルの詳しい選定、日本語モデルの俯瞰は、本記事では深入りせず、親記事 LLM ローカル へ送ります。小説・創作用途は ローカルLLM 小説の現実 で別建てしています。本記事はあくまで「Ollama をどう入れて、どう動かして、どう組み込むか」の操作に振り切ります。検索でよく見かける「ollama 使い方」「ollama の使い方」といった表記の揺れも、この 1 記事でまとめて扱います。
なお、Ollama はバージョン更新が早い道具です。本記事のコマンド・挙動はすべて 2026 年 6 月時点のもので、最新の仕様は Ollama 公式(ollama.com)で必ず併せてご確認ください。「絶対このコマンドで動く」とは申し上げません——OS とバージョンで振れる領域です。
02 — Ollama とは&OS別インストール——Mac / Windows / Linux / Ubuntu
📖 この章で使う用語
- CLI(Command Line Interface:コマンドラインインターフェース):文字でコマンドを打ってパソコンに指示する画面。営業時代の私は「真っ黒な怖い画面」だと思っていました。
- Homebrew(ホームブリュー):macOS のアプリ管理ツール。
brew installの 1 行で導入できる。- WSL2(Windows Subsystem for Linux 2):Windows の中で Linux を動かす仕組み。
- systemd(システムディー):Linux でアプリを常駐サービスとして動かす仕組み。「お店の自動シャッターのように、PC 起動時に勝手に立ち上げる係」。
- ポート 11434:Ollama が API を受け付ける窓口番号。建物の「何番窓口」のイメージ。
まず Ollama の正体を 1 段落で整理します。Ollama は、手元の PC で OSS(オープンソースソフトウェア)の LLM を動かすための CLI ベースの道具です。裏側では llama.cpp という推論エンジンが動いており、利用者はモデル名を指定するだけで、ダウンロードから実行までを一気にやってくれます。さらに、起動すると裏で REST API(プログラムから呼び出せる窓口)がデフォルトで立ち上がる——具体的には http://localhost:11434 で待ち受ける——のが大きな特徴です。この「API がデフォルトで立つ」性質が、後半の組み込みの話に効いてきます。
ここからは OS別のインストール手順を H3 で分けて整理します。冒頭で経験範囲を分けておくと、Mac は私が自分で触った範囲、Windows / Linux / Ubuntu は公開情報からの整理です。なお、どの OS で動かすにせよ「自分の PC でそもそも動くスペックか」というハードウェア要件の話は、本記事では深入りせず親記事 LLM ローカル へ送ります。
02-1. Mac(Apple Silicon)でのインストール【自分で触った範囲】
Mac(Apple Silicon の M シリーズ)が、私が実際に Ollama を個人検証した環境です。Homebrew が入っていれば、次の 1 行で入ります。
# Mac M シリーズ前提(Apple Silicon)
brew install ollama
Homebrew を使わない場合は、公式サイト(ollama.com)から Mac 用のインストーラ(.dmg)をダウンロードして、アプリとして導入する方法もあります。私の個人検証では Homebrew 経由が、後からの更新(brew upgrade)まで含めて管理がラクでした。
Apple Silicon Mac の良いところは、Metal(Apple の GPU を使う仕組み)を Ollama が自動で利用してくれる点です。特別な設定をしなくても GPU 加速が効くので、私の体感では「入れたらそのまま速い」状態で動き始めました。インストール後、サーバーを起動するコマンドは次の 1 行です。
# Ollama を裏で待機させる(サーバー起動)
ollama serve
このコマンドの意味は セクション 3 で詳しく噛み砕きます。ここでは「これでお店の開店準備が整う」とだけ捉えておいてください。
02-2. Windows でのインストール【公開情報からの整理】
ここからは私自身が触っていない領域で、公開情報からの整理になります。Ollama 公式によると、Windows には 2 つのルートがあります。
1 つ目は、公式のネイティブインストーラ(.exe)を ollama.com からダウンロードして実行する方法です。インストール後は Windows のスタートメニューから Ollama が起動し、バックグラウンドで常駐します。コマンドプロンプトや PowerShell から ollama run を打って使う流れです。
2 つ目は、WSL2(Windows の中で Linux を動かす仕組み)の上で、Linux 版の Ollama を動かす方法です。すでに WSL2 で開発環境を組んでいる方は、こちらのほうが既存のワークフローに馴染む場合があります。どちらを選ぶかは既存の開発環境次第ですが、最新の対応状況は Ollama 公式でご確認ください。
02-3. Linux でのインストール【公開情報からの整理】
Linux も私自身は Mac での検証のみのため、公開情報からの整理です。Ollama 公式が案内している標準的な方法は、インストールスクリプトを 1 行で実行するものです。
# Linux 公式インストールスクリプト(公開情報からの整理)
curl -fsSL https://ollama.com/install.sh | sh
このスクリプトは、Ollama 本体を入れたうえで、systemd(Linux でアプリを常駐サービスとして動かす仕組み)のサービスとして登録するのが特徴です。「お店の自動シャッター」のように、PC 起動時に Ollama が自動で立ち上がる形になります。Mac の ollama serve を毎回手で打つのと違い、Linux ではサービスとして常駐する点が運用上の違いです。
なお、スクリプトを | sh でそのまま実行する形は手軽ですが、何が実行されるか不安な場合は、スクリプトの中身を一度ダウンロードして読んでから実行する、という慎重な進め方もあります。
02-4. Ubuntu での補足【公開情報からの整理】
Ubuntu は Linux の一種なので、基本的には前述の Linux 手順がそのまま使えます。ここでは Linux を総論、Ubuntu を具体例として書き分けます。公開情報からの整理として、Ubuntu でよく触れられる注意点は次の 2 つです。
1 つ目は、systemd サービスの起動確認です。インストール後、サービスが動いているかを確認するコマンドが案内されることが多いです。
# Ubuntu/Linux:Ollama サービスの稼働確認(公開情報からの整理)
systemctl status ollama
2 つ目は、NVIDIA GPU を使う場合のドライバ周りです。Ubuntu + NVIDIA GPU の構成では、GPU を使った推論のために対応ドライバの導入が前提になる、という点が公開情報でよく言及されます。GPU が認識されていないと CPU だけで動いて速度が落ちる傾向があるため、導入後に GPU が使われているかを確認するのが現実的です(確認方法は セクション 9 で扱う ollama ps が参考になります)。具体的な GPU 要件の詳細は、本記事では深入りせず親記事 LLM ローカル へ送ります。
02-5. インストール確認(OS共通)
どの OS でも、入った直後の疎通チェックは共通です。次の 2 つで確認できます。
# バージョン表示(インストールできているか)
ollama --version
# 導入済みモデル一覧(最初は空でOK)
ollama list
ollama --version でバージョンが表示され、ollama list がエラーなく(最初は何も入っていないので空の表で)返ってくれば、インストールは成功です。ここまでで「入れる」段階が完了です。次は実際にモデルを 1 つ動かしてみます。
03 — はじめての 1 体験——ollama run で 5 分で動かす(Mac M シリーズ前提・自分で触った範囲)
📖 この章で使う用語
- serve(サーブ):Ollama を裏で待機させる起動コマンド。お店の「開店準備」のイメージ。
- pull(プル):モデル本体を手元にダウンロードする操作。「在庫を取り寄せる」イメージ。
- モデル:実際に文章を生成する LLM 本体。Llama 3 や Gemma など、Ollama では名前で指定する。
ここからは、Mac M シリーズで実際に動かす最小動線を 5 ステップで整理します。本セクションは私の個人検証で実際に動かしている手順をベースに、各コマンドが何をしているのかの意味づけ に寄せて書きます。手順を機械的に並べるだけでなく、「このコマンドはお店でいう何にあたるか」を添えていきます。
03-1. ステップ ①:serve でサーバーを起動する
最初に Ollama を裏で待機させます。
# Ollama を裏で待機させる(開店準備)
ollama serve
serve は、お店でいう「開店準備」です。これを動かしておくと、Ollama がリクエストを受け付けられる状態になります。Mac のインストール方法によっては、ollama run を打った時点で自動的に裏で立ち上がる場合もあります(OS とバージョンに依存)。うまく動かないときは、まずこの serve が走っているかを疑うのが、私の個人検証での定番チェックでした。
03-2. ステップ ②:pull でモデルを取り寄せる
次に、動かしたいモデルを手元にダウンロードします。
# Llama 3 を手元に取り寄せる(量子化版、数 GB)
ollama pull llama3
pull は「在庫を取り寄せる」操作です。初回はモデル本体(数 GB のファイル)を回線越しにダウンロードするため、回線速度に応じて数分〜十数分かかります。一度落とせば、以降は手元のディスクから即座に起動します。どのモデルを選ぶか(Llama / Gemma / Qwen など)の俯瞰は、本記事では深入りせず親記事 LLM ローカル へ送ります。ここではまず Llama 3 を 1 つ落としてみる、という入口に絞ります。
03-3. ステップ ③:run で対話する
ダウンロードが終わったら、対話を始めます。
# Llama 3 と対話する
ollama run llama3
>>> というプロンプトが出たら、そこに自由に質問を打ち込めます。私の個人検証(MacBook Pro M シリーズ + Llama 3 8B の量子化版)での体感では、応答が始まるまで 1〜2 秒、文字が出てくる速度は毎秒 20〜40 トークン程度でした。クラウド AI を使い慣れていると一瞬「遅いかな」と感じるかもしれませんが、量子化版の小型モデルなら、簡単な整形や読み解きには十分使える速度です。
ちなみに、pull を省いていきなり ollama run llama3 と打っても、手元にモデルが無ければ自動でダウンロードしてから対話に入ってくれます。慣れてくると、私はこの 1 行だけで済ませることが多くなりました。
03-4. ステップ ④:機内モードでも動くことを確かめる
ここで 1 つ、ローカル LLM ならではの確認をしてみます。一度モデルを落としてしまえば、インターネットを切っても動きます。私の個人検証でも、機内モードにした MacBook Pro で Llama 3 を動かし、簡単な文章整形やコードの読み解きをさせたことがあります。「ネットがない時間に AI を使いたい」という場面で、これは確かな安心感でした。クラウド API では味わえない手触りです。
03-5. ステップ ⑤:/bye で抜ける
対話を終えるときは、プロンプトに /bye と打つか、Ctrl + D で抜けます。
# 対話を終了する
>>> /bye
ここまでが「動かす」段階の最小動線です。ここまでを 1 度通せば、Ollama の手触りはほぼ掴めます。次は、日常的に使うコマンドの地図を整理します。
04 — 基本コマンド総覧——run / list / ps / show / cp / stop(CLI 操作の地図)
📖 この章で使う用語
- ps(ピーエス):いま動いているモデルの一覧表示。「稼働中の機械の点検表」のイメージ。
ここでは、日常的に使う Ollama の CLI コマンドを一枚の地図として俯瞰します。営業時代の私は CLI を「真っ黒な怖い画面」だと思っていましたが、実際に覚えるコマンドは多くありません。よく使うのは次の 6 つです。
| コマンド | 何をするか |
|---|---|
ollama run <model> | モデルと対話する/単発で質問する |
ollama list | 手元に入っているモデルの一覧を見る |
ollama ps | いま動いている(メモリに載っている)モデルを見る |
ollama show <model> | モデルの情報(パラメータやテンプレート)を見る |
ollama cp <元> <新名> | 既存モデルを別名で複製する |
ollama stop <model> | 動いているモデルを止めて、メモリを解放する |
具体的な使い方を、いくつか実行例で見てみます。
# 手元のモデル一覧(名前・サイズ・更新日時が表で出る)
ollama list
# いま動いているモデルと、CPU/GPU どちらで動いているかを見る
ollama ps
# モデルの中身の情報を見る(テンプレートやパラメータ)
ollama show llama3
# 1 行だけ質問して、すぐ結果を受け取る(対話に入らない単発実行)
ollama run llama3 "この文章を3行に要約して: ..."
私の個人検証でいちばん出番が多かったのは ollama list(何を入れたか忘れがちなので)と ollama ps(動かしっぱなしでメモリを食っていないかの点検)でした。ollama ps は「稼働中の機械の点検表」のイメージで、後述する常駐設定(セクション 9)と合わせて見ると、メモリの使われ方が立体的に分かります。
ollama cp は、次のモデル管理の章で扱う「自分用モデル」を作る前段としても使えます。たとえば既存モデルを複製しておいて、複製のほうにだけ手を加える、という運用です。ここまでが CLI 操作の土台です。次は、モデルそのものの管理に進みます。
05 — モデル管理——pull / list / rm / Modelfile / 保存場所
📖 この章で使う用語
- Modelfile(モデルファイル):自分用モデルの設定を書くレシピファイル。「料理の作り置きレシピ」のイメージ。
- 量子化タグ(Q4_K_M 等):モデルを軽くした版の目印。詳しい選び方は親記事へ。
- 保存場所(~/.ollama/models):落としたモデルが置かれるフォルダ。「倉庫の住所」のイメージ。
この章では、モデルを「入れる・消す・カスタムする・どこに保存されるか」の管理 4 点を扱います。最初に役割分担を明示しておきます。どのモデルを選ぶか(Llama / Mistral / Gemma / Qwen / DeepSeek / Phi の俯瞰や、日本語モデルの選び方)、量子化レベルをどう選定するかの詳細は、本記事では扱わず親記事 LLM ローカル へ送ります。本章はあくまで「Ollama での管理操作」に限定します。
05-1. モデルの入手と削除(pull / rm)
モデルの入手は pull、削除は rm です。ディスクは有限なので、この 2 つはセットで覚えておくと安心です。
# モデルを取り寄せる(タグでサイズや種類を指定)
ollama pull llama3:8b
ollama pull gemma:7b
# 使わなくなったモデルを消す(ディスクを空ける)
ollama rm gemma:7b
ここで llama3:8b の :8b の部分が タグ です。コロンの後ろで、パラメータ規模(8b = 80 億パラメータ)や量子化版の種類を指定できます。タグを省くと、そのモデルの標準版が落ちてきます。Q4_K_M のような量子化タグの読み方や、どれを選ぶべきかの判断は、本記事では深入りせず親記事 LLM ローカル で詳しく扱っています。ここでは「タグでサイズと種類を指定できる」という操作だけ押さえておけば十分です。
05-2. Modelfile で自分用モデルを定義する
Ollama の面白いところは、自分用のカスタムモデルをレシピで定義できる 点です。そのレシピが Modelfile で、「料理の作り置きレシピ」のイメージです。たとえば「いつも丁寧な日本語で、結論から答える」といったキャラクターを、システムプロンプト(AI の前提となる指示)として固定したモデルを作れます。
# Modelfile(ファイル名: Modelfile)
# ベースにするモデルを指定
FROM llama3
# AI の前提となる指示(システムプロンプト)を固定する
SYSTEM """
あなたは丁寧な日本語で、結論から先に答えるアシスタントです。
専門用語には、かならず一言の補足を添えてください。
"""
# 応答のばらつき具合を調整するパラメータ(低いほど安定)
PARAMETER temperature 0.6
この Modelfile から、自分用モデルを作るのが ollama create です。
# Modelfile から自分用モデル「my-assistant」を作る
ollama create my-assistant -f Modelfile
# 作ったモデルを動かす
ollama run my-assistant
これは、業務で API を叩くときに「システムプロンプトを設計して役割を固定する」のと同じ発想です。私は業務では OpenAI / Anthropic の API でこの種のプロンプト設計を日常的にやっていますが、Ollama では Modelfile という形でモデル自体に焼き付けられるのが面白いところでした(Ollama 自体は個人検証レベルです)。毎回同じ指示を打ち込む手間が省けるので、用途が決まっているなら作り置きしておくとラクです。
05-3. モデルの保存場所
落としたモデルがどこに置かれるかも、ディスクが圧迫されたときに知っておくと安心です。Mac / Linux では ~/.ollama/models 配下に保存されます(「倉庫の住所」のイメージ)。保存場所は OS によって異なるため、Windows での具体的なパスは公開情報の併記になりますが、いずれの OS でも環境変数 OLLAMA_MODELS で保存先を変更できます。
# 保存先を別ドライブに変えたいとき(例)
export OLLAMA_MODELS=/Volumes/External/ollama-models
外付けディスクにモデルを逃がしたい場合などに使えます。環境変数の扱いは セクション 9 でまとめて整理します。ここまでがモデル管理の操作です。次は、いよいよ「組み込む」段階に入ります。
06 — REST API で叩く——localhost:11434 と OpenAI 互換エンドポイント
📖 この章で使う用語
- REST API(レストエーピーアイ):プログラム同士がやり取りする標準的な窓口。「お店のレジで使う注文票」のイメージ。
- localhost(ローカルホスト):自分の PC 自身を指すアドレス。外に出ず PC 内で完結する通信。
- OpenAI 互換エンドポイント:OpenAI 用に書いたコードの「宛先」だけ変えて Ollama に向けられる窓口。「同じ注文票が別の店でも通る」イメージ。
- ストリーミング:回答を一気にではなく、書きながら少しずつ返す方式。
ここからが、Ollama を「アプリに組み込む」段階の入口です。セクション 2 で触れたとおり、Ollama は起動すると REST API(プログラムから呼び出せる窓口)をデフォルトで立てます。場所は http://localhost:11434 で、localhost は「自分の PC 自身」を指すアドレスです。つまり、この API を叩いている限り、データは PC の外に出ません。
REST API は「お店のレジで使う注文票」のようなものです。決まった書式で注文を出すと、決まった書式で結果が返ってきます。まずは curl(コマンドで HTTP リクエストを送る道具)で叩いてみます。
# /api/chat(Ollama ネイティブの対話 API)を叩く
curl http://localhost:11434/api/chat -d '{
"model": "llama3",
"messages": [
{ "role": "user", "content": "ローカルLLMの利点を3つ、簡潔に教えてください" }
],
"stream": false
}'
messages に会話を渡すと、応答が JSON で返ってきます。"stream": false にすると回答が一括で返り、true にすると ストリーミング(書きながら少しずつ返す方式)になります。ChatGPT の画面で文字がパラパラと出てくる、あの挙動です。
06-1. OpenAI 互換エンドポイントという「宛先だけ変える」設計
ここが、業務で API を叩いている人間として「よくできているな」と感じたポイントです。Ollama は、ネイティブの /api/chat とは別に、OpenAI 互換エンドポイント /v1/chat/completions も用意しています。これは「OpenAI 用に書いたコードの宛先だけ変えれば、そのまま Ollama に向けられる」窓口です。「同じ注文票が、別の店でも通る」イメージです。
# OpenAI 互換エンドポイント(/v1/chat/completions)を叩く
curl http://localhost:11434/v1/chat/completions -d '{
"model": "llama3",
"messages": [
{ "role": "user", "content": "こんにちは" }
]
}'
リクエストの書式が、OpenAI の API とほぼ同じになっているのが分かります。これは、アプリ設計の観点でとても実用的です。私は業務で OpenAI / Anthropic の API を毎日叩いていますが、その感覚で言うと、「クラウド API で組んだコードの、向き先だけをローカルに切り替えてテストする」 という運用ができる、ということです。たとえば本番はクラウド API、開発中の検証は手元の Ollama、と切り替えるような設計が組みやすくなります(あくまで Ollama 自体は個人検証レベルでのお話です)。
どのエンドポイントを使うか迷ったら、新規に Ollama 前提で書くならネイティブの /api/chat、既存の OpenAI コードを流用するなら /v1/chat/completions、という使い分けが分かりやすいと思います。次は、この API を Python から呼び出す具体例に進みます。
07 — Python から呼び出す——公式 ollama ライブラリ&OpenAI SDK 互換
📖 この章で使う用語
- ライブラリ(library):よく使う機能をまとめた部品集。
pip installで取り寄せる。- base_url(ベースユーアールエル):API の宛先アドレス。ここを localhost に変えると Ollama に向く。
Python から Ollama を呼び出す方法は、大きく 2 系統あります。(a) 公式の ollama ライブラリを使う方法と、(b) openai ライブラリ(OpenAI SDK)の宛先を Ollama に向ける方法です。順に最小サンプルを見ていきます。
07-1. 公式 ollama ライブラリ
いちばん素直なのが、公式の ollama ライブラリです。pip install ollama で取り寄せます(ライブラリ=よく使う機能をまとめた部品集)。
# 公式 ollama ライブラリでの最小呼び出し
# pip install ollama でインストール
import ollama
response = ollama.chat(
model="llama3",
messages=[
{"role": "user", "content": "ローカルLLMのメリットを3つ教えてください"},
],
)
# 応答テキストを取り出して表示
print(response["message"]["content"])
たったこれだけで、Python プログラムからローカル LLM を呼び出せます。messages の渡し方は、クラウド AI の API とよく似た形です。
07-2. OpenAI SDK の宛先を Ollama に向ける
もう 1 系統が、openai ライブラリ(OpenAI SDK)の base_url(宛先アドレス)を Ollama に向ける方法です。セクション 6 で触れた OpenAI 互換エンドポイントを、Python 側から使う形です。
# OpenAI SDK の宛先を Ollama(localhost)に向ける
# pip install openai でインストール
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1", # ここを Ollama に向ける
api_key="ollama", # ローカルなのでダミーで可
)
response = client.chat.completions.create(
model="llama3",
messages=[
{"role": "user", "content": "こんにちは"},
],
)
print(response.choices[0].message.content)
ポイントは base_url の 1 行だけです。すでに OpenAI SDK でアプリを組んでいるなら、宛先を変えるだけでローカルの Ollama に切り替えられる、という設計の良さがここでも効いてきます。
この 2 系統が動かせれば、RAG(検索拡張生成)やエージェント、業務スクリプトに組み込む土台ができた状態です。ただし、ここから先の本格的な組み込み設計——たとえば検索を組み合わせる RAG の作り方や、自律的に動くエージェントの設計——は、本記事の範囲を超えます。RAG の組み立ては RAG とは を、エージェントへの組み込みは AIエージェント 作り方 を、それぞれご覧ください。本記事はあくまで「Ollama を呼び出すところまで」に絞ります。
08 — GUI で使う——Open WebUI で「黒い画面が苦手」を解決
📖 この章で使う用語
- GUI(Graphical User Interface:グラフィカルユーザーインターフェース):画面のボタンやマウスで操作する方式。CLI(文字で打つ画面)の対義。
- Open WebUI(オープンウェブユーアイ):Ollama に被せる ChatGPT 風のブラウザ画面ツール。
- Docker(ドッカー):アプリを箱詰めして動かす仕組み。「お弁当箱ごと持ち運ぶ」イメージ。
ここまでは CLI(文字を打つ画面)が基本でした。ただ、営業時代の私もそうでしたが、「黒い画面に文字を打つ」こと自体に抵抗がある方は少なくないと思います。そこで、Ollama に GUI(画面操作)のフロントエンドをかぶせる選択肢を整理します。最初に役割分担を明示しておくと、最初から画面だけで完結したい方向けの LM Studio という別ツールもありますが、その俯瞰は親記事 LLM ローカル の構築ツール章へ送ります。本章は、CLI ベースの Ollama に画面を足す主な選択肢として Open WebUI を扱います。
Open WebUI は、ブラウザで使える ChatGPT 風の画面ツールで、起動している Ollama を自動で見つけて繋がってくれます。ブラウザ上でチャットができ、モデルの切り替えや会話履歴の管理も画面から行えます。導入は Docker(アプリを箱詰めして動かす仕組み、「お弁当箱ごと持ち運ぶ」イメージ)を使う方法が、公開情報でよく案内されています。
# Open WebUI を Docker でローカルに立てる(公開情報からの整理)
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
立ち上がったら、ブラウザで http://localhost:3000 を開くと、ChatGPT に似た画面が出てきます。あとは画面からモデルを選んでチャットするだけ——黒い画面を一切触らずに、ローカル LLM と対話できます。
正直にお伝えしておくと、Open WebUI 自体は私の個人検証で使い込んだ範囲ではなく、公開情報からの整理が中心です。私が確実にお伝えできるのは、Ollama 側が REST API(セクション 6)をデフォルトで立てているからこそ、こうした GUI ツールが「裏で Ollama に繋ぐ」形で成り立つ、という接続の仕組みの部分です。Open WebUI に限らず、Ollama に被せる GUI ツールはこの API 経由で動いている、と理解しておくと、ツールが変わっても応用が効きます。最新の導入手順は Open WebUI 公式でご確認ください。
09 — よく使う設定・Tips——常駐 / 環境変数 / リモート公開の注意 / GPU 利用確認
📖 この章で使う用語
- 環境変数(かんきょうへんすう):アプリの動きを外から指定する設定値。「機械の設定ダイヤル」のイメージ。
- KEEP_ALIVE(キープアライブ):モデルをメモリに留めておく時間の設定。
実運用で効いてくる設定を、横断的に整理します。Ollama の挙動の多くは 環境変数(アプリの動きを外から指定する設定値、「機械の設定ダイヤル」のイメージ)で調整できます。代表的なものは次の 3 つです。
OLLAMA_HOST:Ollama が待ち受けるアドレス。デフォルトはlocalhost(自分の PC 内だけ)OLLAMA_MODELS:モデルの保存先(セクション 5 で前述)OLLAMA_KEEP_ALIVE:モデルをメモリに留めておく時間。短くすればメモリが空きやすく、長くすれば再起動が速い
# モデルをメモリに 30 分留めておく(再呼び出しが速くなる)
export OLLAMA_KEEP_ALIVE=30m
ollama ps(セクション 4)と合わせて見ると、モデルがメモリに載っているか、CPU と GPU のどちらで動いているかが確認できます。Mac で GPU(Metal)が効いているか、Linux で NVIDIA GPU が使われているかを点検するときの、私の定番チェックでした。
09-1. リモート公開(OLLAMA_HOST=0.0.0.0)の注意——YMYL
ここは安全に関わるので、慎重にお伝えします。Ollama を別の PC やスマホから使いたいとき、OLLAMA_HOST=0.0.0.0 のように設定して、LAN(社内ネットワーク)や外部からアクセスできるようにする方法が公開情報で紹介されることがあります。ただし、この設定は無防備に使うとセキュリティリスクになります。
0.0.0.0 で待ち受けると、同じネットワーク上の他の端末(場合によっては外部)から、認証なしで Ollama を叩けてしまう可能性があります。Ollama の API には標準で強い認証の仕組みが組み込まれているわけではないため、「とりあえず外から使えるようにしよう」と安易に公開するのは避けたほうが安全 です。「絶対に大丈夫」とは申し上げません——公開する場合は、ファイアウォールや VPN、リバースプロキシでの認証付与など、ネットワーク側の保護を併せて検討し、最終的には社内の情シス・セキュリティ部門にご相談ください。私自身、Ollama を外部公開して常用した経験はないため、本項は公開情報からの整理と一般的な注意喚起のレベルです。
設定の項目は便利ですが、便利さとリスクは裏表です。手元の PC 内(localhost)で完結させている限りは外に出ませんが、公開設定に踏み出すときだけは、一歩立ち止まって確認するのがおすすめです。
10 — ライセンス・データの扱い・公式確認——商用利用前の必須チェック(YMYL)
📖 この章で使う用語
- 商用利用ライセンス:そのモデルを商売で使ってよいかの法的条件。モデルごとに異なる。
- OSS(Open Source Software:オープンソースソフトウェア):ソースコードや重みが公開されているソフト。
ここは記事の中でも特に慎重にお伝えしたい章です。Ollama は道具であって、実際に動かすモデルそれぞれに、別々のライセンスがある という点を外してはいけません。
まず大前提として、Ollama で動かす各モデルの商用利用ライセンスは、モデルごとに異なります。たとえば Llama 系は Llama Community License、Mistral の一部は Apache 2.0、Gemma は Gemma Terms of Use、というように条項がそれぞれ違います。「ローカルで動かしているから自由」「OSS だから何でも商用 OK」という理解は危ういものです。「OSS LLM = 何でも自由」とは申し上げません。
ローカルで動かすことには、データが手元で完結するという大きな利点があります。社内コードや顧客情報を外部に送らずに処理できるのは、クラウド AI にはない強みです。ただし、それは裏を返せば 「自己責任の範囲が広がる」 ということでもあります。出力の扱いも、モデルのライセンス順守も、利用者側の責任で確認する必要があります。
商用利用を検討する場合に、私がお伝えできる現実的な手順は次の 3 ステップです。
- モデル開発元の公式条項を確認する(Meta / Mistral AI / Google などの公式ドキュメントとライセンス全文)
- 社内の法務・コンプライアンス部門に相談する
- 必要に応じて、専門の弁護士の方に相談する
私自身、Ollama で動かしたモデルを商用本番運用に乗せた経験はないため、本章は公開情報からの整理と一般的な注意喚起のレベルです。最終判断は、各モデルの公式条項と、社内法務・必要に応じて弁護士の方へ委ねてください。ライセンス条項の詳しい俯瞰は、親記事 LLM ローカル とも整合させていますので、併せてご確認ください。モデルのライセンスは更新されることがあるため、その時点の最新を必ず公式でご確認いただくのが安全です。
11 — つまずきポイント 5 個——serve 起動 / モデル容量 / 量子化選定 / 日本語 / ポート競合
📖 この章で使う用語
- ポート競合:同じ窓口番号を別アプリが先に使っていて衝突する状態。
最後に、私の個人検証で実際に踏んだ落とし穴と、公開情報でよく言及されるつまずきを 5 個、「症状→原因→対処」の形で整理します。先に共有しておけば、同じ穴を避けられます。
つまずき ①:ollama serve が起動していなくて「動かない」
- 症状:
ollama runを打っても応答がない、接続エラーが出る - 原因:サーバー(
ollama serve)が立っていない。Mac ではrunで自動起動する場合もあるが、OS とバージョンで挙動が違う - 対処:別ターミナルで
ollama serveを起動してからrunを打つ。Linux では systemd サービスが動いているかsystemctl status ollamaで確認
つまずき ②:モデル容量でディスク・メモリが足りない
- 症状:
pullの途中でディスクが埋まる、runしたら PC が固まる - 原因:モデル本体は数 GB 〜 数十 GB あり、動かすときにそれ相応のメモリも要る
- 対処:まずは小さめのモデル(量子化版の 7〜8B クラス)から始める。具体的なハードウェア要件の目安は親記事 LLM ローカル へ。使わないモデルは
ollama rmで消す
つまずき ③:量子化タグの選定で迷う
- 症状:同じモデルでもタグが何種類もあって、どれを選べばいいか分からない
- 原因:量子化(モデルを軽くする処理)のレベルが複数あり、サイズと品質のトレードオフがある
- 対処:迷ったら
Q4_K_Mから始めて、品質に不満があれば上げる、という順序が私の個人検証では現実的でした。詳しい選定は親記事 LLM ローカル へ送ります
つまずき ④:英語モデルに日本語を期待してしまう
- 症状:日本語で質問したら、文法が乱れた不自然な日本語が返ってくる
- 原因:英語ベースのモデル(素の Llama 3 など)は、日本語の品質に個体差がある
- 対処:日本語が主体なら、日本語学習に重きを置いた系統を選ぶ。どのモデルが日本語に向くかの俯瞰は親記事 LLM ローカル で整理しています
つまずき ⑤:ポート 11434 が競合する
- 症状:
serveしようとすると「ポートが使われている」とエラーが出る - 原因:すでに Ollama が起動している、または別アプリが 11434 番を占有している(ポート競合)
- 対処:すでに
serve済みなら二重起動の必要はない。どうしても変えたい場合はOLLAMA_HOSTで待ち受けポートを変更する
「絶対これで全部解決する」とは申し上げません——OS・バージョン・PC スペックで状況は変わります。それでも、この 5 つを頭に入れておくと、最初の数回のつまずきはかなり減ると思います。
12 — 非エンジニアのユースケース 5 本——営業 / 事務 / 個人事業主 / 副業ライター / エンジニア志望
📖 この章で使う用語
- ターミナル:CLI を打つ画面。本記事では「文字でコマンドを打つ画面」と同じ意味で使います。
ここまでは操作の話でしたが、最後に「Ollama の操作で、エンジニア以外の方が何を実現できるか」を 5 つの職種別ユースケースで整理します。Before(いまの作業)→ After(Ollama で何が変わるか)→ 所要時間・費用の目安 → 最初の壁、の 4 要素で揃えます。Ollama 固有の「外部に出せないデータをローカルで処理する」「オフラインで動く」という軸に絞って書きます(用途の俯瞰そのものは親記事 LLM ローカル でも扱っているので、本記事は具体的な操作目線です)。
12-1. 営業職:顧客メモのローカル整形
- Before:商談メモを清書したいが、社内規定で「顧客情報の外部 AI 入力は禁止」と言われ、手作業で整えている
- After:Mac で
ollama runを使い、社内ネットワークの外に一切出さずにメモを整形・要約する - 所要時間・費用:初回セットアップ 30 分〜1 時間、以降は 1 件 1〜3 分。Ollama もモデルも無料(PC 代・電気代を除く)
- 最初の壁:ターミナルでの最初のコマンド入力に慣れること、Mac のメモリ容量
営業時代の私だったら、1 日 60 件の訪問で発生する手書きメモの清書に使っていたと思います(仮定)。外に出せないからこそ手作業だった領域が、ローカルなら AI に任せられます。
12-2. 事務職:個人情報を含む議事録の社内整形
- Before:人事情報や個人情報を含む議事録を AI で整形したいが、外部送信が規定で禁止されている
- After:Ollama をローカルで動かし、社内ネットワーク内で完結する形で議事録を整形・要約する
- 所要時間・費用:初回セットアップ 30 分、以降は 1 回 5 分以内。費用は実質ゼロ
- 最初の壁:ターミナル操作の最初の慣れ、社内 IT 部門との事前の合意形成
個人情報を含むため外部 AI が使えなかったケースで、ローカル処理は確かな選択肢になります。
12-3. 個人事業主:取引先メモを外に出さず要約
- Before:取引先メモを管理しているが、契約上「顧客情報を外部サービスに入力しない」誓約があり、AI 活用に踏み出せない
- After:自分の Mac で Ollama を動かし、契約上の機密保持を守りながら要約・整形を進める
- 所要時間・費用:初回セットアップ 1 時間、以降は週次で 30 分程度。費用は実質ゼロ
- 最初の壁:どのモデルを入れるかの判断(俯瞰は親記事へ)、Mac のスペック確認
機密保持の責任が個人に集中する立場だからこそ、外部送信ゼロの運用は安心感が大きく違います。
12-4. 副業ライター:編集部規約前の下書き整形
- Before:取材メモを AI で整形したいが、編集部から「出版前原稿の外部 AI 利用は確認してから」と言われ、踏み出せない
- After:ローカルで Ollama を動かし、外部 AI に原稿を送らない形で下書きを整形する。AI 利用を開示する場合も「ローカル処理である」と併せて伝えられる
- 所要時間・費用:初回セットアップ 1〜2 時間、以降は 1 記事 30 分程度。費用は実質ゼロ
- 最初の壁:日本語生成の品質を体感で確認すること、ターミナル操作への慣れ
「外部 AI に送っていない」という整理が明確だと、編集部との合意形成が組み立てやすくなる場合があります。
12-5. エンジニア志望:API/Python 組み込みを実機で学ぶ
- Before:これから生成AIエンジニアを目指しているが、「API で LLM を呼ぶ」感覚が教科書ベースで掴みづらい
- After:Ollama の REST API(セクション 6)や Python ライブラリ(セクション 7)を実機で叩き、AI をアプリに組み込む感覚を手元で体感する
- 所要時間・費用:初回セットアップ半日、以降は学習目的で週末ごとに数時間。費用は実質ゼロ
- 最初の壁:環境構築(Homebrew / Ollama / Python)、最初のコードを動かすまでの慣れ
これから生成AIエンジニアを目指す方には、ローカルの Ollama で「API を叩く」「Python から呼ぶ」を一度やってみることを、私は個人的におすすめします。クラウド API を課金しながら試す前に、手元で何度も試行錯誤できるのは、学習目的では大きな利点です。未経験からの転職を考えている方は、生成AI 入門 も併せてご参照ください。
ここで 1 点だけ正直にお伝えしておくと、どのユースケースも入口で「ターミナルに最初のコマンドを打つ」という壁があります。「これで誰でもラクになる」とは申し上げません——CLI に慣れるまでの最初の数回は、戸惑いがあると思います。それでも、一度通せば操作はほぼ同じことの繰り返しなので、最初の壁さえ越えれば日常使いに馴染んでいきます。
13 — よくある質問(FAQ)
Q1: Ollama で小説や創作はできますか?
A. 技術的には、ollama pull で日本語対応モデルを入れ、ollama run で短い場面を書かせる動作確認まではできます。ただし私自身は小説生成を評価したわけではなく、出力の品質・センシティブ表現への振る舞い・著作権や投稿先規約・モデルライセンスといった創作特有の論点は、別記事 ローカルLLM 小説の現実 に切り出して公開情報からの整理として扱っています。「ローカルだから何でも自由」とは申し上げません——出力の責任と権利関係は利用者側に残ります。
Q2: Ollama は Windows でも使えますか?
A. 使えます。公式のネイティブインストーラ、または WSL2(Windows の中で Linux を動かす仕組み)経由の 2 ルートがあります。ただし私自身が触ったのは Mac での個人検証で、Windows 手順は公開情報からの整理です。詳細は セクション 2 をご参照ください。
Q3: Ollama の REST API はどこに立ちますか?
A. デフォルトで http://localhost:11434 に立ちます。/api/chat のネイティブ API のほか、/v1/chat/completions の OpenAI 互換エンドポイントもあり、既存の OpenAI SDK コードの宛先を変えるだけで使える設計です。詳細は セクション 6 をご参照ください。
Q4: どのモデルを選べばいいですか?
A. 本記事は「Ollama の操作」に絞っているため、入れる・消す・カスタムの管理は セクション 5 で扱います。どのモデルが向くか(Llama / Gemma / 日本語モデル等)の俯瞰や、ハードウェア要件・量子化レベルの詳細は、親記事 LLM ローカル で整理しています。
Q5: 黒い画面(CLI)が苦手です。GUI で使えますか?
A. 使えます。Open WebUI を Docker でローカルに立てれば、ブラウザの ChatGPT 風画面から Ollama を操作できます。最初から画面完結したい場合の LM Studio という別ツールは、親記事の構築ツール章で扱っています。詳細は セクション 8 をご参照ください。
Q6: ローカルで動かしたモデルを商用利用してよいですか?
A. 「絶対に大丈夫」とは申し上げません。商用利用ライセンスはモデルごとに異なります(Llama Community License / Apache 2.0 / Gemma Terms 等)。モデル開発元の公式条項を確認し、社内法務・コンプラ部門、必要に応じて弁護士の方へご相談ください。詳細は セクション 10 をご参照ください。
出典
- Ollama 公式サイト(取得:2026-06-02)
- Ollama 公式ドキュメント(GitHub)(取得:2026-06-02)
- Ollama REST API ドキュメント(取得:2026-06-02)
- Ollama OpenAI 互換 API ドキュメント(取得:2026-06-02)
- Ollama Python ライブラリ(取得:2026-06-02)
- Open WebUI 公式ドキュメント(取得:2026-06-02)
- Llama 公式(Meta)(取得:2026-06-02)
- Google Gemma 公式(取得:2026-06-02)
訂正・最新情報のご指摘について:本記事の誤り・最新情報のご指摘は send@bon-bon-tools.com までお知らせください。Ollama はバージョン更新が早く、コマンドや挙動が変わる領域です。各コマンドの最新仕様は Ollama 公式で必ず併せてご確認ください。
関連記事
- LLM ローカル — 本記事の親ハブ。ハード要件・モデル選び・量子化・日本語モデルの詳細はこちら
- ローカルLLM 小説の現実 — 兄弟スポーク。小説・創作用途を深掘り
- LLM とは — LLM 概念ハブ(クラウド主軸)
- RAG とは — API/Python 組み込みの発展先(検索拡張生成)
- AIエージェント 作り方 — ローカル LLM をエージェント推論に使う発展先
- AI コードレビュー — Code Llama / DeepSeek Coder でのレビュー用途
- AWS Bedrock — エンタープライズ要件のクラウド経路
- Claude 使い方 — 業務本番運用クラウド API
- ChatGPT 始め方 — 業務本番運用クラウド API
- 生成AI 入門 — 未経験からの学習プラン
- Claude Skills を自作する——SKILL.md の書き方から業務 3 系統・チーム配布まで「作る側」を実演
- Vibe coding とは——感覚で AI に書かせ、人間はレビューと方向づけに回る新スタイルを業務実践視点で整理
- Codex CLI とは——OpenAI 系の Claude Code 相当を、両方触った現役の生成AIエンジニアが比較しながら整理しました
- Vertex AI とは——Google Cloud の AI 基盤。Gemini と Claude on Vertex の二本柱・料金・3 基盤比較を業務試用視点で整理
- MCP サーバー 作り方——Python/TypeScript SDK で自作し本番運用まで「作る側」の完全マニュアル
- Gemini CLI 使い方——Google のターミナル型 AI コーディングを 3 ツール比較で整理
- Gemini API 使い方——コードから Gemini を呼ぶ最小サンプルを Python・GAS で