Ollama 使い方｜入れる→動かす→管理→API組み込みを通しで

Q: Ollama で小説や創作はできますか？

技術的には、`ollama pull` で日本語対応モデルを入れ、`ollama run` で短い場面を書かせる動作確認まではできます。出力の品質・センシティブ表現への振る舞い・著作権や投稿先規約・モデルライセンスといった創作特有の論点は、別記事 [ローカルLLM 小説の現実](/blog/llm-local-shousetsu/) に切り出して扱っています。「ローカルだから何でも自由」とは申し上げません——出力の責任と権利関係は利用者側に残ります。拒否の少ない「検閲なし」系モデルという選択肢の仕組みと責任は [ローカルLLM 検閲なしとは](/blog/llm-local-kenetsu-nashi/) で扱っています。

Q: Ollama の REST API はどこに立ちますか？

デフォルトで `http://localhost:11434` に立ちます。`/api/chat` のネイティブ API のほか、`/v1/chat/completions` の OpenAI 互換エンドポイントもあり、既存の OpenAI SDK コードの宛先を変えるだけで使える設計です。詳細は [セクション 6](#sec-6) をご参照ください。

Q: どのモデルを選べばいいですか？

本記事は「Ollama の操作」に絞っているため、入れる・消す・カスタムの管理は [セクション 5](#sec-5) で扱います。どのモデルが向くか（Llama / Gemma / 日本語モデル等）の俯瞰や、ハードウェア要件・量子化レベルの詳細は親記事 [LLM ローカル](/blog/llm-local/) で整理しています。

「Ollamaを入れたいけれど、コマンド・モデル・APIの話が一度に出てきて迷う」——最初は、どこまで覚えれば1回動くのかが見えにくいと思います。私は MacBook Pro でOllamaを動かし、普段使うクラウドAPIと操作の違いを確かめてきました。

結論から言うと、Ollama は「入れる→動かす→管理する→組み込む」の 4 段階で覚えるのが筋——というのが、Mac で触りクラウド API と毎日比べている私の感覚です。本記事は OS別インストールから API / Python 組み込み・GUI・つまずきどころまで、道具の操作に絞って整理します。

最短で「自分の PC で 1 回動かしたい」方は、OS別インストールと基本コマンドから読み始めれば、本日中に最初の一歩が踏めます。ハード要件やどのモデルを選ぶかの全体像は、親記事 LLM ローカルをご覧ください。

Ollama の全体像｜「入れる→動かす→管理→組み込む」の4段階と本記事の守備範囲

📖 用語：ローカル LLM ＝自分の PC で動かす LLM（クラウド AI ＝レンタル車、ローカル LLM ＝自家用車のイメージ。詳しくは LLM ローカル）。LLM（大規模言語モデル）＝ ChatGPT や Claude の中身、文章を予測する装置（詳しくは LLM とは）。

Ollama は 「入れる→動かす→管理する→組み込む」の 4 段階 で覚えるのが、いちばん遠回りの少ない道筋です。新しいコマンドが次々に出てきても「これは 4 段階のどこの話か」を確かめれば迷いません。

入れる：OS に合わせて本体をインストールする（OS別インストール）
動かす：ollama run でモデルを 1 回動かして手触りを掴む（はじめての1体験・基本コマンド）
管理する：モデルを入れる・消す・自分用にカスタムする（モデル管理）
組み込む：REST API / Python から自分のアプリに繋ぐ（REST API・Python から呼ぶ）

本記事は Ollama という 「道具の操作」一点に絞ります。Mac でのセットアップ・CLI 操作・pull と動作確認・REST API / Python の呼び出し設計は、自分で触った範囲としてお伝えします。Windows / Linux / Ubuntu は私自身は Mac で動かしただけなので、公式の案内に沿って手順を紹介します。普段の業務でメインに使うのはクラウド API（Anthropic / OpenAI / Google）です。

一方、ハードウェア要件（RAM / VRAM / GPU）、どのモデルを選ぶか、量子化レベルの選定、日本語モデルの俯瞰は親記事 LLM ローカルへ送り、小説・創作用途はローカルLLM 小説の現実で別建てしています。なお Ollama はバージョン更新が早く、本記事のコマンド・挙動は 2026 年 6 月時点のものです。最新の仕様は Ollama 公式（ollama.com）で必ず併せてご確認ください。

Ollama とは＆OS別インストール——Mac / Windows / Linux / Ubuntu

📖 用語：CLI ＝文字でコマンドを打って指示する画面（営業時代の私は「真っ黒な怖い画面」だと思っていました）。Homebrew ＝ macOS のアプリ管理ツール。WSL2 ＝ Windows の中で Linux を動かす仕組み。systemd ＝ Linux でアプリを常駐サービスとして動かす仕組み。ポート 11434 ＝ Ollama が API を受け付ける窓口番号。

Ollama は、手元の PC で OSS の LLM を動かすための CLI ベースの道具です。裏では llama.cpp という推論エンジンが動き、モデル名を指定するだけでダウンロードから実行までやってくれます。さらに起動すると裏で REST API がデフォルトで http://localhost:11434 に立ち上がる——この性質が後半の組み込みに効いてきます。

以下、OS別の手順です。私が自分で動かしたのは Mac で、他は公式の案内に沿います。「自分の PC で動くスペックか」のハードウェア要件は親記事 LLM ローカルへ。

Mac（Apple Silicon）でのインストール

Mac（Apple Silicon の M シリーズ）が、私が実際に動かした環境です。Homebrew が入っていれば 1 行で入ります。

# Mac M シリーズ前提（Apple Silicon）
brew install ollama

Homebrew を使わない場合は公式サイトから Mac 用インストーラ（.dmg）を導入する方法もありますが、私の範囲では Homebrew 経由が更新（brew upgrade）まで含めて管理がラクでした。

Apple Silicon Mac は Metal（Apple の GPU を使う仕組み）を Ollama が自動利用するため、特別な設定なしで GPU 加速が効き、「入れたらそのまま速い」状態で動き始めました。インストール後、サーバー起動は次の 1 行です。

# Ollama を裏で待機させる（サーバー起動）
ollama serve

このコマンドの意味ははじめての1体験で噛み砕きます。ここでは「お店の開店準備が整う」とだけ。

なおローカル LLM の体感は統合メモリの量でほぼ決まります。何 GB を選べばいいかはローカルLLM 向け Mac の選び方に予算・用途別でまとめました。

Windows でのインストール

Ollama 公式によると、Windows には 2 ルートあります。

ネイティブインストーラ（.exe）：ollama.com から落として実行。スタートメニューから起動してバックグラウンド常駐し、コマンドプロンプトや PowerShell から ollama run を打ちます。
WSL2 経由：Windows の中の Linux で Linux 版を動かす方法。すでに WSL2 で開発環境を組んでいるなら既存ワークフローに馴染みます。

どちらを選ぶかは既存の開発環境次第です。最新の対応状況は Ollama 公式でご確認ください。

Linux でのインストール

Ollama 公式が案内している標準的な方法は、インストールスクリプトを 1 行で実行するものです。

# Linux 公式インストールスクリプト
curl -fsSL https://ollama.com/install.sh | sh

このスクリプトは Ollama 本体を入れたうえで、systemd のサービスとして登録するのが特徴です。Mac の ollama serve を毎回手で打つのと違い、Linux では PC 起動時に自動で常駐します。なお | sh 形式が不安なら、スクリプトを一度ダウンロードして中身を読んでから実行する進め方もあります。

Ubuntu での補足

Ubuntu は Linux の一種なので前述の手順がそのまま使えます。よく触れられる注意点は 2 つ。1 つ目は systemd サービスの起動確認です。

# Ubuntu/Linux：Ollama サービスの稼働確認
systemctl status ollama

2 つ目は NVIDIA GPU のドライバです。Ubuntu + NVIDIA GPU では推論に対応ドライバの導入が前提になり、認識されないと CPU だけで動いて速度が落ちます。導入後に GPU が使われているかを確認しましょう（確認方法は運用・設定で扱う ollama ps）。GPU 要件の詳細は親記事 LLM ローカルへ。

インストール確認（OS共通）

どの OS でも、入った直後の疎通チェックは共通です。次の 2 つで確認できます。

# バージョン表示（インストールできているか）
ollama --version

# 導入済みモデル一覧（最初は空でOK）
ollama list

ollama --version でバージョンが表示され、ollama list がエラーなく（最初は空の表で）返れば成功です。これで「入れる」段階が完了。次は実際にモデルを 1 つ動かします。

はじめて動かす｜`ollama run` で5分体験と、日常で使う基本コマンドの地図

📖 用語：serve ＝ Ollama を裏で待機させる起動コマンド（お店の「開店準備」）。pull ＝モデル本体を手元にダウンロードする操作（「在庫を取り寄せる」）。モデル ＝文章を生成する LLM 本体（Llama 3 や Gemma など、名前で指定）。

まず Mac M シリーズで実際に動かす最小動線を 5 ステップで。各コマンドが「お店でいう何にあたるか」を添えて整理します。

ステップ ①：serve でサーバーを起動する

最初に Ollama を裏で待機させます。

# Ollama を裏で待機させる（開店準備）
ollama serve

serve は「開店準備」で、Ollama がリクエストを受け付けられる状態になります。Mac では ollama run を打った時点で自動起動する場合もあります（OS・バージョン依存）。うまく動かないときは、まずこの serve が走っているかを疑うのが私の定番チェックでした。

ステップ ②：pull でモデルを取り寄せる

次に、動かしたいモデルを手元にダウンロードします。

# Llama 3 を手元に取り寄せる（量子化版、数 GB）
ollama pull llama3

pull は「在庫を取り寄せる」操作です。初回は数 GB を回線越しに落とすため数分〜十数分かかりますが、一度落とせば以降はディスクから即起動します。どのモデルを選ぶか（Llama / Gemma / Qwen など）は親記事 LLM ローカルへ。ここではまず Llama 3 を 1 つ落とします。

ステップ ③：run で対話する

ダウンロードが終わったら、対話を始めます。

# Llama 3 と対話する
ollama run llama3

>>> が出たら自由に質問を打てます。私の手元（MacBook Pro M シリーズ + Llama 3 8B 量子化版）では、応答開始まで 1〜2 秒、出力速度は毎秒 20〜40 トークン程度でした。クラウド AI に慣れていると一瞬「遅いかな」と感じますが、量子化版の小型モデルなら簡単な整形や読み解きには十分です。なお pull を省いて ollama run llama3 でも、手元に無ければ自動ダウンロードしてから対話に入ります。慣れると私はこの 1 行で済ませることが多くなりました。

ステップ ④：機内モードでも動くことを確かめる

一度モデルを落としてしまえば、インターネットを切っても動きます。私自身、機内モードの MacBook Pro で Llama 3 に文章整形やコードの読み解きをさせたことがあり、「ネットがない時間に AI を使いたい」場面で確かな安心感でした。クラウド API では味わえない手触りです。

ステップ ⑤：`/bye` で抜ける

対話を終えるときは、プロンプトに /bye と打つか、Ctrl + D で抜けます。

# 対話を終了する
>>> /bye

ここまでを 1 度通せば、Ollama の手触りはほぼ掴めます。次は日常的に使うコマンドの地図です。

基本コマンド総覧——run / list / ps / show / cp / stop

📖 用語：ps ＝いま動いているモデルの一覧表示（「稼働中の機械の点検表」）。

日常的に使う CLI コマンドを一枚の地図にします。実際に覚えるのは多くありません。よく使うのは次の 6 つです。

コマンド	何をするか
`ollama run <model>`	モデルと対話する／単発で質問する
`ollama list`	手元に入っているモデルの一覧を見る
`ollama ps`	いま動いている（メモリに載っている）モデルを見る
`ollama show <model>`	モデルの情報（パラメータやテンプレート）を見る
`ollama cp <元> <新名>`	既存モデルを別名で複製する
`ollama stop <model>`	動いているモデルを止めて、メモリを解放する

具体的な使い方を、いくつか実行例で見てみます。

# 手元のモデル一覧（名前・サイズ・更新日時が表で出る）
ollama list

# いま動いているモデルと、CPU/GPU どちらで動いているかを見る
ollama ps

# モデルの中身の情報を見る（テンプレートやパラメータ）
ollama show llama3

# 1 行だけ質問して、すぐ結果を受け取る（対話に入らない単発実行）
ollama run llama3 "この文章を3行に要約して: ..."

私の出番が多かったのは ollama list（何を入れたか忘れがち）と ollama ps（メモリを食っていないかの点検）でした。ollama ps は後述の常駐設定（運用・設定）と合わせて見ると、メモリの使われ方が立体的に分かります。ollama cp は次章の「自分用モデル」を作る前段としても使えます。ちなみに、この ollama run は 2026 年 1 月から画像生成モデルも呼べるようになりました（macOS のみ・試験的）。文章と同じ 1 行で絵が出る範囲と、そこから先で別の道具が要る境界線はローカルLLM 画像生成にまとめています。次はモデルそのものの管理です。

モデル管理｜pull / rm で入れ消し、Modelfile で自分用モデル、保存場所の変更

📖 用語：Modelfile ＝自分用モデルの設定を書くレシピファイル（「料理の作り置きレシピ」）。量子化タグ（Q4_K_M 等） ＝モデルを軽くした版の目印（選び方は親記事へ）。保存場所（~/.ollama/models） ＝落としたモデルが置かれるフォルダ（「倉庫の住所」）。

モデルを「入れる・消す・カスタムする・どこに保存されるか」の管理 4 点を扱います。どのモデルを選ぶか（Llama / Mistral / Gemma / Qwen / DeepSeek / Phi の俯瞰、日本語モデルの選び方）や量子化レベルの選定は親記事 LLM ローカルへ送り、本章は「Ollama での管理操作」に限定します。

モデルの入手と削除（pull / rm）

モデルの入手は pull、削除は rm です。ディスクは有限なので、この 2 つはセットで覚えておくと安心です。

# モデルを取り寄せる（タグでサイズや種類を指定）
ollama pull llama3:8b
ollama pull gemma:7b

# 使わなくなったモデルを消す（ディスクを空ける）
ollama rm gemma:7b

llama3:8b の :8b がタグで、コロンの後ろでパラメータ規模（8b = 80 億）や量子化版の種類を指定できます。省くと標準版が落ちます。Q4_K_M のような量子化タグの読み方や選び方は親記事 LLM ローカルで扱っています。ここでは「タグでサイズと種類を指定できる」とだけ押さえれば十分です。

新しめの話題を2つ添えます（いずれも取得：2026-07-19）。1つ目、検索の増えている Gemma 4 は Ollama のライブラリに並んでおり、テキストと画像を扱えるマルチモーダル対応・E2B〜31B の複数サイズが案内されています（出典：ollama.com/library/gemma4）。ollama pull gemma4 のようにタグ指定の作法はこの節のままです。2つ目、gemma4:31b-cloud のような -cloud タグは「Ollama のクラウド」でモデルを動かすサブスクリプション向けの仕組みで、手元のメモリに載らない大きいモデルをクラウド実行する選択肢です（出典：gemma4:31b-cloud）。「ローカルで完結させたいから Ollama」という方は、-cloud タグを選ぶと手元処理ではなくなる点だけ注意してください。料金・提供条件は変わり得るので最新は公式で確認を。

Modelfile で自分用モデルを定義する

Ollama の面白いところは、自分用のカスタムモデルをレシピで定義できる 点です。そのレシピが Modelfile（「料理の作り置きレシピ」）。「いつも丁寧な日本語で、結論から答える」といったキャラクターを、システムプロンプト（AI の前提となる指示）として固定したモデルを作れます。

# Modelfile（ファイル名: Modelfile）
# ベースにするモデルを指定
FROM llama3

# AI の前提となる指示（システムプロンプト）を固定する
SYSTEM """
あなたは丁寧な日本語で、結論から先に答えるアシスタントです。
専門用語には、かならず一言の補足を添えてください。
"""

# 応答のばらつき具合を調整するパラメータ（低いほど安定）
PARAMETER temperature 0.6

この Modelfile から、自分用モデルを作るのが ollama create です。

# Modelfile から自分用モデル「my-assistant」を作る
ollama create my-assistant -f Modelfile

# 作ったモデルを動かす
ollama run my-assistant

これは業務で API を叩くときの「システムプロンプトを設計して役割を固定する」と同じ発想です。私は OpenAI / Anthropic の API で日常的にやっていますが、Ollama では Modelfile としてモデル自体に焼き付けられるのが面白いところ。毎回同じ指示を打つ手間が省けるので、用途が決まっているなら作り置きが効きます。

モデルの保存場所

落としたモデルは Mac / Linux では ~/.ollama/models 配下に保存されます（「倉庫の住所」）。保存場所は OS で異なりますが、いずれも環境変数 OLLAMA_MODELS で変更できます。

# 保存先を別ドライブに変えたいとき（例）
export OLLAMA_MODELS=/Volumes/External/ollama-models

外付けディスクにモデルを逃がしたい場合などに使えます。環境変数は運用・設定でまとめます。次はいよいよ「組み込む」段階です。

アプリに組み込む｜REST API・OpenAI 互換エンドポイント・Python・GUI

📖 用語：REST API ＝プログラム同士がやり取りする標準的な窓口（「お店のレジの注文票」）。localhost ＝自分の PC 自身を指すアドレス（外に出ず PC 内で完結）。OpenAI 互換エンドポイント ＝ OpenAI 用コードの宛先だけ変えて Ollama に向けられる窓口（「同じ注文票が別の店でも通る」）。ストリーミング ＝回答を書きながら少しずつ返す方式。

ここからが「アプリに組み込む」段階です。Ollama は起動すると REST API をデフォルトで http://localhost:11434 に立てます。localhost は「自分の PC 自身」なので、この API を叩いている限りデータは PC の外に出ません。

REST API は「お店のレジの注文票」のようなもので、決まった書式で注文すると決まった書式で返ってきます。まずは curl（HTTP リクエストを送る道具）で叩きます。

# /api/chat（Ollama ネイティブの対話 API）を叩く
curl http://localhost:11434/api/chat -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "ローカルLLMの利点を3つ、簡潔に教えてください" }
  ],
  "stream": false
}'

messages に会話を渡すと応答が JSON で返ります。"stream": false は一括、true は ストリーミング（書きながら少しずつ返す、ChatGPT で文字がパラパラ出るあの挙動）です。

OpenAI 互換エンドポイントという「宛先だけ変える」設計

ここが、業務で API を叩く人間として「よくできているな」と感じた点です。Ollama はネイティブの /api/chat とは別に、OpenAI 互換エンドポイント /v1/chat/completions も用意しています。「OpenAI 用コードの宛先だけ変えれば、そのまま Ollama に向けられる」窓口です。

# OpenAI 互換エンドポイント（/v1/chat/completions）を叩く
curl http://localhost:11434/v1/chat/completions -d '{
  "model": "llama3",
  "messages": [
    { "role": "user", "content": "こんにちは" }
  ]
}'

書式が OpenAI の API とほぼ同じです。これは実用的で、「クラウド API で組んだコードの向き先だけをローカルに切り替えてテストする」——本番はクラウド API、開発中の検証は手元の Ollama、という設計が組みやすくなります。迷ったら新規に Ollama 前提ならネイティブの /api/chat、既存の OpenAI コードを流用するなら /v1/chat/completions という使い分けが分かりやすいです。この構成をコーディング用途に進めた実例——VS Code の Continue 拡張と組む設定や実用度の見極め——はVSCode×Ollama のローカル LLM コーディングで扱っています。次は Python から呼びます。

Python から呼び出す——公式 ollama ライブラリ＆OpenAI SDK 互換

📖 用語：ライブラリ ＝よく使う機能をまとめた部品集（pip install で取り寄せる）。base_url ＝ API の宛先アドレス（localhost に変えると Ollama に向く）。

Python からの呼び出しは 2 系統。(a) 公式 ollama ライブラリ、(b) openai ライブラリ（OpenAI SDK）の宛先を Ollama に向ける方法です。順に最小サンプルを見ます。

公式 ollama ライブラリ

いちばん素直なのが公式の ollama ライブラリで、pip install ollama で取り寄せます。

# 公式 ollama ライブラリでの最小呼び出し
# pip install ollama でインストール
import ollama

response = ollama.chat(
    model="llama3",
    messages=[
        {"role": "user", "content": "ローカルLLMのメリットを3つ教えてください"},
    ],
)

# 応答テキストを取り出して表示
print(response["message"]["content"])

これだけで Python からローカル LLM を呼べます。messages の渡し方はクラウド AI の API とよく似ています。

OpenAI SDK の宛先を Ollama に向ける

もう 1 系統が、openai ライブラリの base_url（宛先）を Ollama に向ける方法です。前述の OpenAI 互換エンドポイントを Python 側から使う形です。

# OpenAI SDK の宛先を Ollama（localhost）に向ける
# pip install openai でインストール
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",  # ここを Ollama に向ける
    api_key="ollama",                       # ローカルなのでダミーで可
)

response = client.chat.completions.create(
    model="llama3",
    messages=[
        {"role": "user", "content": "こんにちは"},
    ],
)

print(response.choices[0].message.content)

ポイントは base_url の 1 行だけ。すでに OpenAI SDK でアプリを組んでいるなら、宛先を変えるだけでローカルに切り替えられます。

この 2 系統が動けば、RAG やエージェント、業務スクリプトに組み込む土台ができた状態です。ここから先の本格的な組み込み設計（RAG やエージェント）は本記事の範囲を超えるので、RAG は RAG とは、エージェントは AIエージェント作り方をご覧ください。

GUI で使う——Open WebUI で「黒い画面が苦手」を解決

📖 用語：GUI ＝画面のボタンやマウスで操作する方式（CLI の対義）。Open WebUI ＝ Ollama に被せる ChatGPT 風のブラウザ画面ツール。Docker ＝アプリを箱詰めして動かす仕組み（「お弁当箱ごと持ち運ぶ」）。

「黒い画面に文字を打つ」こと自体に抵抗がある方向けに、Ollama に GUI のフロントエンドをかぶせる選択肢を。最初から画面完結したい方向けの LM Studio は親記事 LLM ローカルへ送り、本章は Ollama に画面を足す主な選択肢 Open WebUI を扱います（なお LM Studio の開発元からは、チャットの一歩先の「作業を任せる」AI エージェント別アプリ LM Studio Bionic も 2026 年 7 月に出ています）。

Open WebUI はブラウザで使える ChatGPT 風の画面ツールで、起動中の Ollama を自動で見つけて繋がります。チャット・モデル切り替え・会話履歴の管理が画面から行え、導入は Docker を使う方法が公式でよく案内されています。

# Open WebUI を Docker でローカルに立てる
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

ブラウザで http://localhost:3000 を開くと ChatGPT に似た画面が出て、あとはモデルを選んでチャットするだけ——黒い画面を一切触らずにローカル LLM と対話できます。

こうした GUI が「裏で Ollama に繋ぐ」形で成り立つのは、Ollama が REST API を立てているからです。Open WebUI に限らず、被せる GUI はこの API 経由で動くと理解しておくと、ツールが変わっても応用が効きます。最新の導入手順は Open WebUI 公式でご確認ください。

運用・注意・トラブル｜環境変数とGPU確認・リモート公開とライセンスのYMYL・つまずき5選

📖 用語：環境変数 ＝アプリの動きを外から指定する設定値（「機械の設定ダイヤル」）。KEEP_ALIVE ＝モデルをメモリに留めておく時間。商用利用ライセンス ＝モデルを商売で使ってよいかの法的条件（モデルごとに異なる）。ポート競合 ＝同じ窓口番号を別アプリが先に使っていて衝突する状態。

実運用で効く設定を横断的に。Ollama の挙動の多くは 環境変数（「機械の設定ダイヤル」）で調整できます。代表的なものは次の 3 つです。

OLLAMA_HOST：Ollama が待ち受けるアドレス。デフォルトは localhost（自分の PC 内だけ）
OLLAMA_MODELS：モデルの保存先（モデル管理で前述）
OLLAMA_KEEP_ALIVE：モデルをメモリに留めておく時間。短くすればメモリが空きやすく、長くすれば再起動が速い

# モデルをメモリに 30 分留めておく（再呼び出しが速くなる）
export OLLAMA_KEEP_ALIVE=30m

ollama ps（基本コマンド）と合わせて見ると、モデルがメモリに載っているか、CPU と GPU のどちらで動いているかを確認できます。Mac の GPU（Metal）や Linux の NVIDIA GPU を点検するときの、私の定番チェックでした。

リモート公開（OLLAMA_HOST=0.0.0.0）の注意——YMYL

ここは安全に関わるので慎重に。OLLAMA_HOST=0.0.0.0 で LAN や外部からアクセスできるようにする方法が紹介されることがありますが、無防備に使うとセキュリティリスクになります。0.0.0.0 で待ち受けると、同じネットワーク上の他端末（場合によっては外部）から認証なしで叩けてしまう可能性があり、Ollama の API には標準で強い認証が組み込まれているわけではないためです。公開する場合はファイアウォール・VPN・リバースプロキシでの認証付与などネットワーク側の保護を併せて検討し、最終的には社内の情シス・セキュリティ部門にご相談ください。私自身は外部公開して常用した経験はないため、一般的な注意点として書きます。手元の PC 内（localhost）で完結させている限りは外に出ません。

ライセンス・データの扱い——商用利用前の必須チェック（YMYL）

Ollama は道具であって、実際に動かすモデルそれぞれに別々のライセンスがあります。たとえば Llama 系は Llama Community License、Mistral の一部は Apache 2.0、Gemma は Gemma Terms of Use と条項が違います。「ローカルで動かしているから自由」「OSS だから何でも商用 OK」という理解は危ういものです。

ローカルは、社内コードや顧客情報を外部に送らずに処理できるのがクラウド AI にない強みですが、裏を返せば 「自己責任の範囲が広がる」 ということ。出力の扱いもライセンス順守も、利用者側の責任で確認が要ります。商用利用を検討する場合の現実的な手順は次の 3 ステップです。

モデル開発元の公式条項を確認する（Meta / Mistral AI / Google などの公式ドキュメントとライセンス全文）
社内の法務・コンプライアンス部門に相談する
必要に応じて、専門の弁護士の方に相談する

私自身は商用本番運用に乗せた経験はないため、一般的な注意点として書きます。最終判断は各モデルの公式条項と社内法務・必要に応じて弁護士の方へ委ねてください。ライセンス条項の俯瞰は親記事 LLM ローカルとも整合させています。ライセンスは更新されることがあるため、最新を必ず公式でご確認ください。

つまずきポイント 5 個——serve / 容量 / 量子化 / 日本語 / ポート競合

私が実際に踏んだ落とし穴とよく挙げられるつまずきを、「症状→原因→対処」で 5 個。

ollama serve 未起動で「動かない」：run しても応答がない・接続エラー → サーバーが立っていない（Mac では run で自動起動する場合もあるが OS・バージョン依存）→ 別ターミナルで ollama serve してから run。Linux は systemctl status ollama で確認。
容量でディスク・メモリ不足：pull 途中でディスクが埋まる・run で PC が固まる → モデルは数 GB〜数十 GB あり相応のメモリも要る → まず小さめ（量子化版の 7〜8B クラス）から。要件の目安は親記事 LLM ローカル、不要モデルは ollama rm。
量子化タグの選定で迷う：タグが何種類もありどれか分からない → 量子化レベルが複数あり、サイズと品質のトレードオフ → 迷ったら Q4_K_M から始め、不満なら上げる。詳しい選定は親記事 LLM ローカル。
英語モデルに日本語を期待：文法が乱れた不自然な日本語が返る → 英語ベース（素の Llama 3 など）は日本語の品質に個体差 → 日本語が主体なら日本語学習に重きを置いた系統を選ぶ。俯瞰は親記事 LLM ローカル。
ポート 11434 が競合：serve で「ポートが使われている」 → すでに Ollama が起動、または別アプリが 11434 を占有 → 二重起動は不要。変えたい場合は OLLAMA_HOST で待ち受けポートを変更。

OS・バージョン・PC スペックで状況は変わりますが、この 5 つを頭に入れておくと最初の数回のつまずきはかなり減ります。

Ollama が効くのは「外部に出せないデータをローカルで処理する」場面

Ollama 固有の価値は、社内ネットワークの外に一切出さず、オフラインで AI を動かせること。だから効くのは「外部 AI に送れないデータ」の整形・要約です（用途の俯瞰は親記事 LLM ローカル、本記事は操作目線）。

社内規定で外部AIへ入力できない顧客情報、人事文書、出版前原稿などは、ollama run で手元だけの下処理ができます。扱う前に社内ルールや契約を確認し、最終判断は人が行う前提です。出版前原稿から実際に物語を作る流れは、ローカルLLMで小説を書く記事へ分けました。

エンジニア志望なら、REST API（REST API）や Python ライブラリ（Python から呼ぶ）を実機で叩いて感覚を体感するのがおすすめです。クラウド API を課金しながら試す前に何度も試行錯誤できるのは学習上の利点です（生成AI 入門）。ただしどの使い方も入口で「ターミナルに最初のコマンドを打つ」壁があります。CLI に慣れるまでの最初の数回は戸惑うはずですが、一度通せば操作はほぼ繰り返しなので、最初の壁さえ越えれば日常使いに馴染みます。

よくある質問（FAQ）

Q1: Ollama で小説や創作はできますか？

A. 技術的には、ollama pull で日本語対応モデルを入れ、ollama run で短い場面を書かせる動作確認まではできます。出力の品質・センシティブ表現への振る舞い・著作権や投稿先規約・モデルライセンスといった創作特有の論点は、別記事ローカルLLM 小説の現実に切り出して扱っています。「ローカルだから何でも自由」とは申し上げません——出力の責任と権利関係は利用者側に残ります。拒否の少ない「検閲なし」系モデルという選択肢の仕組みと責任はローカルLLM 検閲なしとはで扱っています。

Q2: Ollama は Windows でも使えますか？

A. 使えます。公式のネイティブインストーラ、または WSL2（Windows の中で Linux を動かす仕組み）経由の 2 ルートがあります。私自身が触ったのは Mac ですが、公式の案内では Windows もこの 2 ルートで導入できます。詳細は OS別インストールをご参照ください。

Q3: Ollama の REST API はどこに立ちますか？

A. デフォルトで http://localhost:11434 に立ちます。/api/chat のネイティブ API のほか、/v1/chat/completions の OpenAI 互換エンドポイントもあり、既存の OpenAI SDK コードの宛先を変えるだけで使える設計です。詳細は REST API で叩くをご参照ください。

Q4: どのモデルを選べばいいですか？

A. 本記事は「Ollama の操作」に絞っているため、入れる・消す・カスタムの管理はモデル管理で扱います。どのモデルが向くか（Llama / Gemma / 日本語モデル等）の俯瞰や、ハードウェア要件・量子化レベルの詳細は、親記事 LLM ローカルで整理しています。

Q5: 黒い画面（CLI）が苦手です。GUI で使えますか？

A. 使えます。Open WebUI を Docker でローカルに立てれば、ブラウザの ChatGPT 風画面から Ollama を操作できます。最初から画面完結したい場合の LM Studio という別ツールは、親記事の構築ツール章で扱っています。詳細は GUI で使うをご参照ください。

Q6: ローカルで動かしたモデルを商用利用してよいですか？

A. 「絶対に大丈夫」とは申し上げません。商用利用ライセンスはモデルごとに異なります（Llama Community License / Apache 2.0 / Gemma Terms 等）。モデル開発元の公式条項を確認し、社内法務・コンプラ部門、必要に応じて弁護士の方へご相談ください。詳細はライセンス・データの扱いをご参照ください。

出典

Ollama 公式サイト（取得：2026-06-02）
Ollama 公式ドキュメント（GitHub）（取得：2026-06-02）
Ollama REST API ドキュメント（取得：2026-06-02）
Ollama OpenAI 互換 API ドキュメント（取得：2026-06-02）
Ollama Python ライブラリ（取得：2026-06-02）
Open WebUI 公式ドキュメント（取得：2026-06-02）
Llama 公式（Meta）（取得：2026-06-02）
Google Gemma 公式（取得：2026-06-02）

訂正・最新情報のご指摘について：本記事の誤り・最新情報のご指摘は send@bon-bon-tools.com までお知らせください。Ollama はバージョン更新が早く、コマンドや挙動が変わる領域です。各コマンドの最新仕様は Ollama 公式で必ず併せてご確認ください。

LM Studio 使い方——ターミナル不要の GUI でローカル LLM を入れる→モデル管理→OpenAI 互換 API まで、Ollama との使い分けも整理
LLM ローカル — 本記事の親ハブ。ハード要件・モデル選び・量子化・日本語モデルの詳細はこちら
日本語ローカルLLM おすすめ — 兄弟スポーク。日本語モデルの用途別の選び方・ELYZA/Swallow/Qwen・Mac の最小構成
ローカルLLM 小説の現実 — 兄弟スポーク。小説・創作用途を深掘り
ローカルLLM 文章校正の現実 — 兄弟スポーク。社外秘を手元で直す校正用途・プロンプトの型・クラウドとの使い分け
LLM とは — LLM 概念ハブ（クラウド主軸）
RAG とは — API/Python 組み込みの発展先（検索拡張生成）
AIエージェント作り方 — ローカル LLM をエージェント推論に使う発展先
AI コードレビュー — Code Llama / DeepSeek Coder でのレビュー用途
AWS Bedrock — エンタープライズ要件のクラウド経路
Claude 使い方 — 業務本番運用クラウド API
ChatGPT 始め方 — 業務本番運用クラウド API
ローカルLLM 画像生成（Ollama で足りる範囲と ComfyUI が要る境界線） — ollama run で画像も出せるようになった話と、その先の線引き
Macでローカル画像生成は実用か（ComfyUI×FLUX） — 同じ Apple Silicon Mac で「画像」も。Ollama とは別系統の ComfyUI×FLUX を M1 Max で実測した実用ライン
Macでローカル動画生成は実用か（Wan2.2 実測） — 同じ Mac で「動画」も。Wan2.2 を実機で実測し、量産できる現実ラインを切り分け
Style-Bert-VITS2 使い方 — 同じ「手元で動かす」系統の音声合成 OSS。インストールと AivisSpeech との違い
Claude Skills を自作する——SKILL.md の書き方から業務 3 系統・チーム配布まで「作る側」を実演
Vibe coding とは——感覚で AI に書かせ、人間はレビューと方向づけに回る新スタイルを業務実践視点で整理
Codex CLI とは——OpenAI 系の Claude Code 相当を、両方触った現役の生成AIエンジニアが比較しながら整理しました
Vertex AI とは——Google Cloud の AI 基盤。Gemini と Claude on Vertex の二本柱・料金・3 基盤比較を業務試用視点で整理
MCP サーバー作り方——Python/TypeScript SDK で自作し本番運用まで「作る側」の完全マニュアル
Gemini CLI 使い方——Google のターミナル型 AI コーディングを 3 ツール比較で整理
Gemini API 使い方——コードから Gemini を呼ぶ最小サンプルを Python・GAS で
Claude Agent SDK とは——Claude Code の中身（自律エージェントの動き）を Python/TS で自分のアプリに組み込む SDK を業務利用視点で整理

Ollama 使い方｜入れる→動かす→管理→API組み込みを通しで

Ollama の全体像｜「入れる→動かす→管理→組み込む」の4段階と本記事の守備範囲

Ollama とは＆OS別インストール——Mac / Windows / Linux / Ubuntu

Mac（Apple Silicon）でのインストール

Windows でのインストール

Linux でのインストール

Ubuntu での補足

インストール確認（OS共通）

はじめて動かす｜`ollama run` で5分体験と、日常で使う基本コマンドの地図

ステップ ①：serve でサーバーを起動する

ステップ ②：pull でモデルを取り寄せる

ステップ ③：run で対話する

ステップ ④：機内モードでも動くことを確かめる

ステップ ⑤：`/bye` で抜ける

基本コマンド総覧——run / list / ps / show / cp / stop

モデル管理｜pull / rm で入れ消し、Modelfile で自分用モデル、保存場所の変更

モデルの入手と削除（pull / rm）

Modelfile で自分用モデルを定義する

モデルの保存場所

アプリに組み込む｜REST API・OpenAI 互換エンドポイント・Python・GUI

OpenAI 互換エンドポイントという「宛先だけ変える」設計

Python から呼び出す——公式 ollama ライブラリ＆OpenAI SDK 互換

公式 ollama ライブラリ

OpenAI SDK の宛先を Ollama に向ける

GUI で使う——Open WebUI で「黒い画面が苦手」を解決

運用・注意・トラブル｜環境変数とGPU確認・リモート公開とライセンスのYMYL・つまずき5選

リモート公開（OLLAMA_HOST=0.0.0.0）の注意——YMYL

ライセンス・データの扱い——商用利用前の必須チェック（YMYL）

つまずきポイント 5 個——serve / 容量 / 量子化 / 日本語 / ポート競合

Ollama が効くのは「外部に出せないデータをローカルで処理する」場面

よくある質問（FAQ）

Q1: Ollama で小説や創作はできますか？

Q2: Ollama は Windows でも使えますか？

Q3: Ollama の REST API はどこに立ちますか？

Q4: どのモデルを選べばいいですか？

Q5: 黒い画面（CLI）が苦手です。GUI で使えますか？

Q6: ローカルで動かしたモデルを商用利用してよいですか？

出典

関連記事

この記事に関連するサービス

Ollama の全体像｜「入れる→動かす→管理→組み込む」の4段階と本記事の守備範囲

Ollama とは＆OS別インストール——Mac / Windows / Linux / Ubuntu

Mac（Apple Silicon）でのインストール

Windows でのインストール

Linux でのインストール

Ubuntu での補足

インストール確認（OS共通）

はじめて動かす｜ollama run で5分体験と、日常で使う基本コマンドの地図

ステップ ①：serve でサーバーを起動する

ステップ ②：pull でモデルを取り寄せる

ステップ ③：run で対話する

ステップ ④：機内モードでも動くことを確かめる

ステップ ⑤：/bye で抜ける

基本コマンド総覧——run / list / ps / show / cp / stop

モデル管理｜pull / rm で入れ消し、Modelfile で自分用モデル、保存場所の変更

モデルの入手と削除（pull / rm）

Modelfile で自分用モデルを定義する

モデルの保存場所

アプリに組み込む｜REST API・OpenAI 互換エンドポイント・Python・GUI

OpenAI 互換エンドポイントという「宛先だけ変える」設計

Python から呼び出す——公式 ollama ライブラリ＆OpenAI SDK 互換

公式 ollama ライブラリ

OpenAI SDK の宛先を Ollama に向ける

GUI で使う——Open WebUI で「黒い画面が苦手」を解決

運用・注意・トラブル｜環境変数とGPU確認・リモート公開とライセンスのYMYL・つまずき5選

リモート公開（OLLAMA_HOST=0.0.0.0）の注意——YMYL

ライセンス・データの扱い——商用利用前の必須チェック（YMYL）

つまずきポイント 5 個——serve / 容量 / 量子化 / 日本語 / ポート競合

Ollama が効くのは「外部に出せないデータをローカルで処理する」場面

よくある質問（FAQ）

Q1: Ollama で小説や創作はできますか？

Q2: Ollama は Windows でも使えますか？

Q3: Ollama の REST API はどこに立ちますか？

Q4: どのモデルを選べばいいですか？

Q5: 黒い画面（CLI）が苦手です。GUI で使えますか？

Q6: ローカルで動かしたモデルを商用利用してよいですか？

出典

関連記事

この記事に関連するサービス

はじめて動かす｜`ollama run` で5分体験と、日常で使う基本コマンドの地図

ステップ ⑤：`/bye` で抜ける