AivisSpeech使い方2026｜Anneli削除後の安全なモデル選び

Q: 標準モデルの Anneli はどうなりましたか？

2025年9月、声優の山村響氏がXで声の無断学習を告発したことをきっかけに、Anneli の作者がモデルを Hugging Face から削除して謝罪し、AivisHub も一時無期限閉鎖されました（現在は再開済み）。なお山村氏は特定のモデル名を挙げておらず、直接の因果関係は公式には確認されていないと報じる記事もあります。現在の AivisSpeech に Anneli は同梱されていません。

Q: 今おすすめの音声モデルはどれですか？

2026年7月時点の AivisHub ダウンロード上位は、まお・コハク・にせ・阿井田茂・まい です。私は副業の YouTube ナレーションで阿井田茂（ACML 1.0・Calm スタイル）を実運用しています。最終的には用途で試聴し、配布ページのライセンスを確認してから決めるのが筋です。

Q: 自分の声で音声モデルを作れますか？

公式が想定するルートはあります。Style-Bert-VITS2 で自分の声を学習してモデルを作り、ONNX 形式に変換したうえで、公式ツールの AIVM Generator で AIVM/AIVMX ファイルにして AivisSpeech に追加する流れです（2026-07-19 確認）。私はこの学習工程を実施していないため公式情報の整理ですが、自分の声でも学習利用の同意・権利の確認が前提になる点は必ず押さえてください。

Q: AivisSpeech に API はありますか？

あります。AivisSpeech Engine が VOICEVOX とほぼ同じ2段構えの API（audio_query で設定を作り synthesis で wav を生成）を提供しており、私は副業ナレーションで Engine を Docker で常用しています。最小の Python コード例と、モーラ長がダミー値になる落とし穴は本文の Engine の節にまとめています。

「AivisSpeech 使い方」で検索して出てくる解説の多くは、いまだに標準モデル Anneli を前提に書かれています。しかしその Anneli は、2025年9月の無断学習問題をきっかけに削除済みで、現在の AivisSpeech には同梱されていません。古い記事の手順をなぞると「その声が存在しない」ところでつまずきます。

営業職からエンジニアに転じた生成AIエンジニア・aikun が、副業の YouTube ナレーションに AivisSpeech を実運用しています。使っているのは阿井田茂モデル（ACML 1.0、speaker_id=1310138977 の Calm スタイル）。デスクトップアプリでの手作業と、Docker で立てた Engine での自動化、両方の手触りで書きます。

この記事は ①騒動の顛末と今の安全性 → ②入れて1回喋らせる → ③安全に使えるモデル選び → ④商用ライセンスの確認手順 の4章です。急いで音を出したい方はインストールの章へ、モデル選びに来た方はおすすめモデルの章からどうぞ。

2026年の AivisSpeech 早見表

知りたいこと	結論
Anneli の現状	2025年9月に削除済み。現行版に同梱なし
ソフト本体	健在。v1.1.0-dev 配布中・無料・商用可
モデルの入手先	再開済みの AivisHub / booth から追加
YMM4 連携	v4.34.2.0 以降で公式対応

AivisSpeechの今（2026年）｜Anneli騒動の顛末と現在の安全性

📖 この章で使う用語

AivisSpeech：文字から日本語音声を作る無料のローカル音声合成ソフト（OSS）。Style-Bert-VITS2 ベース。

AivisHub：音声モデル（話者）が配布・公開されている公式ハブ。

無断学習：本人の同意なくその人の声を AI に学習させること。音声合成の権利問題の中心論点。

まず事実関係を時系列で押さえます。2025年9月上旬、声優の山村響氏が「自分の声が AI 音声合成に無断で学習・使用されている疑いがある」と X で告発しました（ITmedia AI+ 2025年9月9日報）。これを受けて標準モデル Anneli の作者はモデルを Hugging Face から削除して謝罪し、配布元の AivisHub は一時無期限閉鎖という強い対応を取りました。翌9月10日には、ゆっくりムービーメーカー4（YMM4）が Anneli の利用をブロックする対応を発表しています（饅頭遣いのおもちゃ箱 2025年9月10日）。

一点、公平のために書き添えます。山村氏の告発は特定のモデル名やサービス名を挙げたものではなく、Anneli との直接の因果関係は公式には確認されていない、と報じる記事もあります。本記事も「Anneli が無断学習だったと確定した」とは断定しません。確かなのは、作者自身の判断でモデルが削除され、現在の AivisSpeech のエコシステムに Anneli が存在しない、という結果のほうです。

Anneli騒動から2026年現在までのタイムライン。2025年9月上旬に声優・山村響氏がXで無断学習を告発し、直後に作者がAnneliを削除して謝罪、AivisHubは一時無期限閉鎖。2025年9月10日にはYMM4がAnneliの利用をブロック。その後AivisHubは再開し、2026年現在は本体v1.1.0-devの配布、Aivis Cloud APIのリリース、YMM4 v4.34.2.0以降での公式対応が進んでいる。要点として、Anneli前提の古い解説には注意し、モデルはAivisHubの現行配布から選ぶ。

では今から使うのは危ないのか。結論は、ソフト本体は健在で、体制はむしろ騒動前より整っています。本体は v1.1.0-dev が配布中、AivisHub は再開済みで、2026年2月には開発者向けの Aivis Cloud API のリリースも報じられました。YMM4 も v4.34.2.0 以降で AivisSpeech に公式対応し、連携は復活しています（Aivis Project 公式、2026-07-05 確認）。運営面でも、Aivis Project は2025年5月に Walkers 社が事業譲受しており、個人プロジェクトから企業運営に移っています。

変わったのは「何も考えず標準の声を使う」が通用しなくなったことです。標準モデルという初期解がなくなった分、自分で現行配布モデルを選び、ライセンスを確認する手順が全ユーザーの必修になりました。本記事の主役がインストールではなくモデル選びの章とライセンス確認の章なのは、そのためです。

インストールと基本の使い方｜入れて1回喋らせるまで

📖 この章で使う用語

デスクトップアプリ：画面を見ながら文章を打って音声を作る版。コード不要。

AivisSpeech Engine：プログラムから音声合成を呼び出す裏方サーバー。VOICEVOX 互換の API を持つ。

speaker_id：話者とスタイルの組み合わせを一意に指す番号。例：阿井田茂の Calm スタイルは 1310138977。

AivisSpeech には2つの顔があります。1つはデスクトップアプリで、画面を見ながら文章を打って再生ボタンを押せば音声が出ます。もう1つは AivisSpeech Engine で、プログラムから音声合成を呼び出す裏方のサーバーです。初めて触る人や手作業で数本作る人はアプリ、決まった作業を自動で回したい人は Engine、と役割を分けて考えると迷いません。

公式DLから wav 書き出しまで

最短で1回喋らせるなら、デスクトップアプリ版一択です。公式サイトから DL → 文章を入力 → 再生 → wav 書き出し、この流れでターミナルもコードもなしに「文字から音声」まで届きます。私は Mac 環境で入れましたが、Windows 版もダウンロードページの案内どおりで迷いません。

初回起動時は音声合成に必要なデータの準備で少し待つことがあります。「固まった」と勘違いして閉じると振り出しに戻るので、初回は待つものだと思っておくとラクです。起動後は、テキスト入力欄に文章を打ち込み、再生ボタンで確認し、問題なければ音声書き出し（wav）でファイルにします。私が初回に短い1文を wav にするまでは、準備待ちを含めて十数分ほどでした。

声の指定単位は「話者×スタイル」の組み合わせです。同じ話者でも Normal と Calm では読み方が変わり、この組み合わせを speaker_id という番号で一意に指せます。アプリなら話者選択で切り替えるだけですが、次の自動化に進むとこの番号が効いてきます。

Engine を Docker で立てて自動化する

私は副業のナレーション量産で Engine を Docker で動かし、特定の port で待ち受けさせています。API は 2段構えで、まず audio_query で「この文をこの話者で」という設定を作り、次に synthesis でそのクエリから実際の音声（wav）を作ります。VOICEVOX を触ったことがあればほぼ同じ流れです（私の構成からの要点抜粋）。

# AivisSpeech Engine（ローカル起動）に最小の音声合成を投げる例
import requests

HOST = "http://127.0.0.1:10101"   # Engine の待ち受け窓口（port は構成次第）
SPEAKER = 1310138977              # 阿井田茂 Calm スタイルの speaker_id

# 1) audio_query：この文を、この話者で読むための設定を作る
query = requests.post(
    f"{HOST}/audio_query",
    params={"text": "こんにちは。AivisSpeech のテストです。", "speaker": SPEAKER},
).json()

# 2) synthesis：作った設定から実際の音声（wav）を生成する
wav = requests.post(
    f"{HOST}/synthesis",
    params={"speaker": SPEAKER},
    json=query,
).content

with open("hello.wav", "wb") as f:
    f.write(wav)

1つだけ落とし穴を挙げると、字幕用に各モーラ（音）の長さをクエリから取ろうとしても、AivisSpeech の Engine では常にダミー値（0.0）が返ります。公式ドキュメントにも明記された仕様で、Style-Bert-VITS2 ベースゆえモーラ長を予測しないためです。対処は、文ごとに音声を作って wav の実際の長さを測って積み上げること。動画パイプラインへの組み込みや字幕タイミング設計は親記事「AI 動画生成自動化」に詳しくまとめています。

安全に使えるおすすめモデルと追加方法

DL上位から候補を絞る——2026年7月の実ランキング

Anneli 亡きあと「どの声を使えばいいのか」が最大の疑問になります。判断材料として、再開後の AivisHub の実ダウンロードランキングを見るのが早いです（AivisHub DL数順、2026-07-05 時点）。

順位	モデル	DL数
1	まお	29,128
2	コハク	18,451
3	にせ	15,815
4	阿井田茂	13,861
5	まい	12,909

DL 数はあくまで人気の目安で、「上位だから自分の用途に合う」とは限りません。私自身の実例を書くと、副業の YouTube ナレーションでは阿井田茂の Calm スタイル（ACML 1.0、speaker_id=1310138977）を採用しています。淡々と落ち着いて読んでほしい用途だったので、話者だけでなくスタイルまで聞き比べて決めました。原稿さえあれば同じトーンのナレーションを何本でも作れるのは、シリーズ物で地味に効きます。

私が実際に「ここを見て決めた」軸は3つです。声の好みだけで決めず、この3点をセットで見る習慣にしておくと後で困りません。

声の自然さ・トーン：用途に合うか。話者だけでなくスタイルまで試聴する
字幕タイミングの取りやすさ：字幕を自動で付けるなら前章のモーラ長の落とし穴に関わる
ライセンス境界：商用可否・クレジット要否・個別の禁止事項

失敗しないモデル選びの4ステップ。①用途を決める（ナレーション・実況・キャラ読み上げ、趣味だけか収益化もするか）、②AivisHubでDL数順に候補を絞り話者だけでなくスタイルまで試聴する、③モデル詳細ページでACML・ACML-NC・CC0・カスタムのライセンス区分と商用可否・クレジット要否を確認する、④アプリにモデルを追加して話者選択で切り替える。③のライセンス確認を飛ばさないことが最大の自衛策。

選び方の手順はシンプルで、用途を決める → AivisHub で試聴する → ライセンスを確認する → 追加するの4ステップです。ナレーションなら Calm 系の落ち着いたスタイル、キャラ読み上げなら表情のあるスタイル、と用途から逆算すると候補がすぐ絞れます。収益化する予定が少しでもあるなら、この段階で商用可のモデルに絞っておくと後が楽です。

AivisHub / booth からの追加手順

追加の操作は、AivisHub や booth で配布されているモデルを入手し、AivisSpeech に読み込ませて追加 → 話者選択で切り替える、という流れです。追加したモデルはファイルとして手元に保存されます（具体パスは OS・バージョンで変わるため公式で確認）。どの入手経路でも、入れる前に配布ページのライセンス表記を確認する一拍を必ず挟んでください。その確認のしかたを次章で手順化します。

自分の声でモデルを作るには（学習→AIVM 変換）

「配布モデルではなく自分の声を使いたい」という検索も増えているので、公式が想定するルートを整理します。先に正直に書くと、私はこの学習工程を自分では実施していません。以下は公式ツールの案内と公開情報の整理で、配布モデルの利用とは信頼度のレイヤーが違う話として読んでください。

流れは4段です。①Style-Bert-VITS2 で自分の声を学習してモデルを作る（AivisSpeech のエンジンの元になっている OSS。学習の全体像はStyle-Bert-VITS2 の記事の学習章に整理）→ ②作ったモデルを ONNX 形式に変換する → ③公式ツールの AIVM Generator で AIVM/AIVMX ファイルを生成する（学習済みモデル・ONNX・ハイパーパラメータ等を指定してブラウザ上で変換できると案内されています。取得：2026-07-19）→ ④AivisSpeech の「音声合成モデルのインストール」から追加する。

ここでも権利の話は避けて通れません。自分の声であっても、学習・公開・商用利用それぞれの場面で同意や利用条件の確認が前提ですし、他人の声を学習させるのは論外です（この記事のライセンス章と、Anneli の経緯がそのまま教訓になります）。学習に本気で踏み込む方は、公式ドキュメントを一次資料として当たってください。

商用利用ライセンスの確認手順

📖 この章で使う用語

ACML 1.0：Aivis Common Model License。多くのモデルが採用する標準ライセンス。商用可・クレジット任意だが禁止事項あり。

ACML-NC 1.0：ACML の非商用（NonCommercial）版。収益化する用途には使えない。

商用利用は、本体とモデルの二層で考えると迷いません。ソフト本体は個人・法人・商用を問わず利用でき、基本的にクレジット表記も不要です（Aivis Project 公式の記載、2026-07-05 確認）。一方、出力した音声を何に使えるかは選んだモデルのライセンスで決まり、区分は次の4つです。

区分	商用	クレジット
ACML 1.0	可（禁止事項あり）	任意
ACML-NC 1.0	不可	—
CC0	可（制限なし）	不要
カスタム	規約次第	規約次第

多数派の ACML 1.0 は商用可・クレジット任意ですが、なりすまし、実在人物への攻撃、誤情報の流布などの禁止事項があります。カスタムライセンスは2025年3月31日に AivisHub で解禁された区分で、配布者の個別規約がすべてなので全文を読んでから使うのが前提です。「ACML だから全部同じ」と決めつけないでください。

私は副業動画で心理学系のテーマを扱うので、禁止事項に触れないよう断定や陰謀論的な表現に寄っていないかを原稿段階でチェックしています。なお本記事は法律相談ではなく「絶対大丈夫」とは断定できません。最終判断は選んだモデルの公式ライセンス表記と、必要に応じて法務・弁護士など専門家にお任せするのが安全です。

音声モデルのライセンス4区分の早見図。ACML 1.0は商用OK・クレジット任意だがなりすましや実在人物への攻撃などの禁止事項あり。ACML-NC 1.0は非商用のみで収益化する動画には使えない。CC0は権利放棄で利用条件の制限なし。カスタムライセンスは配布者の個別規約で2025年3月31日にAivisHubで解禁され、全文を読んでから使うのが前提。ソフト本体は個人・法人・商用問わず基本クレジット不要。

モデル詳細ページで見る4点チェック

確認の実務は、AivisHub のモデル詳細ページを開いてライセンス欄を読むだけです。見るのは次の4点。私は声を気に入っても、この4点を確認するまで本番投入しないルールにしています。

採用ライセンスの区分（ACML 1.0 / ACML-NC 1.0 / CC0 / カスタム）
商用利用の可否
クレジット表記の要否
個別の禁止事項（なりすまし・Content ID 登録など）

過去に Anneli で作った音声はどうするか

最後に「過去に Anneli で作った音声はどうするか」。これは一律の正解を断定できません。生成当時のライセンスに沿って作った音声が遡って違法になるという公式発表はない一方、YMM4 が利用をブロックしたように、権利関係が論点になった声を使い続けることへの評価はツールや視聴者によって分かれます。収益化しているチャンネルなら、新規動画は現行配布モデルに切り替え、過去分は様子を見ながら差し替えを検討する——という運用が現実的だと私は考えています。

作った音声を ffmpeg と組んで動画まで自動化したい方は、親記事「AI 動画生成自動化」へどうぞ。字幕タイミング設計や VOICEVOX との詳細比較もそちらにまとめています。また、音声と同じく文章生成も手元で完結させたい方には「ローカル LLM」という選択肢があります。

よくある質問

Q1: 標準モデルの Anneli はどうなりましたか？

A. 2025年9月、声優の山村響氏が X で声の無断学習を告発したことをきっかけに、Anneli の作者がモデルを Hugging Face から削除して謝罪し、AivisHub も一時無期限閉鎖されました（現在は再開済み）。なお山村氏は特定のモデル名を挙げておらず、直接の因果関係は公式には確認されていないと報じる記事もあります。現在の AivisSpeech に Anneli は同梱されていません。詳しい時系列は騒動の顛末の章にまとめています。

Q2: 今おすすめの音声モデルはどれですか？

A. 2026年7月時点の AivisHub ダウンロード上位は、まお・コハク・にせ・阿井田茂・まいです。私は副業の YouTube ナレーションで阿井田茂（ACML 1.0・Calm スタイル）を実運用しています。最終的には用途で試聴し、配布ページのライセンスを確認してから決めるのが筋です。選び方はおすすめモデルの章で手順化しています。

Q3: AivisSpeech は商用利用できますか？

A. ソフト本体は個人・法人・商用を問わず利用でき、基本的にクレジット表記も不要です。ただし音声モデルには ACML 1.0（商用可）／ACML-NC 1.0（非商用のみ）／CC0／カスタムの4区分があり、条件はモデルごとに違います。使うモデルの詳細ページでライセンスを必ず確認してください。最終判断は法務・弁護士など専門家にお任せするのが安全です。

Q4: AivisSpeech は無料で使えますか？

A. 本体（OSS）は無料です。AivisHub で配布されている多くのモデルも無料で追加できます。「本体が無料＝出力音声を何に使っても自由」ではなく、商用可否やクレジット要否はモデルごとのライセンスで決まる点だけ注意してください。

Q5: ゆっくりムービーメーカー4（YMM4）で使えますか？

A. 使えます。YMM4 は v4.34.2.0 以降で AivisSpeech に公式対応しています。なお2025年9月の騒動時には、YMM4 側が Anneli の利用をブロックする対応を取った経緯があるため、YMM4 で使う場合も現行配布モデルを選ぶのが安全です。

Q6: VOICEVOX とどちらを選べばいいですか？

A. 私はナレーション用途で AivisSpeech を採用しましたが、「絶対にこちら」とは申し上げません。声のトーンやスタイル表現を優先するなら AivisSpeech、字幕タイミングをモーラ単位で取りたいなら VOICEVOX が向きます。詳しい比較は親記事「AI 動画生成自動化」にまとめています。

Q7: 自分の声で音声モデルを作れますか？

A. 公式が想定するルートはあります。Style-Bert-VITS2 で学習→ONNX 変換→AIVM Generator で AIVM/AIVMX 化→AivisSpeech に追加という流れで、手順の整理は本文の該当節に書きました（私は学習工程を未実施のため公式情報の整理です）。自分の声でも、学習・公開・商用それぞれで同意や利用条件の確認が前提になります。

Q8: AivisSpeech に API はありますか？

A. あります。AivisSpeech Engine が VOICEVOX とほぼ同じ2段構えの API（audio_query で設定を作り synthesis で wav を生成）を提供しており、私は副業ナレーションで Engine を Docker で常用しています。最小の Python コード例と、モーラ長がダミー値になる落とし穴はEngine の節にまとめています。

筆者について：営業職 7 年から SES・自社開発を経て生成AIエンジニアになった aikun が、副業の YouTube Shorts 向けに AivisSpeech を実運用（阿井田茂 Calm スタイル、speaker_id=1310138977）した手触りをもとに書いています。Anneli 騒動の経緯など自分で体験していない部分は、日付つきの公開情報をもとに書いていることを本文で明示しています。

出典

ITmedia AI+「AivisSpeech」標準音声モデル巡る騒動の経緯（2025-09-09 公開）
饅頭遣いのおもちゃ箱お知らせ（YMM4 の Anneli 利用ブロック）（2025-09-10 公開）
AivisHub ダウンロード数順ランキング（取得：2026-07-05）
Aivis Project 公式サイト（v1.1.0-dev・Aivis Cloud API・クレジット不要の記載。取得：2026-07-05）
AivisHub 阿井田茂モデル（ACML 1.0、speaker_id=1310138977、取得：2026-06-07）
AIVM Generator（AI音声合成モデルファイル生成・編集ツール）（取得：2026-07-19）

音声合成を無料で商用利用するには（AivisSpeech・VOICEVOX・SBV2 を「無料×商用」の3層ルールで横断整理）
AI 動画生成自動化（親ハブ：AivisSpeech + ffmpeg の動画自動化パイプライン全体・VOICEVOX 詳細比較・字幕タイミング設計）
Style-Bert-VITS2 インストールと使い方（AivisSpeech の上流ツール。配布モデルでは物足りず、声を学習・作り込みたくなったらこちら）
AI 動画生成おすすめ（Veo / Runway など、AI 動画生成の選択肢）
ローカル LLM（音声と同じく、文章生成を自分のパソコンの中で完結させる選択肢）
LM Studio 使い方——ターミナル不要の GUI でローカル LLM を動かす