AivisSpeech を入れてみたいけれど、「インストールはできても、どの話者で喋らせればいいのか」「商用で使って大丈夫なのか」で止まった経験はありませんか。営業職からエンジニアに転じた現役の生成AIエンジニア・aikun が、業務外の副業で運営している YouTube チャンネルのナレーションに AivisSpeech を実運用採用していて、阿井田 茂モデル(ACML 1.0、speaker_id=1310138977 の Calm スタイル)で動画を作っています。デスクトップアプリ版を自分で入れてテキスト入力から wav 書き出しまで触り、自動化のための Engine も Docker で回した、その両方の手触りで書きます。
結論から言うと、AivisSpeech 単体の使い方は ①入れて 1 回喋らせる → ②話者(モデル)を選ぶ・増やす → ③その話者のライセンスを確認する の 3 段で掴むのが筋です。本記事では導入から話者選び、商用ライセンス、単体運用までを一本の動線で整理します。
とりあえず最短で 1 回喋らせたい読者は、セクション 3 のデスクトップアプリ導入だけ読めば、テキストから音声を出すところまで届きます。話者(モデル)の選び方を急ぎたい方は、本記事の主役である セクション 4 からどうぞ。
結論——AivisSpeech 単体の使い方は「入れる→話者を選ぶ→ライセンス確認」の3段
📖 この章で使う用語
- AivisSpeech:自分のパソコンの中で日本語の音声を合成できる無料ソフト(OSS)。録音した声を使うのではなく、文字から音声を作ります。
- 音声合成(TTS):文字を音声に変える技術。Text To Speech(テキスト・トゥ・スピーチ)の略です。文章を「読み上げてくれる係」のイメージ。
- Style-Bert-VITS2:AivisSpeech が中で使っている音声合成の仕組み。感情や話し方(スタイル)の表現に強いのが特徴です。
AivisSpeech 単体の使い方は、入れる → 話者(モデル)を選ぶ → ライセンスを確認する、この 3 段で考えると迷いにくいです。最初に喋らせるまでの導入、次に「どの声で喋らせるか」、最後に「その声を何に使っていいか」。順番に押さえれば、検索で散らばりがちな情報が一本につながります。
AivisSpeech は、Style-Bert-VITS2 という仕組みをベースにした、日本語に強いローカル音声合成エンジンです。「ローカル」というのは、自分のパソコンの中だけで処理が完結するという意味で、入力した文章をクラウドに送らずに音声を作れます。あとで触れますが、VOICEVOX 互換の窓口(API)を持っているので、プログラムから呼び出すこともできます。
本記事は AivisSpeech 単体に集中します。私は AivisSpeech を ffmpeg などと組み合わせて動画を自動生成するパイプラインも組んでいますが、その全体像(字幕の焼き込み、背景動画、サブエージェント構成など)は親記事の「AI 動画生成 自動化」にまとめてあります。ここでは「AivisSpeech をどう入れて、どの話者で、どう喋らせるか」だけを丁寧に追います。
AivisSpeech とは——VOICEVOX と何が違う「ローカル」音声合成か
📖 この章で使う用語
- VOICEVOX:日本語音声合成の定番 OSS(商用利用可・クレジット必須)。AivisSpeech と並んでよく名前が挙がる選択肢です。
- ローカル:自分のパソコンの中だけで処理が完結すること。入力した文章を外のサーバーに送らない安心感があります。
- OSS:オープンソースソフトウェア。中身が公開されていて、基本的に無料で使えるソフトのこと。
AivisSpeech は「自分のパソコンの中で完結する、日本語に強い無料の音声合成ソフト」です。クラウドのサービスのように毎月の利用料がかかるわけではなく、入力したテキストを外部に送らずに手元で音声を作れます。社内資料の下読みや、外に出せない原稿の読み上げに向いている、というのが触ってみての印象です。テキスト生成の側でも自分のパソコンで完結させる「ローカル LLM」という選択肢があり、外に出せないデータを手元で扱いたいという発想は音声でも文章でも共通します。
VOICEVOX との違いを一言でいうと、AivisSpeech は Style-Bert-VITS2 ベースで、声のトーンやスタイル(話し方)の表現に寄っている点です。私自身はナレーション用途で AivisSpeech を採用しましたが、これは「絶対 AivisSpeech が上」という話ではありません。字幕タイミングを楽に取りたい場合は VOICEVOX のほうが向く場面もあります。両者を並べた詳しい比較表は親記事の「AI 動画生成 自動化」の補足にまとめたので、選定で迷う方はそちらをどうぞ。本記事ではカニバリを避けて、使い分けの結論だけに触れます。
AivisSpeech の二層構造(デスクトップアプリ/AivisSpeech Engine)
AivisSpeech には、ざっくり 2 つの顔があります。1 つは デスクトップアプリで、画面を見ながらマウスとキーボードで操作します。コードを書かない人でも、文章を打って再生ボタンを押せば音声が出ます。もう 1 つは AivisSpeech Engine で、こちらはプログラムから音声合成を呼び出すための裏方のサーバーです。
私の使い分けの結論を先に言うと、初めて触る人や手作業で数本作る人はデスクトップアプリ、決まった作業を自動で回したい人は Engine です。私自身、最初の感触を掴むのはアプリ、動画を量産するときは Engine、と役割を分けています。Engine の中身は セクション 5 で詳しく扱います。
「無料で使える」の正確な意味(OSS 本体は無料、話者モデルごとに条件は別)
ここは最初につまずきやすいので、先に正確に書いておきます。AivisSpeech の 本体(ソフトそのもの)は OSS なので無料です。一方で、「どの声で喋らせるか」を決める話者モデルには、それぞれ別のライセンス(利用条件)が付いています。
つまり「本体が無料だから、出力した音声を何に使っても自由」ではありません。商用で使っていいか、クレジット表記が要るか、といった条件は話者モデルごとに違うので、使う話者の規約を 1 つずつ確認するのが前提になります。詳しくは セクション 6 のライセンスの章で整理します。
インストールと初回生成——デスクトップアプリで1回喋らせる(最短ルート)
📖 この章で使う用語
- デスクトップアプリ:パソコンに入れて、画面を見ながら操作するアプリ。コードを書かずに使えます。
- wav:音声ファイルの形式の一つ。書き出しておくと、動画編集ソフトなどに持ち込んで使えます。
最短で 1 回喋らせるなら、迷わずデスクトップアプリ版です。公式サイトからアプリをダウンロードして入れる → 文章を入力する → 再生する → wav に書き出す、この流れで「文字から音声」までたどり着けます。ターミナルもコードも要りません。
公式からのダウンロードと起動(OS 別の注意)
AivisSpeech のデスクトップアプリは、公式サイトから Windows 版・Mac 版をダウンロードできます。私は手元の Mac とパソコン環境で入れて、最初の音声を出すところまで触りました。OS によってインストーラーの形式(Windows なら実行ファイル、Mac ならアプリのドラッグ&ドロップなど)が違うので、ダウンロードページの案内に沿って進めるのが安全です。最新の対応 OS やバージョンは公式で確認してください。
初回起動時に、音声合成に必要なデータの準備で少し待つことがあります。私の場合、起動してすぐ操作できるわけではなく、最初の起動だけは「準備中」を少し待つ感覚でした。ここで「固まった」と勘違いして閉じてしまうと振り出しに戻るので、初回は待つものだと思っておくとラクです。
テキスト→再生→wav 書き出しまで(最初の壁=起動後どこを触るか)
起動したあと、私が最初に少し迷ったのは「どこに文章を入れて、どこを押せば喋るのか」でした。結論としては、画面のテキスト入力欄に読み上げたい文章を打ち込み、再生ボタンで確認、問題なければ音声書き出し(wav)でファイルにする、という流れです。最初の 1 回さえ通せば、2 回目からは数十秒で音声が出せるようになります。
体感として、AivisSpeech を初めて入れてから「短い 1 文を wav に書き出す」までは、ダウンロードと初回準備の待ち時間を含めて、落ち着いて触れば十数分ほどでした(環境やネット回線で前後します)。私が最初に詰まったのは技術的なエラーではなく、「初回の準備待ち」と「ボタンの場所」という、ごく素朴なところでした。逆に言えば、ここさえ越えれば、コードを書かない人でも音声生成までは十分届きます。
最初の壁という意味では、何のために喋らせるかを先に決めておくと迷いません。手作業で数本だけ作るならこのアプリで十分です。決まった作業を毎回同じ手順で大量に回したくなったら、次の セクション 5 で扱う Engine(プログラムから呼ぶ仕組み)に移る、という順番が私には合っていました。
話者(モデル)の選び方・追加・配布・保存場所——「AivisSpeech モデル」完全整理
📖 この章で使う用語
- モデル(話者・スタイル):「誰の声か(話者)」×「どんな話し方か(スタイル:Calm/Normal など)」の組み合わせ。番号(speaker_id)で指定します。
- speaker_id:話者とスタイルの組み合わせを一意に指す番号。例として、阿井田 茂の Calm スタイルは 1310138977 です。
- AivisHub / booth:話者モデルが配布・公開されている場所。入れる前に、そのページのライセンス表記を確認します。
ここが本記事の主役です。「AivisSpeech モデル」で調べると、追加・配布・ダウンロード・変更・保存場所・おすすめと、知りたいことが散らばっています。1 箇所で面倒を見られるように、順番に整理します。
結論を先に言うと、**話者(モデル)は「試聴で声を絞り、配布ページのライセンスを確認してから入れる」**のが基本動作です。声の好みだけで決めず、必ず利用条件もセットで見る——ここを習慣にしておくと、あとで困りません。
話者(モデル)とは——話者×スタイルと speaker_id
AivisSpeech で言う「モデル」は、話者(誰の声か)とスタイル(どんな話し方か)の組み合わせです。同じ話者でも、落ち着いた Calm と、普通の Normal では雰囲気が変わります。これを番号(speaker_id)で指定します。
本屋でたとえると、話者が「著者」、スタイルが「その著者の文体」のようなものです。私はナレーション用途で、阿井田 茂の Calm スタイル(speaker_id=1310138977)を選びました。淡々と落ち着いて読んでほしかったので、話者だけでなくスタイルまで含めて聞き比べた、というのが実際のところです。
モデルの追加・変更・保存場所(どこに入る・どう増やす)
デフォルトで同梱されている話者だけでも音声は作れますが、声の幅を増やしたいときは追加モデルを入れます。流れとしては、配布されているモデルファイルを入手 → AivisSpeech に読み込ませて追加 → アプリ上の話者選択で切り替える、という形です。話者の変更は、アプリの話者選択から目的のモデルを選ぶだけです。
保存場所については、私自身、追加したモデルがどこに入るのかを実際に触って確かめました。手元で配布モデルを扱う必要があったので、モデルが置かれるフォルダを開いて中身を確認した、という実体験があります。ここは環境(OS・バージョン)で具体的なパスが変わり得るので、本記事で固定のパスを断定するのは避けます。最新の保存先の扱いは公式の案内で確認してください。大事なのは「追加モデルはファイルとして手元に置かれ、自分で増やせる」という構造を掴んでおくことです。
配布モデルの入手(AivisHub / booth)と、入れる前のライセンス確認
追加モデルは、AivisHub や booth といった場所で配布・公開されています。気に入った声を見つけたら入れたくなりますが、ここで一拍おきます。入れる前に、その配布ページのライセンス表記を確認する——これを必ず挟んでください。
商用で使っていいか、クレジット表記が必要か、といった条件はモデルごとに違います。私自身、阿井田 茂モデルを採用するときも、声が良いというだけでなく、ライセンス(ACML 1.0)の条件が自分の運用ルールと整合するかを先に確認しました。声選びと規約確認は「セット」だと思っておくのが、結果的にいちばんラクです。
anneli / 阿井田 茂など——私が選んだ話者と「おすすめ」の温度感
「おすすめのモデルは?」とよく聞かれますが、ここは断定しにくいところです。声の好みは人それぞれで、用途(淡々としたナレーションか、感情を乗せた語りか)でも最適が変わります。なので「これが正解」とは申し上げません。
そのうえで、私が実際に選んだ話者の話をすると、ナレーション用途では阿井田 茂の Calm スタイルを採用しました。落ち着いたトーンが原稿に合っていたからです。anneli のように名前がよく挙がる話者もありますが、最終的には自分の用途で試聴して、ライセンスを確認して決める——この手順に尽きます。
私が話者を選ぶときに実際に効いた観点は、次の 3 つでした。公開スペックの一覧ではなく、私自身が使ってみて「ここを見て決めた」という軸です。
| 観点 | 何を見るか | 私の判断(ナレーション用途) |
|---|---|---|
| 声の自然さ・トーン | 用途に合う声か。話者だけでなくスタイルまで試聴 | Calm 系の落ち着いたトーンを優先 |
| 字幕タイミングの取りやすさ | 字幕を自動で付けるなら、後述の落とし穴(セクション 5)に関わる | 文単位で長さを測る設計に寄せた |
| ライセンス境界 | 商用可否・クレジット・Content ID 登録の可否 | ACML 1.0 が運用ルールに整合するか先に確認 |
なお、「自分の声でモデルを作る(学習・自作)」という話は、ここでは深入りしません。私は配布されているモデルを使う側であって、自分でモデルを学習させた経験はないためです。学習・自作については セクション 8 で、公開情報からの整理として権利の注意点とともに軽く触れます。
AivisSpeech Engine と API——プログラムから喋らせる(VOICEVOX 互換 API)
📖 この章で使う用語
- AivisSpeech Engine:プログラムから音声合成を呼び出すための裏方サーバー。VOICEVOX 互換の窓口(API)を持っています。
- API:プログラムから別の機能を呼び出す窓口。お店のレジで使う「注文票」のイメージです。
- audio_query / synthesis:「この文をこの設定で」と問い合わせ(query)て、音声を作る(synthesis)2 段の呼び出し。
- Docker / port:アプリを箱(コンテナ)に入れて、どこでも同じように動かす仕組み/その箱の出入り口の番号。
決まった作業を自動で回したくなったら、Engine の出番です。Engine をローカルで立てると、VOICEVOX 互換の API でプログラムから音声合成を呼び出せます。私は副業の動画ナレーションで、この Engine を実際に使って音声を量産しています。ここは私がいちばん手を動かしてきた領域です。
ただし本記事は AivisSpeech 単体に集中します。Engine で作った音声を動画に組み込む(字幕タイミングの設計や ffmpeg での合成)話は親記事の「AI 動画生成 自動化」に送り、ここでは「単体で喋らせる最小例」に絞ります。
Engine をローカルで起動する(Docker / port)
Engine はローカルで起動して使います。私の構成では Docker で動かしていて、特定の port(出入り口の番号)で待ち受けるようにしています。起動さえできれば、あとはその窓口に向かってプログラムから「この文章を喋らせて」とお願いするだけです。Docker で動かすと、環境を箱ごと固定できるので、別の機会に同じ構成を再現しやすいのが利点でした。
最小 API 呼び出し(audio_query → synthesis)
API の基本は 2 段構えです。まず audio_query で「この文を、この話者で」と問い合わせて読み上げの設定(クエリ)を作り、次に synthesis でそのクエリから実際の音声(wav)を作ります。VOICEVOX を触ったことがある人なら、ほぼ同じ流れで馴染めるはずです。
実際に最小限の呼び出しをすると、次のような雰囲気になります(私の構成からの要点抜粋です)。
# AivisSpeech Engine(ローカル起動)に最小の音声合成を投げる例
import requests
HOST = "http://127.0.0.1:10101" # Engine を待ち受けている窓口(port は構成次第)
SPEAKER = 1310138977 # 阿井田 茂 Calm スタイルの speaker_id
# 1) audio_query:この文を、この話者で読むための設定を作る
query = requests.post(
f"{HOST}/audio_query",
params={"text": "こんにちは。AivisSpeech のテストです。", "speaker": SPEAKER},
).json()
# 2) synthesis:作った設定から実際の音声(wav)を生成する
wav = requests.post(
f"{HOST}/synthesis",
params={"speaker": SPEAKER},
json=query,
).content
with open("hello.wav", "wb") as f:
f.write(wav)
これを実行すると、手元に hello.wav が書き出されます。話者一覧の取得や設定の細かい調整もできますが、まずは「クエリを作って、音声にする」というこの 2 段を押さえれば、単体で喋らせるところまでは届きます。
モーラ長が常にダミー値で返る話(単体利用でも知っておく落とし穴)
ここは単体で使う人でも知っておくと得をする、私が実際に踏んだ落とし穴です。字幕を自動で付けようとすると、「各音(モーラ)が何秒鳴るか」をクエリから取りたくなります。ところが AivisSpeech の Engine では、このモーラ単位の長さが常にダミーの値(0.0)で返ってきます。
私も最初はモーラ単位の長さを使って字幕のタイミングを作る設計にしていて、実機で叩いて「あれ、ずっと 0.0 だ」と詰まりました。これは公式のドキュメントにも「AivisSpeech Engine では常にダミーの値が返されます」と明記されている挙動で、Style-Bert-VITS2 ベースという仕組み上、モーラ単位の長さを予測しないためです。
対処は、文ごとに音声を作って、その wav の実際の長さ(duration)を測って積み上げるやり方に切り替えることです。これで、観測できる値(生成された音声の長さ)だけで字幕タイミングを組めるようになります。ただし、字幕タイミングの本格的な設計や動画への組み込みは親記事「AI 動画生成 自動化」の領域なので、ここでは「単体で API を叩くなら、モーラ長は当てにしない」という注意点だけ覚えておけば十分です。
商用利用とライセンス——ACML 1.0 と「話者ごとの個別規約」の二層構造
📖 この章で使う用語
- ACML 1.0:Aivis Common Model License。多くの AivisSpeech 話者が採用する標準ライセンス。商用 OK・クレジット任意ですが、禁止事項があります。
- Content ID:YouTube が動画内の著作権素材を検出・管理する仕組み。素材によっては登録が禁止されている場合があります。
商用利用とライセンスは、本体と話者モデルの「二層」で考えると整理できます。本体(OSS)は無料で使えますが、出力した音声を何に使っていいかは、選んだ話者モデルのライセンスで決まります。本体が無料なことと、その声を商用で使えることは、別の話です。
多くの話者モデルは ACML 1.0(Aivis Common Model License)を採用しています。ただし、商用可否・クレジットの要否・Content ID 登録の可否などは話者ごとに違うので、「ACML だから全部同じ」と決めつけないことが大事です。私自身は阿井田 茂モデル(ACML 1.0)を、副業の運用ルールと整合するか確認したうえで採用しました。
ACML 1.0 の要点(商用 OK/クレジット任意だが禁止事項あり)
ACML 1.0 はざっくり、商用利用は OK、クレジット表記は任意という前提です。一方で禁止事項があり、たとえばなりすまし、実在の人物への攻撃、政治・宗教への賛同や批判、誤情報の流布などが挙げられます。私は副業の動画で心理学系のテーマを扱うことがあるので、断定や陰謀論的な表現に寄らないよう、原稿の段階で気をつける運用にしています。
ここで一点、はっきりさせておきます。本記事は法律相談ではないので、「これなら絶対大丈夫」という断定はできません。要点は整理しますが、最終的な可否の判断は、選んだモデルの公式ライセンス表記と、必要に応じて法務・弁護士などの専門家にお任せするのが安全です。
「話者ごとに条件が違う」を必ず確認する(モデル配布ページの表記を読む手順)
実務でいちばん効くのは、配布ページの表記を 1 つずつ読むという地味な手順です。具体的には、(1) そのモデルが採用しているライセンス(ACML 1.0 かどうか、独自規約か)、(2) 商用利用の可否、(3) クレジット表記の要否、(4) Content ID 登録などの個別の禁止事項、をチェックします。
「商用 OK」の一言だけで安心して進めると、クレジット漏れや禁止用途への抵触で、あとから困ることがあります。私の場合、新しい話者を試すときは、声を気に入っても、この 4 点を確認するまでは本番の動画には使わない、というルールにしています。なお、動画パイプラインの中でライセンスをどう機械的にチェックしているか(断定表現の検出など)は親記事「AI 動画生成 自動化」に書いたので、運用の踏み込んだ話はそちらをどうぞ。
「炎上」って何があった?——声・話者・権利のデリケートさを、断定せず整理する
📖 この章で使う用語
- なりすまし:本人や本人の声と誤認させる使い方。多くの利用規約で禁止されています。
- 無断学習:本人の同意なく声を学習させること。権利・倫理の論点になりやすいテーマです。
「aivisspeech 炎上」で検索して来られた方へ。先に立場を書いておくと、本記事では特定の事案を名指ししたり、「炎上したから危険」と断定したりはしません。ここで整理したいのは、AI 音声合成というジャンル全体が抱えるデリケートさと、その中で自分が荒れないために何を確認すればいいか、です。
AI 音声合成一般で論点になりやすいのは、おおむね次のような点です。声の権利(誰の声か、使っていい声か)、なりすまし(本人と誤認させる使い方)、無断学習(同意なく声を学習させること)、規約違反(モデルや配布元の利用条件に反する使い方)。これらは AivisSpeech に限った話ではなく、音声合成を扱うなら共通して気をつけたいところです。
だからこそ、前の章で書いたライセンス確認が、そのまま自衛策になります。AivisSpeech 公式の案内、ACML 1.0 の禁止事項、そして各話者の利用規約を、使う前に 1 つずつ確認しておく。これだけで、うっかり禁止用途に踏み込むリスクはかなり下げられます。「炎上が怖い」より「規約を読む」のほうが、結局は近道です。
私自身の運用でも、原稿の段階で断定や攻撃的な表現が混ざっていないかを機械的にチェックして、科学的根拠ベースの内容にそろえるようにしています。これは荒れにくくするための一例にすぎませんが、「禁止事項を先に知って、それに沿った原稿にする」という順番が、結果的にいちばん安全だと感じています。声・権利まわりは断定で語るより、確認の習慣で守るのが筋です。
スマホで使える? 自分の声は作れる?——よくある2つの疑問に、正直に答える
📖 この章で使う用語
- 音声モデルの学習(自作):自分や特定の声を覚えさせて、新しい話者モデルを作る作業。学習に使う声の権利・本人同意の確認が前提になります。
最後に、検索でよく挙がる 2 つの疑問に正直に答えます。先に立場を明確にしておくと、この章の 2 つは、私自身に一次体験がない領域です。私はパソコンで配布モデルを使っている利用者で、スマホ単体での運用や、自分の声でモデルを自作した経験はありません。ここは公開情報からの整理として、誠実に書きます。
スマホでの利用——本記事は「PC 前提」で線引きします
率直に言うと、本記事は PC(パソコン)での利用を前提に書いています。私自身、AivisSpeech をスマホ単体で動かした経験がないため、スマホでの使い勝手を実体験として語ることはできません。
一般論として、AivisSpeech のデスクトップアプリや Engine は基本的に PC 向けの作りです。スマホで「AivisSpeech 風の音声を使いたい」というニーズに対しては、PC で音声を作ってからスマホに持ち込む、といった運用が現実的だと思いますが、ここは公開情報からの整理にとどめます。最新の対応環境は公式の案内で確認してください。
「自分の声」=音声モデルの自作・学習——権利の確認が前提です
「自分の声で喋らせたい」「特定の声のモデルを作りたい」という疑問もよく見かけます。これも、私は配布されているモデルを使う側で、モデルを自分で学習させた経験はありません。ですので、ここも公開情報からの整理になります。
仕組みの話として、AivisSpeech のモデルは Style-Bert-VITS2 系で、新しい話者を作るには学習という作業が必要だと説明されています。ただ、ここで強調しておきたいのは技術より権利の側です。誰かの声を学習させるなら、その声の権利、本人の同意の確認が前提になります。同意のない無断学習は、前章で触れた論点の中心そのものです。
自作・学習の手順そのものは本記事のスコープを超えるので深入りしませんが、「やるなら、学習データの権利と本人同意を必ず先に確認する」という一点だけは、強くお伝えしておきます。配布モデルを使う場合と違って、自作はトラブルになりやすい領域なので、慎重に進めるのが安全です。
どんな人が AivisSpeech 単体を使うと効くか
AivisSpeech 単体が効く場面を、職種を網羅的に並べるのではなく、私自身が実際にやっていることを中心に書きます。「考えられる用途」を羅列するより、こちらのほうが正直だと思うからです。
私の場合——副業ライターのナレーション量産(記事 × Shorts の二刀流)
私がいちばん手を動かしているのは、副業のナレーション量産です。ブログ記事と、同じテーマ系列の YouTube Shorts を両方作っていて、その Shorts のナレーションに AivisSpeech を使っています。原稿を用意して、阿井田 茂の Calm スタイルで音声にし、動画に乗せる——この流れを繰り返しています。
ナレーターに毎回お願いするのは、本数が増えると現実的でなくなります。AivisSpeech なら、原稿さえあれば落ち着いたトーンの読み上げを手元で何本でも作れるので、「記事 × Shorts」を両輪で回すうえで効いています。声のトーンを毎回そろえられるのも、シリーズ物では地味に大きい利点でした。
用途別に——学習・解説動画のナレーション内製/個人制作の音声
他の用途として、たとえば学習動画や解説動画のナレーションを内製したいケースが考えられます。社内向けの手順説明や、個人で出す解説コンテンツの読み上げを、外注せず手元で用意したい場面です。録音のために声を出す手間がなく、原稿の修正にもすぐ追従できるのは、合う人には合うと思います。
もう一つは、ゲームや個人制作の音声です。同人ゲームや個人開発のアプリで、キャラクターのちょっとした読み上げや、ナビゲーションの音声を入れたい、といった用途です。いずれの場合も、使う話者モデルのライセンス(商用可否・配布物への組み込みの可否)を先に確認する、という基本は変わりません。ここは断定せず「こういう使い方が考えられます」という温度感でお伝えしておきます。
まとめと次の一歩——AivisSpeech 単体から、動画自動化パイプラインへ
AivisSpeech 単体の使い方は、①入れて 1 回喋らせる → ②話者(モデル)を選ぶ・増やす → ③その話者のライセンスを確認する の 3 段で掴むのが筋でした。まずデスクトップアプリで音声を出し、話者は試聴とライセンス確認をセットで選び、自動で回したくなったら Engine の API に進む——この順番なら迷いにくいはずです。
次の一歩として、AivisSpeech で作った音声を ffmpeg と組んで動画を自動で作りたい読者は、親記事の「AI 動画生成 自動化」へどうぞ。字幕タイミングの設計、背景動画、サブエージェント構成、そして VOICEVOX との詳しい比較表まで、パイプライン全体をそちらにまとめてあります。本記事は、その入口にあたる「AivisSpeech 単体をどう使うか」を担当しました。
よくある質問
Q1: AivisSpeech は無料で使えますか?
A. 本体(OSS)は無料で使えます。ただし話者モデルごとに商用可否やクレジット要否といった条件が異なるため、使う話者の利用規約を必ず確認してください。「本体が無料=何に使っても自由」ではない点が、最初に押さえておきたいところです。
Q2: AivisSpeech のモデル(話者)はどうやって追加・変更しますか?
A. AivisHub や booth などで配布されている話者モデルを入手し、アプリに読み込んで追加します。話者の切り替えはアプリ上の話者選択で行えます。入れる前に、そのモデルの配布ページのライセンス表記を 1 つずつ確認するのが基本です。
Q3: おすすめのモデル(話者)はありますか?
A. 「これが絶対」とは申し上げません。声の好みや用途で最適が変わるためです。そのうえで私の実例を挙げると、ナレーション用途では落ち着いたトーンの阿井田 茂モデル(Calm スタイル)を選び、anneli のように名前がよく挙がる話者も候補にしました。最終的には、自分の用途で試聴し、配布ページのライセンスを確認してから決めるのが筋です。詳しい選び方は セクション 4 で整理しています。
Q4: AivisSpeech と VOICEVOX はどちらを選べばいいですか?
A. 私自身はナレーション用途で AivisSpeech を採用しましたが、「絶対にこちら」とは申し上げません。字幕タイミングをモーラ単位で楽に取りたいなら VOICEVOX、声のトーンやスタイルの表現を優先するなら AivisSpeech、というのが両方を触った率直な整理です。試聴で決めるのが筋です。詳しい比較は親記事「AI 動画生成 自動化」にまとめています。
Q5: AivisSpeech は商用利用できますか?
A. 多くの話者が採用する ACML 1.0 は商用利用 OK ですが、なりすましや実在人物への攻撃などの禁止事項があり、条件は話者ごとに異なります。選んだモデルの公式ライセンス表記を確認し、最終判断は法務・弁護士など専門家にお任せするのが安全です。
Q6: スマホで使えますか/自分の声でモデルは作れますか?
A. 私はパソコンでの利用が前提で、スマホ単体での運用や、自分の声でモデルを自作した経験はありません。ここは公開情報からの整理になりますが、AivisSpeech は基本的に PC 向けで、音声モデルの自作には学習データの権利・本人同意の確認が前提になります。
筆者について:営業職 7 年から SES・自社開発を経て生成AIエンジニアになった aikun が、副業の YouTube Shorts 向けに AivisSpeech を実運用(阿井田 茂 Calm スタイル、speaker_id=1310138977)した手触りをもとに書いています。スマホ単体の利用やモデルの自作は経験がないため、その部分は公開情報からの整理であることを本文で明示しています。
出典
- AivisSpeech 公式サイト(取得:2026-06-07)
- AivisSpeech Engine(公式 GitHub)(取得:2026-06-07)
- AivisHub 阿井田 茂モデル(ACML 1.0、speaker_id=1310138977、取得:2026-06-07)
関連記事
- AI 動画生成 自動化(親ハブ:AivisSpeech + ffmpeg + Claude Code 7 サブエージェントの動画自動化パイプライン全体・VOICEVOX 詳細比較・字幕タイミング設計)
- AI 動画生成 おすすめ(Sora / Veo など、AI 動画生成の選択肢)
- ローカル LLM(音声と同じく、文章生成を自分のパソコンの中で完結させる選択肢)
- AI 画像生成 プロンプト(動画のシーン画像を作るときの文脈)