cat_audio_ai ユーザー投稿 🔴 エンジニア向け 👤 YouTuber・VTuber・配信者・日本語 TTS をローカル運用したい個人開発者

🇯🇵 Style-Bert-VITS2 日本語音声合成マスター

style-bert-vits2-prompt-master

Style-Bert-VITS2 用プロンプト生成Skill。日本語TTSのオープンソース決定版、Style 切替で感情表現、ローカル無料動作、商用OK。AivisSpeech も同系統。

⚡ ⏱ 朝の挨拶ナレーション声優手配半日 → 5秒生成

📜 元の英語説明(参考)

Generate optimized prompts for Style-Bert-VITS2 (Japanese open-source TTS with style control). Use when user mentions Style-Bert-VITS2, SBV2, VITS, 日本語 TTS, ローカル音声合成, AivisSpeech.

🇯🇵 日本人クリエイター向け解説

一言でいうと

Style-Bert-VITS2 用プロンプト生成Skill。日本語TTSのオープンソース決定版、Style 切替で感情表現、ローカル無料動作、商用OK。AivisSpeech も同系統。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o style-bert-vits2-prompt-master.zip https://jpskill.com/download/7058.zip && unzip -o style-bert-vits2-prompt-master.zip && rm style-bert-vits2-prompt-master.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/7058.zip -OutFile "$d\style-bert-vits2-prompt-master.zip"; Expand-Archive "$d\style-bert-vits2-prompt-master.zip" -DestinationPath $d -Force; ri "$d\style-bert-vits2-prompt-master.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して style-bert-vits2-prompt-master.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → style-bert-vits2-prompt-master フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-17
取得日時: 2026-05-17
同梱ファイル: 1

💬 こう話しかけるだけ — サンプルプロンプト

› Style-Bert-VITS2 で Happy Style、明るい挨拶のプロンプト
› SBV2 で jvnv-F1-jp モデル、Sad Style の悲しいモノローグプロンプト
› Style-Bert-VITS2 で Length Scale 1.3 のゆっくり読み上げプロンプト
› AivisSpeech で商用OK、YouTube ナレーション用プロンプト
› SBV2 でアニメキャラ風、Style Weight 2.0 の感情強めプロンプト

これをClaude Code に貼るだけで、このSkillが自動発動します。

📺 実際の使用例(入出力サンプル)

入力

「明るい朝の挨拶ナレーション、Style-Bert-VITS2 で」

Style-Bert-VITS2 用に最適化された出力

Model: AivisSpeech 標準女性(商用OK)
Style: Happy
Style Weight: 1.5

Settings:
- Length Scale: 1.0
- SDP Ratio: 0.2
- Noise: 0.6
- Noise Width: 0.8

Text:
おはようございます!
今日も素敵な一日が始まりましたね。

朝のニュースをお届けします。
本日の最高気温は、にじゅうごど。
お天気は、晴れ時々曇りの予報です。

それでは、今日も笑顔で頑張りましょう!

Web UI(http://localhost:7860)で Model 選択 → Style: Happy → Weight: 1.5 → Text を貼り Generate。RTX 3060 で 1秒、CPU でも数秒で生成完了、ローカル無料。

商用なら AivisSpeech 同梱モデルから「商用利用可」のものを選択して使用。

📖 Claude が読む原文 SKILL.md(中身を展開)

この本文は AI(Claude)が読むための原文(英語または中国語)です。日本語訳は順次追加中。

Style-Bert-VITS2 日本語音声合成マスター

litagin02 が開発、現在は AivisSpeech や AIVoiceProj など派生プロジェクトに発展した 日本語特化のオープンソース TTS の決定版。Style 切替(怒り・喜び・悲しみ等)で感情豊かな読み上げ、ローカル無料、商用OK(個別モデルライセンス次第)。

⚠️ 必ず守る5つのルール

モデル + Style を選ぶ — 同じモデルでも Style で別人のように変わる
Style Weight 調整 — 0.0(中立)〜 5.0(極端)
Length Scale で速度調整 — 1.0=標準、>1.0=ゆっくり、<1.0=早口
SDP Ratio = 0.2 が自然(0.0=機械的、0.5=ランダム)
改行で句切る — テキスト改行は音声の区切りに反映

出力フォーマット

Model: [モデル名(例: jvnv-F1-jp / jvnv-M1-jp / Anneli 等)]
Style: [Neutral / Happy / Angry / Sad / Disgust / Fear / Surprise]
Style Weight: [0.5〜2.0 推奨]

Settings:
- Length Scale: [1.0 = 標準、ゆっくり=1.2]
- SDP Ratio: 0.2
- Noise: 0.6
- Noise Width: 0.8

Text:
[読み上げ対象テキスト、改行で句切る]

Reference Audio (任意):
[感情参照用の音声ファイル]

Style 一覧(モデルにより異なるが標準的セット)

Style	効果	推奨 Weight
Neutral	中立・標準	1.0
Happy	喜び・明るい	1.5
Angry	怒り	1.0〜1.5
Sad	悲しみ	1.5
Disgust	嫌悪	1.0
Fear	恐怖	1.5
Surprise	驚き	1.5
Calm	落ち着き	0.8

→ 1.0 を超えると効果が誇張、超えすぎると不自然

モデル	特徴	ライセンス
jvnv-F1-jp	標準女性、自然	学術/個人
jvnv-M1-jp	標準男性	学術/個人
Anneli	表情豊かな女性	個人ライセンス
AivisSpeech 標準	商用OK	個別ライセンス

パラメータ詳細

パラメータ	範囲	効果
Length Scale	0.5-2.0	話速。1.0=標準、1.3=ゆっくり、0.8=早口
SDP Ratio	0.0-1.0	抑揚のランダム性。0.2 が自然
Noise	0.0-1.0	表情の揺らぎ。0.6 推奨
Noise Width	0.0-1.0	揺らぎの幅。0.8 推奨
Style Weight	0.0-5.0	Style の効き具合。1.0-2.0 推奨

テキスト記法のコツ

句読点で間を取る — 「、」「。」「!」「?」が呼吸ポイント
改行で長い間 — 段落区切りは1秒程度の間
漢字確定必須 — 同音異義語の誤読防止
数字は読みを指定 — 「2025年」→「にせんにじゅうごねん」
アルファベットは「AI」より「エーアイ」推奨

強み

日本語に特化(海外モデルより圧倒的に自然)
完全ローカル無料(クラウド料金ゼロ)
Style 切替で感情豊か
VRAM 4GB から動く(CPU でも動作可)
オープンソースで派生プロジェクト豊富(AivisSpeech 等)
VOICEVOX より自然な感情表現

弱み

モデルライセンスがバラバラ — 商用利用は要確認
多言語対応は弱め(日本語特化)
セットアップが学術的(初心者向けではない)
ボイスクローンは別途学習必要

セットアップの概要

git clone https://github.com/litagin02/Style-Bert-VITS2
pip install -r requirements.txt
# モデル DL → model_assets/ に配置
python app.py  # Web UI 起動

ユーザーへの注意点(末尾に毎回付ける)

ライセンス: モデルごとに異なる、商用利用前に必ず確認
AivisSpeech は商用OKモデルが標準同梱、初心者にはこちら推奨
GitHub / 公式 Discord で最新モデル入手
日本語キャラクター音声・実況・配信・YouTube ナレーションで最強
ボイスクローンは別途学習、20分の音声で個別モデル作成可能