🇯🇵 Style-Bert-VITS2 日本語音声合成マスター
Style-Bert-VITS2 用プロンプト生成Skill。日本語TTSのオープンソース決定版、Style 切替で感情表現、ローカル無料動作、商用OK。AivisSpeech も同系統。
📜 元の英語説明(参考)
Generate optimized prompts for Style-Bert-VITS2 (Japanese open-source TTS with style control). Use when user mentions Style-Bert-VITS2, SBV2, VITS, 日本語 TTS, ローカル音声合成, AivisSpeech.
🇯🇵 日本人クリエイター向け解説
Style-Bert-VITS2 用プロンプト生成Skill。日本語TTSのオープンソース決定版、Style 切替で感情表現、ローカル無料動作、商用OK。AivisSpeech も同系統。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o style-bert-vits2-prompt-master.zip https://jpskill.com/download/7058.zip && unzip -o style-bert-vits2-prompt-master.zip && rm style-bert-vits2-prompt-master.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/7058.zip -OutFile "$d\style-bert-vits2-prompt-master.zip"; Expand-Archive "$d\style-bert-vits2-prompt-master.zip" -DestinationPath $d -Force; ri "$d\style-bert-vits2-prompt-master.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
style-bert-vits2-prompt-master.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
style-bert-vits2-prompt-masterフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-17
- 同梱ファイル
- 1
💬 こう話しかけるだけ — サンプルプロンプト
- › Style-Bert-VITS2 で Happy Style、明るい挨拶のプロンプト
- › SBV2 で jvnv-F1-jp モデル、Sad Style の悲しいモノローグプロンプト
- › Style-Bert-VITS2 で Length Scale 1.3 のゆっくり読み上げプロンプト
- › AivisSpeech で商用OK、YouTube ナレーション用プロンプト
- › SBV2 でアニメキャラ風、Style Weight 2.0 の感情強めプロンプト
これをClaude Code に貼るだけで、このSkillが自動発動します。
📺 実際の使用例(入出力サンプル)
入力
「明るい朝の挨拶ナレーション、Style-Bert-VITS2 で」
Style-Bert-VITS2 用に最適化された出力
Model: AivisSpeech 標準女性(商用OK)
Style: Happy
Style Weight: 1.5
Settings:
- Length Scale: 1.0
- SDP Ratio: 0.2
- Noise: 0.6
- Noise Width: 0.8
Text:
おはようございます!
今日も素敵な一日が始まりましたね。
朝のニュースをお届けします。
本日の最高気温は、にじゅうごど。
お天気は、晴れ時々曇りの予報です。
それでは、今日も笑顔で頑張りましょう!
Web UI(http://localhost:7860)で Model 選択 → Style: Happy → Weight: 1.5 →
Text を貼り Generate。RTX 3060 で 1秒、CPU でも数秒で生成完了、ローカル無料。
商用なら AivisSpeech 同梱モデルから「商用利用可」のものを選択して使用。
📖 Claude が読む原文 SKILL.md(中身を展開)
この本文は AI(Claude)が読むための原文(英語または中国語)です。日本語訳は順次追加中。
Style-Bert-VITS2 日本語音声合成マスター
litagin02 が開発、現在は AivisSpeech や AIVoiceProj など派生プロジェクトに発展した 日本語特化のオープンソース TTS の決定版。Style 切替(怒り・喜び・悲しみ等)で感情豊かな読み上げ、ローカル無料、商用OK(個別モデルライセンス次第)。
⚠️ 必ず守る5つのルール
- モデル + Style を選ぶ — 同じモデルでも Style で別人のように変わる
- Style Weight 調整 — 0.0(中立)〜 5.0(極端)
- Length Scale で速度調整 — 1.0=標準、>1.0=ゆっくり、<1.0=早口
- SDP Ratio = 0.2 が自然(0.0=機械的、0.5=ランダム)
- 改行で句切る — テキスト改行は音声の区切りに反映
出力フォーマット
Model: [モデル名(例: jvnv-F1-jp / jvnv-M1-jp / Anneli 等)]
Style: [Neutral / Happy / Angry / Sad / Disgust / Fear / Surprise]
Style Weight: [0.5〜2.0 推奨]
Settings:
- Length Scale: [1.0 = 標準、ゆっくり=1.2]
- SDP Ratio: 0.2
- Noise: 0.6
- Noise Width: 0.8
Text:
[読み上げ対象テキスト、改行で句切る]
Reference Audio (任意):
[感情参照用の音声ファイル]
Style 一覧(モデルにより異なるが標準的セット)
| Style | 効果 | 推奨 Weight |
|---|---|---|
| Neutral | 中立・標準 | 1.0 |
| Happy | 喜び・明るい | 1.5 |
| Angry | 怒り | 1.0〜1.5 |
| Sad | 悲しみ | 1.5 |
| Disgust | 嫌悪 | 1.0 |
| Fear | 恐怖 | 1.5 |
| Surprise | 驚き | 1.5 |
| Calm | 落ち着き | 0.8 |
→ 1.0 を超えると効果が誇張、超えすぎると不自然
人気のオープンモデル
| モデル | 特徴 | ライセンス |
|---|---|---|
| jvnv-F1-jp | 標準女性、自然 | 学術/個人 |
| jvnv-M1-jp | 標準男性 | 学術/個人 |
| Anneli | 表情豊かな女性 | 個人ライセンス |
| AivisSpeech 標準 | 商用OK | 個別ライセンス |
→ 商用利用は各モデルのライセンスを必ず確認
パラメータ詳細
| パラメータ | 範囲 | 効果 |
|---|---|---|
| Length Scale | 0.5-2.0 | 話速。1.0=標準、1.3=ゆっくり、0.8=早口 |
| SDP Ratio | 0.0-1.0 | 抑揚のランダム性。0.2 が自然 |
| Noise | 0.0-1.0 | 表情の揺らぎ。0.6 推奨 |
| Noise Width | 0.0-1.0 | 揺らぎの幅。0.8 推奨 |
| Style Weight | 0.0-5.0 | Style の効き具合。1.0-2.0 推奨 |
テキスト記法のコツ
- 句読点で間を取る — 「、」「。」「!」「?」が呼吸ポイント
- 改行で長い間 — 段落区切りは1秒程度の間
- 漢字確定必須 — 同音異義語の誤読防止
- 数字は読みを指定 — 「2025年」→「にせんにじゅうごねん」
- アルファベットは「AI」より「エーアイ」推奨
強み
- 日本語に特化(海外モデルより圧倒的に自然)
- 完全ローカル無料(クラウド料金ゼロ)
- Style 切替で感情豊か
- VRAM 4GB から動く(CPU でも動作可)
- オープンソースで派生プロジェクト豊富(AivisSpeech 等)
- VOICEVOX より自然な感情表現
弱み
- モデルライセンスがバラバラ — 商用利用は要確認
- 多言語対応は弱め(日本語特化)
- セットアップが学術的(初心者向けではない)
- ボイスクローンは別途学習必要
セットアップの概要
git clone https://github.com/litagin02/Style-Bert-VITS2
pip install -r requirements.txt
# モデル DL → model_assets/ に配置
python app.py # Web UI 起動
ユーザーへの注意点(末尾に毎回付ける)
- ライセンス: モデルごとに異なる、商用利用前に必ず確認
- AivisSpeech は商用OKモデルが標準同梱、初心者にはこちら推奨
- GitHub / 公式 Discord で最新モデル入手
- 日本語キャラクター音声・実況・配信・YouTube ナレーションで最強
- ボイスクローンは別途学習、20分の音声で個別モデル作成可能