jpskill.com
cat_audio_ai ユーザー投稿 🔴 エンジニア向け 👤 YouTuber・VTuber・配信者・日本語 TTS をローカル運用したい個人開発者

🇯🇵 Style-Bert-VITS2 日本語音声合成マスター

style-bert-vits2-prompt-master

Style-Bert-VITS2 用プロンプト生成Skill。日本語TTSのオープンソース決定版、Style 切替で感情表現、ローカル無料動作、商用OK。AivisSpeech も同系統。

⏱ 朝の挨拶ナレーション 声優手配 半日 → 5秒生成
📜 元の英語説明(参考)

Generate optimized prompts for Style-Bert-VITS2 (Japanese open-source TTS with style control). Use when user mentions Style-Bert-VITS2, SBV2, VITS, 日本語 TTS, ローカル音声合成, AivisSpeech.

🇯🇵 日本人クリエイター向け解説

一言でいうと

Style-Bert-VITS2 用プロンプト生成Skill。日本語TTSのオープンソース決定版、Style 切替で感情表現、ローカル無料動作、商用OK。AivisSpeech も同系統。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o style-bert-vits2-prompt-master.zip https://jpskill.com/download/7058.zip && unzip -o style-bert-vits2-prompt-master.zip && rm style-bert-vits2-prompt-master.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/7058.zip -OutFile "$d\style-bert-vits2-prompt-master.zip"; Expand-Archive "$d\style-bert-vits2-prompt-master.zip" -DestinationPath $d -Force; ri "$d\style-bert-vits2-prompt-master.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して style-bert-vits2-prompt-master.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → style-bert-vits2-prompt-master フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

💬 こう話しかけるだけ — サンプルプロンプト

  • Style-Bert-VITS2 で Happy Style、明るい挨拶のプロンプト
  • SBV2 で jvnv-F1-jp モデル、Sad Style の悲しいモノローグプロンプト
  • Style-Bert-VITS2 で Length Scale 1.3 のゆっくり読み上げプロンプト
  • AivisSpeech で商用OK、YouTube ナレーション用プロンプト
  • SBV2 でアニメキャラ風、Style Weight 2.0 の感情強めプロンプト

これをClaude Code に貼るだけで、このSkillが自動発動します。

📺 実際の使用例(入出力サンプル)

入力

「明るい朝の挨拶ナレーション、Style-Bert-VITS2 で」

Style-Bert-VITS2 用に最適化された出力

Model: AivisSpeech 標準女性(商用OK)
Style: Happy
Style Weight: 1.5

Settings:
- Length Scale: 1.0
- SDP Ratio: 0.2
- Noise: 0.6
- Noise Width: 0.8

Text:
おはようございます!
今日も素敵な一日が始まりましたね。

朝のニュースをお届けします。
本日の最高気温は、にじゅうごど。
お天気は、晴れ時々曇りの予報です。

それでは、今日も笑顔で頑張りましょう!

Web UI(http://localhost:7860)で Model 選択 → Style: Happy → Weight: 1.5 → Text を貼り Generate。RTX 3060 で 1秒、CPU でも数秒で生成完了、ローカル無料。

商用なら AivisSpeech 同梱モデルから「商用利用可」のものを選択して使用。

📖 Claude が読む原文 SKILL.md(中身を展開)

この本文は AI(Claude)が読むための原文(英語または中国語)です。日本語訳は順次追加中。

Style-Bert-VITS2 日本語音声合成マスター

litagin02 が開発、現在は AivisSpeechAIVoiceProj など派生プロジェクトに発展した 日本語特化のオープンソース TTS の決定版Style 切替(怒り・喜び・悲しみ等)で感情豊かな読み上げ、ローカル無料商用OK(個別モデルライセンス次第)。

⚠️ 必ず守る5つのルール

  1. モデル + Style を選ぶ — 同じモデルでも Style で別人のように変わる
  2. Style Weight 調整 — 0.0(中立)〜 5.0(極端)
  3. Length Scale で速度調整 — 1.0=標準、>1.0=ゆっくり、<1.0=早口
  4. SDP Ratio = 0.2 が自然(0.0=機械的、0.5=ランダム)
  5. 改行で句切る — テキスト改行は音声の区切りに反映

出力フォーマット

Model: [モデル名(例: jvnv-F1-jp / jvnv-M1-jp / Anneli 等)]
Style: [Neutral / Happy / Angry / Sad / Disgust / Fear / Surprise]
Style Weight: [0.5〜2.0 推奨]

Settings:
- Length Scale: [1.0 = 標準、ゆっくり=1.2]
- SDP Ratio: 0.2
- Noise: 0.6
- Noise Width: 0.8

Text:
[読み上げ対象テキスト、改行で句切る]

Reference Audio (任意):
[感情参照用の音声ファイル]

Style 一覧(モデルにより異なるが標準的セット)

Style 効果 推奨 Weight
Neutral 中立・標準 1.0
Happy 喜び・明るい 1.5
Angry 怒り 1.0〜1.5
Sad 悲しみ 1.5
Disgust 嫌悪 1.0
Fear 恐怖 1.5
Surprise 驚き 1.5
Calm 落ち着き 0.8

→ 1.0 を超えると効果が誇張、超えすぎると不自然

人気のオープンモデル

モデル 特徴 ライセンス
jvnv-F1-jp 標準女性、自然 学術/個人
jvnv-M1-jp 標準男性 学術/個人
Anneli 表情豊かな女性 個人ライセンス
AivisSpeech 標準 商用OK 個別ライセンス

→ 商用利用は各モデルのライセンスを必ず確認

パラメータ詳細

パラメータ 範囲 効果
Length Scale 0.5-2.0 話速。1.0=標準、1.3=ゆっくり、0.8=早口
SDP Ratio 0.0-1.0 抑揚のランダム性。0.2 が自然
Noise 0.0-1.0 表情の揺らぎ。0.6 推奨
Noise Width 0.0-1.0 揺らぎの幅。0.8 推奨
Style Weight 0.0-5.0 Style の効き具合。1.0-2.0 推奨

テキスト記法のコツ

  • 句読点で間を取る — 「、」「。」「!」「?」が呼吸ポイント
  • 改行で長い間 — 段落区切りは1秒程度の間
  • 漢字確定必須 — 同音異義語の誤読防止
  • 数字は読みを指定 — 「2025年」→「にせんにじゅうごねん」
  • アルファベットは「AI」より「エーアイ」推奨

強み

  • 日本語に特化(海外モデルより圧倒的に自然)
  • 完全ローカル無料(クラウド料金ゼロ)
  • Style 切替で感情豊か
  • VRAM 4GB から動く(CPU でも動作可)
  • オープンソースで派生プロジェクト豊富(AivisSpeech 等)
  • VOICEVOX より自然な感情表現

弱み

  • モデルライセンスがバラバラ — 商用利用は要確認
  • 多言語対応は弱め(日本語特化)
  • セットアップが学術的(初心者向けではない)
  • ボイスクローンは別途学習必要

セットアップの概要

git clone https://github.com/litagin02/Style-Bert-VITS2
pip install -r requirements.txt
# モデル DL → model_assets/ に配置
python app.py  # Web UI 起動

ユーザーへの注意点(末尾に毎回付ける)

  1. ライセンス: モデルごとに異なる、商用利用前に必ず確認
  2. AivisSpeech は商用OKモデルが標準同梱、初心者にはこちら推奨
  3. GitHub / 公式 Discord で最新モデル入手
  4. 日本語キャラクター音声・実況・配信・YouTube ナレーションで最強
  5. ボイスクローンは別途学習、20分の音声で個別モデル作成可能