jpskill.com
🛠️ 開発・MCP コミュニティ

vibe-voice

MicrosoftのVibeVoiceを活用し、音声アシスタント開発やアプリへの音声認識・合成機能追加、リアルタイム音声会話、声のクローン作成など、最先端の音声AIアプリケーションを構築するSkill。

📜 元の英語説明(参考)

Build voice AI applications using Microsoft's VibeVoice — open-source frontier voice synthesis, recognition, and real-time conversation. Use when: building voice assistants, adding TTS/STT to applications, creating real-time voice chat, voice cloning.

🇯🇵 日本人クリエイター向け解説

一言でいうと

MicrosoftのVibeVoiceを活用し、音声アシスタント開発やアプリへの音声認識・合成機能追加、リアルタイム音声会話、声のクローン作成など、最先端の音声AIアプリケーションを構築するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o vibe-voice.zip https://jpskill.com/download/15538.zip && unzip -o vibe-voice.zip && rm vibe-voice.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/15538.zip -OutFile "$d\vibe-voice.zip"; Expand-Archive "$d\vibe-voice.zip" -DestinationPath $d -Force; ri "$d\vibe-voice.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して vibe-voice.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → vibe-voice フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

VibeVoice

Microsoft発のオープンソースの最先端音声AIです。テキスト読み上げ (TTS)、自動音声認識 (ASR)、リアルタイムストリーミング合成のためのモデルファミリーです。

GitHub: microsoft/VibeVoice

概要

VibeVoiceはMicrosoftのオープンソース音声AIプラットフォームであり、3つのモデルサイズを提供しています。話者ダイアライゼーションによる文字起こし用のASR (7B)、マルチスピーカーの長文合成用のTTS (1.5B)、低遅延ストリーミング用のRealtime (0.5B)です。50以上の言語をサポートし、コンシューマーGPU上で動作します。

手順

インストール

pip install vibevoice
# または、開発用にクローン
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -e .

ハードウェア要件

  • ASR (7B): ~16GB VRAM (GPU推奨)
  • TTS (1.5B): ~6GB VRAM
  • Realtime (0.5B): ~2GB VRAM (コンシューマーGPU上で動作)

テキスト読み上げ (TTS)

from vibevoice import VibeVoiceTTS

model = VibeVoiceTTS.from_pretrained("microsoft/VibeVoice-1.5B")

# シングルスピーカー
audio = model.synthesize(
    text="Hello, welcome to the future of voice AI.",
    speaker="default"
)
audio.save("output.wav")

マルチスピーカー会話

最大4人の異なる話者によるポッドキャストスタイルのオーディオを生成します。

conversation = [
    {"speaker": "host", "text": "Welcome to the show! Today we're discussing AI."},
    {"speaker": "guest1", "text": "Thanks for having me. I'm excited to dive in."},
    {"speaker": "host", "text": "Let's start with the biggest trends you're seeing."},
    {"speaker": "guest2", "text": "I think voice AI is the most underrated development."},
]

audio = model.synthesize_conversation(conversation)
audio.save("podcast.wav")  # 1回の処理で最大90分

リアルタイムストリーミングTTS

from vibevoice import VibeVoiceRealtime

model = VibeVoiceRealtime.from_pretrained("microsoft/VibeVoice-Realtime-0.5B")

for audio_chunk in model.stream("This is being generated in real time."):
    play_audio(audio_chunk)

自動音声認識 (ASR)

from vibevoice import VibeVoiceASR

model = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR")

# 基本的な文字起こし
result = model.transcribe("meeting_recording.wav")
print(result.text)

# ダイアライゼーションによるリッチな文字起こし
result = model.transcribe("meeting.wav", diarize=True, timestamps=True)
for segment in result.segments:
    print(f"[{segment.start:.1f}s - {segment.end:.1f}s] "
          f"Speaker {segment.speaker}: {segment.text}")

カスタムホットワード

result = model.transcribe(
    "medical_consultation.wav",
    hotwords=["Lisinopril", "Metformin", "HbA1c", "systolic"]
)

例 1: 音声アシスタントの構築

from vibevoice import VibeVoiceASR, VibeVoiceRealtime

asr = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR")
tts = VibeVoiceRealtime.from_pretrained("microsoft/VibeVoice-Realtime-0.5B")

# 聞く → 文字起こし → 応答 → 話す
user_text = asr.transcribe("user_input.wav").text
response = generate_response(user_text)  # LLMの呼び出し
for chunk in tts.stream(response):
    play_audio(chunk)

例 2: 話者ラベル付きの会議の文字起こし

result = asr.transcribe("team_standup.wav", diarize=True, timestamps=True)
for segment in result.segments:
    print(f"[{segment.start:.1f}s] Speaker {segment.speaker}: {segment.text}")

# 出力:
# [0.0s] Speaker 1: Let's review the Q3 numbers.
# [3.5s] Speaker 2: Revenue is up 15% from last quarter.
# [8.4s] Speaker 1: That's great. What about customer acquisition?

ガイドライン

  • レイテンシが重要な音声アシスタントには、Realtime (0.5B) モデルを使用してください
  • ASRモデルは、1回の処理で最大60分のオーディオを処理します
  • TTSは、最大90分のマルチスピーカーオーディオ生成をサポートします
  • ドメイン固有の用語 (医療、法律、技術) には、カスタムホットワードを使用してください
  • 本番環境では、より高速なASR推論のためにvLLMを検討してください
  • 多言語音声は実験的なものです — デプロイする前に品質をテストしてください
  • 7.5 Hzのフレームレートにより、効率的な長系列処理が可能です

リソース

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

VibeVoice

Open-source frontier voice AI from Microsoft. Family of models for text-to-speech (TTS), automatic speech recognition (ASR), and real-time streaming synthesis.

GitHub: microsoft/VibeVoice

Overview

VibeVoice is Microsoft's open-source voice AI platform offering three model sizes: ASR (7B) for transcription with speaker diarization, TTS (1.5B) for multi-speaker long-form synthesis, and Realtime (0.5B) for low-latency streaming. It supports 50+ languages and runs on consumer GPUs.

Instructions

Installation

pip install vibevoice
# Or clone for development
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -e .

Hardware Requirements

  • ASR (7B): ~16GB VRAM (GPU recommended)
  • TTS (1.5B): ~6GB VRAM
  • Realtime (0.5B): ~2GB VRAM (runs on consumer GPUs)

Text-to-Speech (TTS)

from vibevoice import VibeVoiceTTS

model = VibeVoiceTTS.from_pretrained("microsoft/VibeVoice-1.5B")

# Single speaker
audio = model.synthesize(
    text="Hello, welcome to the future of voice AI.",
    speaker="default"
)
audio.save("output.wav")

Multi-Speaker Conversation

Generate podcast-style audio with up to 4 distinct speakers:

conversation = [
    {"speaker": "host", "text": "Welcome to the show! Today we're discussing AI."},
    {"speaker": "guest1", "text": "Thanks for having me. I'm excited to dive in."},
    {"speaker": "host", "text": "Let's start with the biggest trends you're seeing."},
    {"speaker": "guest2", "text": "I think voice AI is the most underrated development."},
]

audio = model.synthesize_conversation(conversation)
audio.save("podcast.wav")  # Up to 90 minutes in a single pass

Real-Time Streaming TTS

from vibevoice import VibeVoiceRealtime

model = VibeVoiceRealtime.from_pretrained("microsoft/VibeVoice-Realtime-0.5B")

for audio_chunk in model.stream("This is being generated in real time."):
    play_audio(audio_chunk)

Automatic Speech Recognition (ASR)

from vibevoice import VibeVoiceASR

model = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR")

# Basic transcription
result = model.transcribe("meeting_recording.wav")
print(result.text)

# Rich transcription with diarization
result = model.transcribe("meeting.wav", diarize=True, timestamps=True)
for segment in result.segments:
    print(f"[{segment.start:.1f}s - {segment.end:.1f}s] "
          f"Speaker {segment.speaker}: {segment.text}")

Custom Hotwords

result = model.transcribe(
    "medical_consultation.wav",
    hotwords=["Lisinopril", "Metformin", "HbA1c", "systolic"]
)

Examples

Example 1: Build a Voice Assistant

from vibevoice import VibeVoiceASR, VibeVoiceRealtime

asr = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR")
tts = VibeVoiceRealtime.from_pretrained("microsoft/VibeVoice-Realtime-0.5B")

# Listen → Transcribe → Respond → Speak
user_text = asr.transcribe("user_input.wav").text
response = generate_response(user_text)  # Your LLM call
for chunk in tts.stream(response):
    play_audio(chunk)

Example 2: Meeting Transcription with Speaker Labels

result = asr.transcribe("team_standup.wav", diarize=True, timestamps=True)
for segment in result.segments:
    print(f"[{segment.start:.1f}s] Speaker {segment.speaker}: {segment.text}")

# Output:
# [0.0s] Speaker 1: Let's review the Q3 numbers.
# [3.5s] Speaker 2: Revenue is up 15% from last quarter.
# [8.4s] Speaker 1: That's great. What about customer acquisition?

Guidelines

  • Use the Realtime (0.5B) model for voice assistants where latency matters
  • The ASR model handles up to 60 minutes of audio in a single pass
  • TTS supports up to 90 minutes of multi-speaker audio generation
  • Use custom hotwords for domain-specific terms (medical, legal, technical)
  • For production, consider vLLM for faster ASR inference
  • Multilingual voices are experimental — test quality before deploying
  • 7.5 Hz frame rate enables efficient long-sequence processing

Resources