💼 ビジネスコミュニティ

ai-avatar-video

AIアバターやバーチャルプレゼンターを音声から自動生成し、リップシンク動画や解説動画を作成するSkill。

📜 元の英語説明(参考)

Create AI avatar and talking head videos with OmniHuman, Fabric, PixVerse via inference.sh CLI. Models: OmniHuman 1.5, OmniHuman 1.0, Fabric 1.0, PixVerse Lipsync. Capabilities: audio-driven avatars, lipsync videos, talking head generation, virtual presenters. Use for: AI presenters, explainer videos, virtual influencers, dubbing, marketing videos. Triggers: ai avatar, talking head, lipsync, avatar video, virtual presenter, ai spokesperson, audio driven video, heygen alternative, synthesia alternative, talking avatar, lip sync, video avatar, ai presenter, digital human

🇯🇵 日本人クリエイター向け解説

一言でいうと

AIアバターやバーチャルプレゼンターを音声から自動生成し、リップシンク動画や解説動画を作成するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⬇ このSkillをダウンロード(.skill) 元のソースを見る ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-17
取得日時: 2026-05-17
同梱ファイル: 1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

AIアバター＆トーキングヘッド動画

AI Avatar & Talking Head Videos

inference.sh CLI を介して、AIアバターとトーキングヘッド動画を作成できます。

クイックスタート

curl -fsSL https://cli.inference.sh | sh && infsh login

# 画像と音声からアバター動画を作成
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

利用可能なモデル

モデル	アプリID	最適な用途
OmniHuman 1.5	`bytedance/omnihuman-1-5`	複数キャラクター、最高品質
OmniHuman 1.0	`bytedance/omnihuman-1-0`	シングルキャラクター
Fabric 1.0	`falai/fabric-1-0`	画像がリップシンクで話す
PixVerse Lipsync	`falai/pixverse-lipsync`	非常にリアル

アバターアプリの検索

infsh app list --search "omnihuman"
infsh app list --search "lipsync"
infsh app list --search "fabric"

例

OmniHuman 1.5 (複数キャラクター)

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

複数人の画像で、どのキャラクターを動かすかを指定するのをサポートしています。

Fabric 1.0 (画像が話す)

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://face.jpg",
  "audio_url": "https://audio.mp3"
}'

PixVerse Lipsync

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

あらゆる音声から非常にリアルなリップシンクを生成します。

完全なワークフロー：TTS + アバター

# 1. テキストから音声を生成
infsh app run infsh/kokoro-tts --input '{
  "text": "Welcome to our product demo. Today I will show you..."
}' > speech.json

# 2. 音声を使ってアバター動画を作成
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://presenter-photo.jpg",
  "audio_url": "<audio-url-from-step-1>"
}'

完全なワークフロー：動画を別の言語に吹き替え

# 1. 元の動画を文字起こし
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://video.mp4"}' > transcript.json

# 2. テキストを翻訳 (手動またはLLMを使用)

# 3. 新しい言語で音声を生成
infsh app run infsh/kokoro-tts --input '{"text": "<translated-text>"}' > new_speech.json

# 4. 新しい音声で元の動画をリップシンク
infsh app run infsh/latentsync-1-6 --input '{
  "video_url": "https://original-video.mp4",
  "audio_url": "<new-audio-url>"
}'

ユースケース

マーケティング: AIプレゼンターによる製品デモ
教育: コース動画、解説動画
ローカライゼーション: 複数の言語でのコンテンツの吹き替え
ソーシャルメディア: 一貫性のあるバーチャルインフルエンサー
企業: トレーニング動画、アナウンス

ヒント

高品質のポートレート写真（正面向き、良好な照明）を使用してください
音声はクリアで、背景ノイズが最小限であるべきです
OmniHuman 1.5 は1枚の画像に複数の人物をサポートしています
LatentSync は既存の動画を新しい音声に同期させるのに最適です

ドキュメント

Running Apps - CLI を介したアプリの実行方法
Content Pipeline Example - メディアワークフローの構築
Streaming Results - リアルタイムの進捗状況の更新

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

AI Avatar & Talking Head Videos

Create AI avatars and talking head videos via inference.sh CLI.

Quick Start

curl -fsSL https://cli.inference.sh | sh && infsh login

# Create avatar video from image + audio
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Available Models

Model	App ID	Best For
OmniHuman 1.5	`bytedance/omnihuman-1-5`	Multi-character, best quality
OmniHuman 1.0	`bytedance/omnihuman-1-0`	Single character
Fabric 1.0	`falai/fabric-1-0`	Image talks with lipsync
PixVerse Lipsync	`falai/pixverse-lipsync`	Highly realistic

Search Avatar Apps

infsh app list --search "omnihuman"
infsh app list --search "lipsync"
infsh app list --search "fabric"

Examples

OmniHuman 1.5 (Multi-Character)

infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Supports specifying which character to drive in multi-person images.

Fabric 1.0 (Image Talks)

infsh app run falai/fabric-1-0 --input '{
  "image_url": "https://face.jpg",
  "audio_url": "https://audio.mp3"
}'

PixVerse Lipsync

infsh app run falai/pixverse-lipsync --input '{
  "image_url": "https://portrait.jpg",
  "audio_url": "https://speech.mp3"
}'

Generates highly realistic lipsync from any audio.

Full Workflow: TTS + Avatar

# 1. Generate speech from text
infsh app run infsh/kokoro-tts --input '{
  "text": "Welcome to our product demo. Today I will show you..."
}' > speech.json

# 2. Create avatar video with the speech
infsh app run bytedance/omnihuman-1-5 --input '{
  "image_url": "https://presenter-photo.jpg",
  "audio_url": "<audio-url-from-step-1>"
}'

Full Workflow: Dub Video in Another Language

# 1. Transcribe original video
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://video.mp4"}' > transcript.json

# 2. Translate text (manually or with an LLM)

# 3. Generate speech in new language
infsh app run infsh/kokoro-tts --input '{"text": "<translated-text>"}' > new_speech.json

# 4. Lipsync the original video with new audio
infsh app run infsh/latentsync-1-6 --input '{
  "video_url": "https://original-video.mp4",
  "audio_url": "<new-audio-url>"
}'

Use Cases

Marketing: Product demos with AI presenter
Education: Course videos, explainers
Localization: Dub content in multiple languages
Social Media: Consistent virtual influencer
Corporate: Training videos, announcements

Tips

Use high-quality portrait photos (front-facing, good lighting)
Audio should be clear with minimal background noise
OmniHuman 1.5 supports multiple people in one image
LatentSync is best for syncing existing videos to new audio

Related Skills

# Full platform skill (all 150+ apps)
npx skills add inferencesh/skills@inference-sh

# Text-to-speech (generate audio for avatars)
npx skills add inferencesh/skills@text-to-speech

# Speech-to-text (transcribe for dubbing)
npx skills add inferencesh/skills@speech-to-text

# Video generation
npx skills add inferencesh/skills@ai-video-generation

# Image generation (create avatar images)
npx skills add inferencesh/skills@ai-image-generation

Browse all video apps: infsh app list --category video

Documentation

Running Apps - How to run apps via CLI
Content Pipeline Example - Building media workflows
Streaming Results - Real-time progress updates

ai-avatar-video

🇯🇵 日本人クリエイター向け解説

🎯 このSkillでできること

📦 インストール方法 (3ステップ)

📖 Skill本文(日本語訳)

AIアバター＆トーキングヘッド動画

クイックスタート

利用可能なモデル

アバターアプリの検索

例

OmniHuman 1.5 (複数キャラクター)

Fabric 1.0 (画像が話す)

PixVerse Lipsync

完全なワークフロー：TTS + アバター

完全なワークフロー：動画を別の言語に吹き替え

ユースケース

ヒント

関連スキル

ドキュメント

AI Avatar & Talking Head Videos

Quick Start

Available Models

Search Avatar Apps

Examples

OmniHuman 1.5 (Multi-Character)

Fabric 1.0 (Image Talks)

PixVerse Lipsync

Full Workflow: TTS + Avatar

Full Workflow: Dub Video in Another Language

Use Cases

Tips

Related Skills

Documentation