wan-2-7
RunComfy上でWan 2.7を用いて、テキストから高品質な動画を生成し、音声によるリップシンクやスムーズなトランジション、プロンプト拡張などの機能を活用、動画時間や解像度などを調整して最適な動画を作成するSkill。
📜 元の英語説明(参考)
Generate text-to-video with Wan 2.7 (Wan-AI's flagship motion model) on RunComfy. Documents Wan 2.7's strengths (multi-reference conditioning, audio-driven lip-sync via `audio_url`, smoother transitions, prompt expansion), the duration / resolution / aspect-ratio schema, and when to route to HappyHorse 1.0 / Seedance 2.0 / Kling / LTX 2 instead. Calls `runcomfy run wan-ai/wan-2-7/text-to-video` through the local RunComfy CLI. Triggers on "wan", "wan 2.7", "wan-2-7", "wan video", or any explicit ask to generate video with this model.
🇯🇵 日本人クリエイター向け解説
RunComfy上でWan 2.7を用いて、テキストから高品質な動画を生成し、音声によるリップシンクやスムーズなトランジション、プロンプト拡張などの機能を活用、動画時間や解像度などを調整して最適な動画を作成するSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o wan-2-7.zip https://jpskill.com/download/10381.zip && unzip -o wan-2-7.zip && rm wan-2-7.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/10381.zip -OutFile "$d\wan-2-7.zip"; Expand-Archive "$d\wan-2-7.zip" -DestinationPath $d -Force; ri "$d\wan-2-7.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
wan-2-7.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
wan-2-7フォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
Wan 2.7 — RunComfy上のPro Pack
runcomfy.com · Text-to-video · GitHub
Wan-AIのWan 2.7 — マルチリファレンス条件付けと音声駆動リップシンクを備えた、フラッグシップビデオモデル — は、RunComfy Model APIでホストされています。
npx skills add agentspace-so/runcomfy-skills --skill wan-2-7 -g
(兄弟モデルと比較して)このモデルを選ぶべき時
| 必要なもの | 使用するモデル |
|---|---|
| 提供するオーディオトラックにリップシンクビデオを合わせたい | Wan 2.7 (audio_url) |
| マルチリファレンスによる細かいモーションコントロール | Wan 2.7 |
| スムーズなトランジション、正確なモーション物理 | Wan 2.7 |
| 現在#1のブラインド投票ビデオモデル | HappyHorse 1.0 |
| 画像+ビデオ+オーディオ参照とインパス音声生成によるマルチモーダルシネマティック | Seedance 2.0 Pro |
| 既存の映像に対するシネマティックモーション編集 | Kling Video O1 |
| 超高速イテレーション | LTX 2 |
ユーザーが「Wan」「Wan 2.7」「wan-ai」「alibaba video」を明示的に言及した場合は、必ずここにルーティングしてください。
前提条件
- RunComfy CLI —
npm i -g @runcomfy/cli - RunComfy アカウント —
runcomfy loginでブラウザのデバイスコードフローが開きます。 - CI / コンテナ —
runcomfy loginの代わりにRUNCOMFY_TOKEN=<token>を設定します。
エンドポイント + 入力スキーマ
wan-ai/wan-2-7/text-to-video
| フィールド | タイプ | 必須 | デフォルト | 注 |
|---|---|---|---|---|
prompt |
string | yes | — | 最大約5000文字 / 約1500トークン。 |
audio_url |
string | no | — | WAV/MP3、3–30秒、≤15MB。リップシンクを駆動します。 省略すると、BGMが自動生成されます。 |
aspect_ratio |
enum | no | 16:9 |
16:9, 9:16, 1:1, 4:3, 3:4。 |
resolution |
enum | no | 1080p |
720p または 1080p。 |
duration |
enum | no | 5 |
2–15 (秒単位の整数)。 |
negative_prompt |
string | no | — | 最大500文字。回避すべき具体的な問題。 |
enable_prompt_expansion |
bool | no | true | 短いプロンプトを自動的に書き換えます。リテラルコントロールの場合は無効にします。 |
seed |
int | no | — | 0..2^31-1。バリアントのために再利用します。 |
呼び出し方法
デフォルト (5秒 1080p 16:9、プロンプト拡張あり):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{"prompt": "<user prompt>"}' \
--output-dir <absolute/path>
音声駆動リップシンク (独自のトラック):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{
"prompt": "Medium close-up of the spokesperson, warm key light, locked tripod, slight breathing motion.",
"audio_url": "https://.../voiceover.mp3",
"duration": 12,
"aspect_ratio": "9:16"
}' \
--output-dir <absolute/path>
リテラルコントロール (自動拡張なし):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{
"prompt": "<exactly what you want, verbatim>",
"enable_prompt_expansion": false,
"negative_prompt": "no subtitles, no flicker, no distorted hands"
}' \
--output-dir <absolute/path>
プロンプト — 実際に効果があるもの
カメラ + モーションを平易な英語で。 「Slow dolly in」、「locked tripod, low angle」、「handheld follow」、「crane move from above」。ショットを最初に記述します。
クリップごとに1つの主要なアクション。 複数の競合するアクションを積み重ねないでください。ビートを選びます。「she turns, then smiles」ではなく「she turns AND smiles AND a bus passes AND...」。
具体的な問題には negative_prompt を使用します。 良い例: 「no subtitles, no watermark, no flicker」。悪い例 (曖昧): 「no bad lighting」。
プロンプト拡張はデフォルトでオンになっています。 短いプロンプトはモデルによって自動的に書き換えられます。簡潔/リテラルなプロンプト (例: ブランドに厳格な広告コピー) の場合は、enable_prompt_expansion: false で無効にします。
オーディオの仕様が重要です。 audio_url は 3–30秒、≤15MB、WAV/MP3 である必要があります。範囲外のファイルは拒否されます。オーディオの長さをクリップの長さに合わせます。
シードを反復処理します。 同じプロンプトのバリアント間で一貫した出力を得るには、同じシードを再利用します。真の変化を得るには、シードを変更します。
アンチパターン:
- 静止フレームの説明 → モーションが曖昧になります。
- 曖昧なネガティブ ("no bad colors") → 無視されます。
- 3–30秒 / 15MB / WAV-MP3 仕様外のオーディオ → 拒否されます。
- プロンプトが 5000文字 / 1500トークンを超える → 出力が低下します。
輝く場所
| ユースケース | Wan 2.7を選ぶ理由 |
|---|---|
| カスタムボイスオーバーによるリップシンク広告 | audio_url があなたのトラックを受け入れます |
| 多言語吹き替えバリアント | 同じプロンプト、言語ごとに異なる audio_url |
| マルチリファレンスモーションコントロール | 最大5つの参照メディア (画像 / ビデオ / 音声) |
| スムーズなトランジション + モーション物理 | 強力な物理を意識したモーション事前分布 |
| ネガティブプロンプトによるクリーンな出力 | ターゲットを絞った問題の除外 |
サンプルプロンプト (強力な結果を生み出すことが確認されています)
ページ例 (製品ショーケース):
Cinematic medium shot of a product on a marble surface, soft studio
lighting, slow subtle camera push-in, shallow depth of field, premium
commercial look, crisp 1080p detail
リップシンクスポークスパーソン (with audio_url):
Medium close-up of a confident spokesperson in a softly-lit recording
booth, leaning slightly toward the camera, locked tripod, shallow depth
of field, warm key light from camera-left.
垂直プラットフォームネイティブ:
9:16 vertical short. A barista pulls a single espresso shot, steam
rising into morning sun, rich crema slowly forming. Close-up handheld,
shallow DOF, warm cafe ambience.
制限事項
- 最大継続時間15秒。 より長いナラティブの場合は、複数の呼び出しをステッチします。
- ネイティブ4Kなし — 1080pが上限です。
- アスペクト比 — ドキュメント化された5つの値のみ。
- オーディオ仕様 — 3–30秒、≤15MB、WAV/MP3のみ。
- 参照メディアの上限5 (画像 + ビデオ + 音声の組み合わせ)。
- インパス音声生成 (個別のオーディオトラックなし) の場合は、Seedance 2.0 Proを使用してください — Wanは音声を生成するのではなく、音声を受け入れます。
終了コード
| コード | 意味 |
|---|---|
| 0 | 成功 |
| 64 | 不正なCLI引数 |
| 65 | 不正な入力JSON / スキーマの不一致 |
| 69 | アップストリーム5xx |
| 75 | 再試行可能 |
(原文はここで切り詰められています)
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
Wan 2.7 — Pro Pack on RunComfy
runcomfy.com · Text-to-video · GitHub
Wan-AI's Wan 2.7 — flagship video model with multi-reference conditioning and audio-driven lip-sync — hosted on the RunComfy Model API.
npx skills add agentspace-so/runcomfy-skills --skill wan-2-7 -g
When to pick this model (vs siblings)
| You want | Use |
|---|---|
| Lip-sync video to an audio track you supply | Wan 2.7 (audio_url) |
| Multi-reference fine motion control | Wan 2.7 |
| Smooth transitions, accurate motion physics | Wan 2.7 |
| Currently-#1 blind-vote video model | HappyHorse 1.0 |
| Multi-modal cinematic with image+video+audio refs + in-pass voice generation | Seedance 2.0 Pro |
| Cinematic motion editing on existing footage | Kling Video O1 |
| Ultra-fast iteration | LTX 2 |
If the user said "Wan" / "Wan 2.7" / "wan-ai" / "alibaba video" explicitly, route here regardless.
Prerequisites
- RunComfy CLI —
npm i -g @runcomfy/cli - RunComfy account —
runcomfy loginopens a browser device-code flow. - CI / containers — set
RUNCOMFY_TOKEN=<token>instead ofruncomfy login.
Endpoints + input schema
wan-ai/wan-2-7/text-to-video
| Field | Type | Required | Default | Notes |
|---|---|---|---|---|
prompt |
string | yes | — | Up to ~5000 chars / ~1500 tokens. |
audio_url |
string | no | — | WAV/MP3, 3–30s, ≤15MB. Drives lip-sync. Omit → background music auto-generated. |
aspect_ratio |
enum | no | 16:9 |
16:9, 9:16, 1:1, 4:3, 3:4. |
resolution |
enum | no | 1080p |
720p or 1080p. |
duration |
enum | no | 5 |
2–15 (whole seconds). |
negative_prompt |
string | no | — | Up to 500 chars. Concrete issues to avoid. |
enable_prompt_expansion |
bool | no | true | Auto-rewrites short prompts. Disable for literal control. |
seed |
int | no | — | 0..2^31-1. Reuse for variants. |
How to invoke
Default (5s 1080p 16:9, prompt-expanded):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{"prompt": "<user prompt>"}' \
--output-dir <absolute/path>
Audio-driven lip-sync (your own track):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{
"prompt": "Medium close-up of the spokesperson, warm key light, locked tripod, slight breathing motion.",
"audio_url": "https://.../voiceover.mp3",
"duration": 12,
"aspect_ratio": "9:16"
}' \
--output-dir <absolute/path>
Literal control (no auto-expansion):
runcomfy run wan-ai/wan-2-7/text-to-video \
--input '{
"prompt": "<exactly what you want, verbatim>",
"enable_prompt_expansion": false,
"negative_prompt": "no subtitles, no flicker, no distorted hands"
}' \
--output-dir <absolute/path>
Prompting — what actually works
Camera + motion in plain English. "Slow dolly in", "locked tripod, low angle", "handheld follow", "crane move from above". Front-load the shot.
One primary action per clip. Don't pile up multiple competing actions. Pick the beat: "she turns, then smiles" not "she turns AND smiles AND a bus passes AND...".
Use negative_prompt for concrete issues. Good: "no subtitles, no watermark, no flicker". Bad (vague): "no bad lighting".
Prompt expansion is on by default. Short prompts get auto-rewritten by the model. For terse / literal prompts (e.g. brand-strict ad copy), disable with enable_prompt_expansion: false.
Audio specs matter. audio_url must be 3–30s, ≤15MB, WAV/MP3. Out-of-range files reject. Match audio length to clip duration.
Iterate seeds. Reuse the same seed when you want consistent output across variants of the same prompt. Change seed for genuine variety.
Anti-patterns:
- Static-frame descriptions → motion will be vague.
- Vague negatives ("no bad colors") → ignored.
- Audio outside the 3–30s / 15MB / WAV-MP3 spec → rejected.
- Prompts > 5000 chars / 1500 tokens → degraded output.
Where it shines
| Use case | Why Wan 2.7 |
|---|---|
| Lip-synced ads with custom voiceover | audio_url accepts your track |
| Multi-language dub variants | Same prompt, different audio_url per language |
| Multi-reference motion control | Up to 5 reference media (image / video / voice) |
| Smooth transitions + motion physics | Strong physics-aware motion priors |
| Negative-prompted clean output | Targeted issue exclusion |
Sample prompts (verified to produce strong results)
Page example (product showcase):
Cinematic medium shot of a product on a marble surface, soft studio
lighting, slow subtle camera push-in, shallow depth of field, premium
commercial look, crisp 1080p detail
Lip-synced spokesperson (with audio_url):
Medium close-up of a confident spokesperson in a softly-lit recording
booth, leaning slightly toward the camera, locked tripod, shallow depth
of field, warm key light from camera-left.
Vertical platform-native:
9:16 vertical short. A barista pulls a single espresso shot, steam
rising into morning sun, rich crema slowly forming. Close-up handheld,
shallow DOF, warm cafe ambience.
Limitations
- Duration cap 15s. For longer narratives, stitch multiple calls.
- No native 4K — 1080p ceiling.
- Aspect ratios — only the 5 documented values.
- Audio specs — 3–30s, ≤15MB, WAV/MP3 only.
- Reference media cap 5 (image + video + voice combined).
- For in-pass voice generation (no separate audio track), use Seedance 2.0 Pro — Wan accepts audio rather than generating it.
Exit codes
| code | meaning |
|---|---|
| 0 | success |
| 64 | bad CLI args |
| 65 | bad input JSON / schema mismatch |
| 69 | upstream 5xx |
| 75 | retryable: timeout / 429 |
| 77 | not signed in or token rejected |
Full reference: docs.runcomfy.com/cli/troubleshooting.
How it works
The skill invokes runcomfy run wan-ai/wan-2-7/text-to-video with a JSON body matching the schema. The CLI POSTs to https://model-api.runcomfy.net/v1/models/wan-ai/wan-2-7/text-to-video, polls the request, fetches the result, and downloads any .runcomfy.net/.runcomfy.com URL into --output-dir. Ctrl-C cancels the remote request before exit.
Security & Privacy
- Token storage:
runcomfy loginwrites the API token to~/.config/runcomfy/token.jsonwith mode 0600 (owner-only read/write). SetRUNCOMFY_TOKENenv var to bypass the file entirely in CI / containers. - Input boundary: the user prompt is passed as a JSON string to the CLI via
--input. The CLI does NOT shell-expand the prompt; it transmits the JSON body directly to the Model API over HTTPS. No shell injection surface from prompt content. - Third-party content: image / mask / video URLs you pass are fetched by the RunComfy model server, not by the CLI on your machine. Treat external URLs as untrusted; image-based prompt injection is a known risk for any image-edit / video-edit model.
- Outbound endpoints: only
model-api.runcomfy.net(request submission) and*.runcomfy.net/*.runcomfy.com(download whitelist for generated outputs). No telemetry, no callbacks. - Generated-file size cap: the CLI aborts any single download > 2 GiB to prevent disk-fill from a malicious or runaway model output.