multimodal-gen
ユーザーが画像や動画の生成、AIによるイラスト作成などを希望した際に、自動で適切なAIエージェントを呼び出し、テキストから画像や動画を生成するSkill。
📜 元の英語説明(参考)
多模态内容生成(图片、视频)。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频、文生图、文生视频时使用此技能。自动调用 multimodal-agent 进行生成。
🇯🇵 日本人クリエイター向け解説
ユーザーが画像や動画の生成、AIによるイラスト作成などを希望した際に、自動で適切なAIエージェントを呼び出し、テキストから画像や動画を生成するSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o multimodal-gen.zip https://jpskill.com/download/8199.zip && unzip -o multimodal-gen.zip && rm multimodal-gen.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/8199.zip -OutFile "$d\multimodal-gen.zip"; Expand-Archive "$d\multimodal-gen.zip" -DestinationPath $d -Force; ri "$d\multimodal-gen.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
multimodal-gen.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
multimodal-genフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
多模态内容生成
ユーザーが画像や動画の生成を必要とする場合、自動的に multimodal-agent を呼び出して処理を行います。
触发场景
画像生成
- "生成一张图片" (画像を生成して)
- "画一张..." (~を描いて...)
- "AI 作图" (AI 作画)
- "文生图" (テキストから画像を生成)
- "帮我生成图像" (画像の生成を手伝って)
- "用 flux/imagen/dalle 生成" (flux/imagen/dalle を使って生成)
视频生成
- "生成一个视频" (動画を生成して)
- "做个视频" (動画を作って)
- "文生视频" (テキストから動画を生成)
- "用 veo/sora/kling 生成视频" (veo/sora/kling を使って動画を生成)
使用方式
自动调用 multimodal-agent
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: {用户描述}, 使用 {模型} 模型"
)
可用模型
图片生成
| 别名 | 模型 | 特点 |
|---|---|---|
flux |
flux-pro-max | 高品質、おすすめ |
imagen |
google/imagen-4-ultra | Google 最強 |
dalle |
gpt-image-1 | DALL-E 3 |
doubao |
doubao-seedream-4-5 | 中華風美学 |
klingimg |
kling-image | 可灵生图 |
视频生成
| 别名 | 模型 | 特点 |
|---|---|---|
veopro |
veo3.1-pro | Google プロフェッショナル版 |
veo4k |
veo3.1-pro-4k | 4K 高画質 |
sora |
sora-2-pro-all | OpenAI Sora |
kling |
kling-video | 可灵视频 |
执行流程
用户请求 "生成一张猫咪图片" (猫の画像を生成して)
│
▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求 │
│ 2. 提取描述: "猫咪" │
│ 3. 选择默认模型: flux-pro-max │
└─────────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ sessions_spawn( │
│ agentId="multimodal-agent", │
│ task="生成图片: 一只可爱的猫咪, │
│ 使用 flux 模型" │
│ ) │
└─────────────────────────────────────┘
│
▼
multimodal-agent 执行生成并返回结果
示例
生成图片
用户: 帮我生成一张日落海滩的图片 (夕焼けのビーチの画像を生成して)
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: 日落时分的海滩,金色阳光洒在海面上,使用 flux 模型"
)
生成视频
用户: 用 sora 生成一个猫咪玩耍的视频 (sora を使って猫が遊んでいる動画を生成して)
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成视频: 一只可爱的猫咪在草地上玩耍,使用 sora 模型"
)
指定模型
用户: 用 doubao 画一张中国风山水画 (doubao を使って中国風の山水画を描いて)
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: 中国风山水画,云雾缭绕的山峰,使用 doubao 模型"
)
模型选择建议
| 场景 | 推荐模型 |
|---|---|
| 通用高质量 | flux |
| 中式风格 | doubao |
| 写实照片 | imagen |
| 创意艺术 | dalle |
| 高清视频 | veo4k |
| 电影级视频 | sora |
| 快速视频 | kling |
注意事项
- 提示词优化: multimodal-agent はユーザーの記述を自動的に最適化します。
- 模型选择: ユーザーが指定しない場合、デフォルトで flux (画像) または veopro (動画) を使用します。
- 异步执行: 動画生成には時間がかかる場合があり、バックグラウンドで実行されます。
- 结果返回: 生成が完了すると、結果が自動的にユーザーに送信されます。
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
多模态内容生成
当用户需要生成图片或视频时,自动调用 multimodal-agent 进行处理。
触发场景
图片生成
- "生成一张图片"
- "画一张..."
- "AI 作图"
- "文生图"
- "帮我生成图像"
- "用 flux/imagen/dalle 生成"
视频生成
- "生成一个视频"
- "做个视频"
- "文生视频"
- "用 veo/sora/kling 生成视频"
使用方式
自动调用 multimodal-agent
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: {用户描述}, 使用 {模型} 模型"
)
可用模型
图片生成
| 别名 | 模型 | 特点 |
|---|---|---|
flux |
flux-pro-max | 高质量,推荐 |
imagen |
google/imagen-4-ultra | Google 最强 |
dalle |
gpt-image-1 | DALL-E 3 |
doubao |
doubao-seedream-4-5 | 中式美学 |
klingimg |
kling-image | 可灵生图 |
视频生成
| 别名 | 模型 | 特点 |
|---|---|---|
veopro |
veo3.1-pro | Google 专业版 |
veo4k |
veo3.1-pro-4k | 4K 高清 |
sora |
sora-2-pro-all | OpenAI Sora |
kling |
kling-video | 可灵视频 |
执行流程
用户请求 "生成一张猫咪图片"
│
▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求 │
│ 2. 提取描述: "猫咪" │
│ 3. 选择默认模型: flux-pro-max │
└─────────────────────────────────────┘
│
▼
┌─────────────────────────────────────┐
│ sessions_spawn( │
│ agentId="multimodal-agent", │
│ task="生成图片: 一只可爱的猫咪, │
│ 使用 flux 模型" │
│ ) │
└─────────────────────────────────────┘
│
▼
multimodal-agent 执行生成并返回结果
示例
生成图片
用户: 帮我生成一张日落海滩的图片
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: 日落时分的海滩,金色阳光洒在海面上,使用 flux 模型"
)
生成视频
用户: 用 sora 生成一个猫咪玩耍的视频
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成视频: 一只可爱的猫咪在草地上玩耍,使用 sora 模型"
)
指定模型
用户: 用 doubao 画一张中国风山水画
执行:
sessions_spawn(
agentId="multimodal-agent",
task="生成图片: 中国风山水画,云雾缭绕的山峰,使用 doubao 模型"
)
模型选择建议
| 场景 | 推荐模型 |
|---|---|
| 通用高质量 | flux |
| 中式风格 | doubao |
| 写实照片 | imagen |
| 创意艺术 | dalle |
| 高清视频 | veo4k |
| 电影级视频 | sora |
| 快速视频 | kling |
注意事项
- 提示词优化: multimodal-agent 会自动优化用户的描述
- 模型选择: 如果用户没指定,默认使用 flux (图片) 或 veopro (视频)
- 异步执行: 视频生成可能需要较长时间,会在后台执行
- 结果返回: 生成完成后会自动发送结果给用户