🛠️ 開発・MCP コミュニティ

multimodal-gen

ユーザーが画像や動画の生成、AIによるイラスト作成などを希望した際に、自動で適切なAIエージェントを呼び出し、テキストから画像や動画を生成するSkill。

📜 元の英語説明(参考)

多模态内容生成（图片、视频）。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频、文生图、文生视频时使用此技能。自动调用 multimodal-agent 进行生成。

🇯🇵 日本人クリエイター向け解説

一言でいうと

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o multimodal-gen.zip https://jpskill.com/download/8199.zip && unzip -o multimodal-gen.zip && rm multimodal-gen.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/8199.zip -OutFile "$d\multimodal-gen.zip"; Expand-Archive "$d\multimodal-gen.zip" -DestinationPath $d -Force; ri "$d\multimodal-gen.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して multimodal-gen.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → multimodal-gen フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-18
取得日時: 2026-05-18
同梱ファイル: 1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

多模态内容生成

ユーザーが画像や動画の生成を必要とする場合、自動的に multimodal-agent を呼び出して処理を行います。

触发场景

画像生成

"生成一张图片" (画像を生成して)
"画一张..." (～を描いて...)
"AI 作图" (AI 作画)
"文生图" (テキストから画像を生成)
"帮我生成图像" (画像の生成を手伝って)
"用 flux/imagen/dalle 生成" (flux/imagen/dalle を使って生成)

视频生成

"生成一个视频" (動画を生成して)
"做个视频" (動画を作って)
"文生视频" (テキストから動画を生成)
"用 veo/sora/kling 生成视频" (veo/sora/kling を使って動画を生成)

使用方式

自动调用 multimodal-agent

sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: {用户描述}, 使用 {模型} 模型"
)

可用模型

图片生成

别名	模型	特点
`flux`	flux-pro-max	高品質、おすすめ
`imagen`	google/imagen-4-ultra	Google 最強
`dalle`	gpt-image-1	DALL-E 3
`doubao`	doubao-seedream-4-5	中華風美学
`klingimg`	kling-image	可灵生图

视频生成

别名	模型	特点
`veopro`	veo3.1-pro	Google プロフェッショナル版
`veo4k`	veo3.1-pro-4k	4K 高画質
`sora`	sora-2-pro-all	OpenAI Sora
`kling`	kling-video	可灵视频

执行流程

用户请求 "生成一张猫咪图片" (猫の画像を生成して)
    │
    ▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求              │
│ 2. 提取描述: "猫咪"                │
│ 3. 选择默认模型: flux-pro-max      │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ sessions_spawn(                     │
│   agentId="multimodal-agent",       │
│   task="生成图片: 一只可爱的猫咪,   │
│         使用 flux 模型"             │
│ )                                   │
└─────────────────────────────────────┘
    │
    ▼
multimodal-agent 执行生成并返回结果

示例

生成图片

用户: 帮我生成一张日落海滩的图片 (夕焼けのビーチの画像を生成して)

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 日落时分的海滩，金色阳光洒在海面上，使用 flux 模型"
)

生成视频

用户: 用 sora 生成一个猫咪玩耍的视频 (sora を使って猫が遊んでいる動画を生成して)

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成视频: 一只可爱的猫咪在草地上玩耍，使用 sora 模型"
)

指定模型

用户: 用 doubao 画一张中国风山水画 (doubao を使って中国風の山水画を描いて)

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 中国风山水画，云雾缭绕的山峰，使用 doubao 模型"
)

模型选择建议

场景	推荐模型
通用高质量	`flux`
中式风格	`doubao`
写实照片	`imagen`
创意艺术	`dalle`
高清视频	`veo4k`
电影级视频	`sora`
快速视频	`kling`

注意事项

提示词优化: multimodal-agent はユーザーの記述を自動的に最適化します。
模型选择: ユーザーが指定しない場合、デフォルトで flux (画像) または veopro (動画) を使用します。
异步执行: 動画生成には時間がかかる場合があり、バックグラウンドで実行されます。
结果返回: 生成が完了すると、結果が自動的にユーザーに送信されます。

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

多模态内容生成

当用户需要生成图片或视频时，自动调用 multimodal-agent 进行处理。

触发场景

图片生成

"生成一张图片"
"画一张..."
"AI 作图"
"文生图"
"帮我生成图像"
"用 flux/imagen/dalle 生成"

视频生成

"生成一个视频"
"做个视频"
"文生视频"
"用 veo/sora/kling 生成视频"

使用方式

自动调用 multimodal-agent

sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: {用户描述}, 使用 {模型} 模型"
)

可用模型

图片生成

别名	模型	特点
`flux`	flux-pro-max	高质量，推荐
`imagen`	google/imagen-4-ultra	Google 最强
`dalle`	gpt-image-1	DALL-E 3
`doubao`	doubao-seedream-4-5	中式美学
`klingimg`	kling-image	可灵生图

视频生成

别名	模型	特点
`veopro`	veo3.1-pro	Google 专业版
`veo4k`	veo3.1-pro-4k	4K 高清
`sora`	sora-2-pro-all	OpenAI Sora
`kling`	kling-video	可灵视频

执行流程

用户请求 "生成一张猫咪图片"
    │
    ▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求              │
│ 2. 提取描述: "猫咪"                │
│ 3. 选择默认模型: flux-pro-max      │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ sessions_spawn(                     │
│   agentId="multimodal-agent",       │
│   task="生成图片: 一只可爱的猫咪,   │
│         使用 flux 模型"             │
│ )                                   │
└─────────────────────────────────────┘
    │
    ▼
multimodal-agent 执行生成并返回结果

示例

生成图片

用户: 帮我生成一张日落海滩的图片

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 日落时分的海滩，金色阳光洒在海面上，使用 flux 模型"
)

生成视频

用户: 用 sora 生成一个猫咪玩耍的视频

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成视频: 一只可爱的猫咪在草地上玩耍，使用 sora 模型"
)

指定模型

用户: 用 doubao 画一张中国风山水画

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 中国风山水画，云雾缭绕的山峰，使用 doubao 模型"
)

模型选择建议

场景	推荐模型
通用高质量	`flux`
中式风格	`doubao`
写实照片	`imagen`
创意艺术	`dalle`
高清视频	`veo4k`
电影级视频	`sora`
快速视频	`kling`

注意事项

提示词优化: multimodal-agent 会自动优化用户的描述
模型选择: 如果用户没指定，默认使用 flux (图片) 或 veopro (视频)
异步执行: 视频生成可能需要较长时间，会在后台执行
结果返回: 生成完成后会自动发送结果给用户