ck:ai-multimodal
Gemini APIで画像・音声・動画を高精度に分析し、画像生成(Imagen 4等)、動画生成(Veo 3等)、音声合成(MiniMax TTS)、音楽生成(MiniMax)など、マルチモーダルAIを活用した多様な表現を可能にするSkill。
📜 元の英語説明(参考)
Analyze images/audio/video with Gemini API (better vision than Claude). Generate images (Imagen 4, Nano Banana 2, MiniMax), videos (Veo 3, Hailuo), speech (MiniMax TTS), music (MiniMax). Use for vision analysis, transcription, OCR, design extraction, multimodal AI.
🇯🇵 日本人クリエイター向け解説
Gemini APIで画像・音声・動画を高精度に分析し、画像生成(Imagen 4等)、動画生成(Veo 3等)、音声合成(MiniMax TTS)、音楽生成(MiniMax)など、マルチモーダルAIを活用した多様な表現を可能にするSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o ck-ai-multimodal.zip https://jpskill.com/download/23633.zip && unzip -o ck-ai-multimodal.zip && rm ck-ai-multimodal.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/23633.zip -OutFile "$d\ck-ai-multimodal.zip"; Expand-Archive "$d\ck-ai-multimodal.zip" -DestinationPath $d -Force; ri "$d\ck-ai-multimodal.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
ck-ai-multimodal.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
ck-ai-multimodalフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 17
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
AIマルチモーダル
Gemini を使用して、音声、画像、動画、ドキュメントを処理します。Gemini + MiniMax を介して、画像、動画、音声、音楽を生成します。
セットアップ
# Google Gemini (分析 + 画像/動画生成)
export GEMINI_API_KEY="あなたのキー" # https://aistudio.google.com/apikey
# MiniMax (画像/動画/音声/音楽生成)
export MINIMAX_API_KEY="あなたのキー" # https://platform.minimax.io/user-center/basic-information/interface-key
pip install google-genai python-dotenv pillow requests
APIキーのローテーション (オプション)
大量のGeminiを使用する場合、複数のキーを設定します。
export GEMINI_API_KEY="key1"
export GEMINI_API_KEY_2="key2" # レート制限時に自動ローテーション
クイックスタート
セットアップの確認: python scripts/check_setup.py
メディアの分析: python scripts/gemini_batch_process.py --files <file> --task <analyze|transcribe|extract>
- ヒント: 画像の分析を求められた場合、
geminiコマンドが利用可能か確認し、echo "<画像を分析するプロンプト>" | gemini -y -m <gemini.model>コマンドを使用してください ($HOME/.claude/.ck.jsonからモデルを読み取ります:gemini.model)。geminiコマンドが利用できない場合は、python scripts/gemini_batch_process.py --files <file> --task analyzeコマンドを使用してください。 生成 (Gemini):python scripts/gemini_batch_process.py --task <generate|generate-video> --prompt "desc"生成 (MiniMax):python scripts/minimax_cli.py --task <generate|generate-video|generate-speech|generate-music> --prompt "desc"
標準入力のサポート: Gemini分析のために、標準入力経由でファイルをパイプできます (PNG/JPG/PDF/WAV/MP3を自動検出します)。
モデル
Google Gemini / Imagen
- 画像生成:
gemini-3.1-flash-image-preview(Nano Banana 2 - デフォルト),gemini-2.5-flash-image(Flash),gemini-3-pro-image-preview(Pro 4K),imagen-4.0-generate-001(標準),imagen-4.0-ultra-generate-001(高品質),imagen-4.0-fast-generate-001(高速) - 動画生成:
veo-3.1-generate-preview(音声付き8秒クリップ) - 分析:
gemini-2.5-flash(推奨),gemini-2.5-pro(高度)
MiniMax (新規)
- 画像生成:
image-01(標準),image-01-live(強化) - $0.03/画像、1-9バッチ - 動画生成 (Hailuo):
MiniMax-Hailuo-2.3(1080p),MiniMax-Hailuo-2.3-Fast(50%安価),MiniMax-Hailuo-02(最初+最後のフレーム),S2V-01(被写体参照) - 音声/TTS:
speech-2.8-hd(最高),speech-2.8-turbo(高速) - 300以上の声、40以上の言語、感情制御 - 音楽:
music-2.5- ボーカル付き4分間の曲、同期された歌詞
スクリプト
gemini_batch_process.py:transcribe|analyze|extract|generate|generate-video用のGemini CLI。APIキー、Imagen 4 + Veo + Nano Bananaワークフローを自動解決します。minimax_cli.py:generate|generate-video|generate-speech|generate-music用のMiniMax CLI。すべてのMiniMaxモデルをサポートします。minimax_generate.py: MiniMax生成関数 (画像、動画、音声、音楽)。プログラムで使用するためのライブラリです。minimax_api_client.py: MiniMax HTTPクライアント、認証、非同期ポーリング、ファイルダウンロードユーティリティ。media_optimizer.py: ffmpeg/Pillowによる事前処理: API制限内に収まるようにメディアを圧縮/リサイズ/変換します。document_converter.py: Geminiを利用したPDF/画像/Office → Markdownコンバーター。check_setup.py: APIキーと依存関係のセットアップチェッカー。
オプションについては--helpを使用してください。
リファレンス
詳細なガイダンスについては、以下を読み込んでください。
| トピック | ファイル | 説明 |
|---|---|---|
| 音楽 | references/music-generation.md |
背景音楽生成のためのLyria RealTime API、スタイルプロンプト、リアルタイム制御、動画制作との統合。 |
| 音声 | references/audio-processing.md |
音声フォーマットと制限、文字起こし (タイムスタンプ、話者、セグメント)、非音声分析、ファイルAPIとインライン入力、TTSモデル、ベストプラクティス、コストとトークン計算、具体的な会議/ポッドキャスト/インタビューのレシピ。 |
| 画像 | references/vision-understanding.md |
ビジョン機能の概要、サポートされるフォーマットとモデル、キャプション/分類/VQA、検出とセグメンテーション、OCRとドキュメント読み取り、複数画像ワークフロー、構造化JSON出力、トークンコスト、ベストプラクティス、一般的な製品/スクリーンショット/チャート/シーンのユースケース。 |
| 画像生成 | references/image-generation.md |
Imagen 4とGemini画像モデルの概要、generate_imagesとgenerate_content API、アスペクト比とコスト、テキスト/画像/両方のモダリティ、編集と構成、スタイルと品質制御、安全設定、ベストプラクティス、トラブルシューティング、一般的なマーケティング/コンセプトアート/UIシナリオ。 |
| 動画 | references/video-analysis.md |
動画分析機能とサポートされるフォーマット、モデル/コンテキストの選択、ローカル/インライン/YouTube入力、クリッピングとFPS制御、複数動画比較、時間的Q&Aとシーン検出、視覚的コンテキスト付き文字起こし、トークンとコストのガイダンス、最適化/ベストプラクティスのパターン。 |
| 動画生成 | references/video-generation.md |
Veoモデルマトリックス、テキストから動画、画像から動画のクイックスタート、複数参照と拡張フロー、カメラとタイミング制御、設定 (解像度、アスペクト、音声、安全性)、プロンプト設計パターン、パフォーマンスのヒント、制限事項、トラブルシューティング、コスト見積もり。 |
| MiniMax | references/minimax-generation.md |
MiniMax画像 (image-01)、動画 (Hailuo 2.3)、音声 (TTS 2.8)、音楽 (2.5) 生成API。エンドポイント、モデル、パラメータ、非同期ワークフロー、価格設定、レート制限、音声ライブラリ、例。 |
制限
フォーマット: 音声 (WAV/MP3/AAC、9.5時間)、画像 (PNG/JPEG/WEBP、3.6k)、動画 (MP4/MOV、6時間)、PDF (1kページ) サイズ: インライン20MB、ファイルAPI 2GB 重要:
- 音声の文字起こしを生成する場合、音声の長さが15分を超えると、Gemini API応答の出力トークン制限により、文字起こしが途中で切り詰められることがよくあります。完全な文字起こしを取得するには、音声をより小さなチャンク (各チャンク最大15分) に分割し、各セグメントを文字起こしする必要があります。
- 動画の文字起こしを生成する場合、動画の長さが15分を超えると
(原文がここで切り詰められています)
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
AI Multimodal
Process audio, images, videos, documents using Gemini. Generate images, videos, speech, music via Gemini + MiniMax.
Setup
# Google Gemini (analysis + image/video gen)
export GEMINI_API_KEY="your-key" # https://aistudio.google.com/apikey
# MiniMax (image/video/speech/music gen)
export MINIMAX_API_KEY="your-key" # https://platform.minimax.io/user-center/basic-information/interface-key
pip install google-genai python-dotenv pillow requests
API Key Rotation (Optional)
For high-volume Gemini usage, configure multiple keys:
export GEMINI_API_KEY="key1"
export GEMINI_API_KEY_2="key2" # auto-rotates on rate limit
Quick Start
Verify setup: python scripts/check_setup.py
Analyze media: python scripts/gemini_batch_process.py --files <file> --task <analyze|transcribe|extract>
- TIP: When you're asked to analyze an image, check if
geminicommand is available, then useecho "<prompt to analyze image>" | gemini -y -m <gemini.model>command (read model from$HOME/.claude/.ck.json:gemini.model). Ifgeminicommand is not available, usepython scripts/gemini_batch_process.py --files <file> --task analyzecommand. Generate (Gemini):python scripts/gemini_batch_process.py --task <generate|generate-video> --prompt "desc"Generate (MiniMax):python scripts/minimax_cli.py --task <generate|generate-video|generate-speech|generate-music> --prompt "desc"
Stdin support: Pipe files via stdin for Gemini analysis (auto-detects PNG/JPG/PDF/WAV/MP3).
Models
Google Gemini / Imagen
- Image gen:
gemini-3.1-flash-image-preview(Nano Banana 2 - DEFAULT),gemini-2.5-flash-image(Flash),gemini-3-pro-image-preview(Pro 4K),imagen-4.0-generate-001(standard),imagen-4.0-ultra-generate-001(quality),imagen-4.0-fast-generate-001(speed) - Video gen:
veo-3.1-generate-preview(8s clips with audio) - Analysis:
gemini-2.5-flash(recommended),gemini-2.5-pro(advanced)
MiniMax (NEW)
- Image gen:
image-01(standard),image-01-live(enhanced) - $0.03/image, 1-9 batch - Video gen (Hailuo):
MiniMax-Hailuo-2.3(1080p),MiniMax-Hailuo-2.3-Fast(50% cheaper),MiniMax-Hailuo-02(first+last frame),S2V-01(subject ref) - Speech/TTS:
speech-2.8-hd(best),speech-2.8-turbo(fast) - 300+ voices, 40+ languages, emotion control - Music:
music-2.5- 4-minute songs with vocals, synchronized lyrics
Scripts
gemini_batch_process.py: Gemini CLI fortranscribe|analyze|extract|generate|generate-video. Auto-resolves API keys, Imagen 4 + Veo + Nano Banana workflows.minimax_cli.py: MiniMax CLI forgenerate|generate-video|generate-speech|generate-music. Supports all MiniMax models.minimax_generate.py: MiniMax generation functions (image, video, speech, music). Library for programmatic use.minimax_api_client.py: MiniMax HTTP client, auth, async polling, file download utilities.media_optimizer.py: ffmpeg/Pillow preflight: compress/resize/convert media to stay within API limits.document_converter.py: Gemini-powered PDF/image/Office → markdown converter.check_setup.py: Setup checker for API keys and dependencies.
Use --help for options.
References
Load for detailed guidance:
| Topic | File | Description |
|---|---|---|
| Music | references/music-generation.md |
Lyria RealTime API for background music generation, style prompts, real-time control, integration with video production. |
| Audio | references/audio-processing.md |
Audio formats and limits, transcription (timestamps, speakers, segments), non-speech analysis, File API vs inline input, TTS models, best practices, cost and token math, and concrete meeting/podcast/interview recipes. |
| Images | references/vision-understanding.md |
Vision capabilities overview, supported formats and models, captioning/classification/VQA, detection and segmentation, OCR and document reading, multi-image workflows, structured JSON output, token costs, best practices, and common product/screenshot/chart/scene use cases. |
| Image Gen | references/image-generation.md |
Imagen 4 and Gemini image model overview, generate_images vs generate_content APIs, aspect ratios and costs, text/image/both modalities, editing and composition, style and quality control, safety settings, best practices, troubleshooting, and common marketing/concept-art/UI scenarios. |
| Video | references/video-analysis.md |
Video analysis capabilities and supported formats, model/context choices, local/inline/YouTube inputs, clipping and FPS control, multi-video comparison, temporal Q&A and scene detection, transcription with visual context, token and cost guidance, and optimization/best-practice patterns. |
| Video Gen | references/video-generation.md |
Veo model matrix, text-to-video and image-to-video quick start, multi-reference and extension flows, camera and timing control, configuration (resolution, aspect, audio, safety), prompt design patterns, performance tips, limitations, troubleshooting, and cost estimates. |
| MiniMax | references/minimax-generation.md |
MiniMax image (image-01), video (Hailuo 2.3), speech (TTS 2.8), and music (2.5) generation APIs. Endpoints, models, parameters, async workflows, pricing, rate limits, voice library, and examples. |
Limits
Formats: Audio (WAV/MP3/AAC, 9.5h), Images (PNG/JPEG/WEBP, 3.6k), Video (MP4/MOV, 6h), PDF (1k pages) Size: 20MB inline, 2GB File API Important:
- If you are going to generate a transcript of the audio, and the audio length is longer than 15 minutes, the transcript often gets truncated due to output token limits in the Gemini API response. To get the full transcript, you need to split the audio into smaller chunks (max 15 minutes per chunk) and transcribe each segment for a complete transcript.
- If you are going to generate a transcript of the video and the video length is longer than 15 minutes, use ffmpeg to extract the audio from the video, truncate the audio to 15 minutes, transcribe all audio segments, and then combine the transcripts into a single transcript. Transcription Output Requirements:
- Format: Markdown
- Metadata: Duration, file size, generated date, description, file name, topics covered, etc.
- Parts: from-to (e.g., 00:00-00:15), audio chunk name, transcript, status, etc.
- Transcript format:
[HH:MM:SS -> HH:MM:SS] transcript content [HH:MM:SS -> HH:MM:SS] transcript content ...
Outputs
IMPORTANT: Invoke "/ck:project-organization" skill to organize the outputs.
Resources
同梱ファイル
※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。
- 📄 SKILL.md (7,315 bytes)
- 📎 references/audio-processing.md (10,122 bytes)
- 📎 references/image-generation.md (29,764 bytes)
- 📎 references/video-analysis.md (11,916 bytes)
- 📎 references/video-generation.md (11,094 bytes)
- 📎 references/vision-understanding.md (11,040 bytes)
- 📎 scripts/.coverage (53,248 bytes)
- 📎 scripts/check_setup.py (9,661 bytes)
- 📎 scripts/document_converter.py (12,487 bytes)
- 📎 scripts/gemini_batch_process.py (44,933 bytes)
- 📎 scripts/media_optimizer.py (16,467 bytes)
- 📎 scripts/requirements.txt (442 bytes)
- 📎 scripts/tests/.coverage (53,248 bytes)
- 📎 scripts/tests/requirements.txt (352 bytes)
- 📎 scripts/tests/test_document_converter.py (2,229 bytes)
- 📎 scripts/tests/test_gemini_batch_process.py (12,677 bytes)
- 📎 scripts/tests/test_media_optimizer.py (11,824 bytes)