jpskill.com
📦 その他 コミュニティ

ace-step

RunComfy上でACE Stepを活用し、タグに基づいた作曲や多言語歌詞生成、既存曲の修正・延長を低コストで行える、音楽生成・編集を支援するSkill。

📜 元の英語説明(参考)

Generate, inpaint, and outpaint music with ACE Step on RunComfy via the `runcomfy` CLI. ACE Step is StepFun-AI's open-weights music foundation model — tag-driven composition (genre, mood, instruments), multilingual lyrics with section markers, 5 s to 4 min stereo output, $0.0002–0.0003 per second (≈ 27× cheaper than ElevenLabs Music). Four endpoints: ACE Step text-to-audio (the default), ACE Step 1.5 text-to-audio (50+ language lyrics, refined structured-lyric handling), ACE Step audio-inpaint (regenerate a time range inside an existing track), ACE Step audio-outpaint (extend an existing track before or after). Triggers on "ace step", "ace-step", "acestep", "ACE music", "open music model", "cheap AI music", "inpaint audio", "audio inpaint", "extend music", "audio outpaint", "lengthen track", "music with tags", or any explicit ask to generate or edit music with ACE Step.

🇯🇵 日本人クリエイター向け解説

一言でいうと

RunComfy上でACE Stepを活用し、タグに基づいた作曲や多言語歌詞生成、既存曲の修正・延長を低コストで行える、音楽生成・編集を支援するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o ace-step.zip https://jpskill.com/download/10352.zip && unzip -o ace-step.zip && rm ace-step.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/10352.zip -OutFile "$d\ace-step.zip"; Expand-Archive "$d\ace-step.zip" -DestinationPath $d -Force; ri "$d\ace-step.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して ace-step.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → ace-step フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

ACE Step — RunComfy の Pro Pack

StepFun-AI の ACE Step オープンウェイトモデルによる、タグ駆動型の音楽生成、インペインティング、アウトペインティングです。4つの CLI でアクセス可能なエンドポイントがあり、オーディオ 1 秒あたり $0.0002–$0.0003 で、1 回の呼び出しあたり最大 4 分までです。

runcomfy.com · ACE Step base · ACE Step 1.5 · CLI docs

この Skill のインストール

npx skills add agentspace-so/runcomfy-agent-skills --skill ace-step -g

RunComfy CLI による動作

ステップ 1 — インストール (以下のいずれか、詳細は runcomfy-cli Skill を参照):

npm i -g @runcomfy/cli         # グローバルインストール
npx -y @runcomfy/cli --version # インストール不要

ステップ 2 — サインイン (または CI / コンテナで RUNCOMFY_TOKEN 環境変数を設定):

runcomfy login

ステップ 3 — 生成:

runcomfy run acestep-ai/ace-step/text-to-audio \
  --input '{"tags": "..."}' \
  --output-dir ./out

CLI の詳細: runcomfy-cli Skill。


適切なエンドポイントを選択

新しい順にリストされています。

ACE Step 1.5 (text-to-audio)acestep-ai/ace-step-1.5/text-to-audio

最新の ACE Step 生成。50 以上の言語のボーカルをサポート、洗練された構造化された歌詞の処理、それ以外はベースと同じ形状。わずかに高いコスト ($0.0003/秒 vs $0.0002/秒)。 選択対象: 多言語の歌詞、ヒーロー品質のボーカルトラック、クリーンなセクション構造が必要なボーカル曲。 回避対象: ベースモデルで十分な、コストに敏感なバッチ処理。

ACE Step (text-to-audio)acestep-ai/ace-step/text-to-audio (デフォルト — 安価で高速)

オリジナルの ACE Step。タグ駆動型の作曲、オプションの歌詞、5–240 秒のステレオ。$0.0002/秒 — ElevenLabs Music より約 27 倍安価。 選択対象: 大量のドラフト、BGM、ジングル、ゲームループ、コストに敏感なイテレーション。 回避対象: 最大限に磨き上げられた商業的なボーカルフック — そのような場合は ACE Step 1.5 または ElevenLabs Music を試してください。

ACE Step (audio-inpaint)acestep-ai/ace-step/audio-inpaint

既存のトラック内の時間範囲を再生成します (マスクベースではありません; start_time / end_time を秒単位で使用し、それぞれトラックの開始または終了に固定されます)。 選択対象: 真ん中の悪いコーラスを修正したり、ブリッジを交換したり、曲全体を再レンダリングせずに 20 秒のセクションを置き換えたりする場合。 回避対象: 時間的に制限されていない編集 — それらはスキーマに適合しません。

ACE Step (audio-outpaint)acestep-ai/ace-step/audio-outpaint

既存のトラックを双方向に拡張します — 前にイントロを追加したり、後にアウトロを追加したり、またはその両方を追加したりします。 選択対象: 30 秒のドラフトを 2 分のカットに長くしたり、フェードインを追加したり、既存のフックを中心に長いアレンジを構築したりする場合。 回避対象: トラックを合計 4 分を超えて拡張する場合 — 代わりにチェーンコールを使用してください。


ルート 1: ACE Step text-to-audio (デフォルト)

モデル: acestep-ai/ace-step/text-to-audio (または 1.5 バリアントの場合は acestep-ai/ace-step-1.5/text-to-audio)

スキーマ (両方のバリアント — 同じ形状)

フィールド タイプ 必須 デフォルト
tags string はい カンマ区切りのジャンル / ムード / 楽器タグ。作曲を駆動します
lyrics string いいえ ボーカルコンテンツ。セクションマーカー [Verse], [Chorus], [Bridge] を使用します。ボーカルなしの場合は [inst] または [instrumental] を使用します
duration int いいえ 60 オーディオの長さ (秒単位)。5–240 (1 回の呼び出しあたり最大 4 分)
seed int いいえ -1 再現性; -1 はランダム化します

価格: ACE Step $0.0002/秒 · ACE Step 1.5 $0.0003/秒。60 秒 ≈ $0.012 / $0.018; 240 秒 ≈ $0.048 / $0.072。

呼び出し

タグ駆動型のインストゥルメンタル:

runcomfy run acestep-ai/ace-step/text-to-audio \
  --input '{
    "tags": "lo-fi hip-hop, mellow, vinyl crackle, rhodes piano, soft drums, 75 BPM",
    "lyrics": "[inst]",
    "duration": 90
  }' \
  --output-dir ./out

構造化されたフルボーカルソング (多言語の場合は 1.5 を使用):

runcomfy run acestep-ai/ace-step-1.5/text-to-audio \
  --input '{
    "tags": "indie pop, anthemic, electric guitar, driving drums, female vocal, 120 BPM",
    "lyrics": "[Verse]\nChalk on the palms, laces double-knotted\nMorning on the ridge, the sun is rising\n[Chorus]\nWe rise, we strike, we never fade out\nWe rise, we strike, we sing it loud\n[Bridge]\nSoft piano breakdown\n[Outro]\nFull band, fade",
    "duration": 60
  }' \
  --output-dir ./out

プロンプトのヒント

  • タグが重要な役割を果たす — 具体的に: "lo-fi hip-hop, mellow, vinyl crackle, rhodes piano, soft drums, 75 BPM""chill music" よりも優れています。
  • BPM が重要な場合は、タグに含めてください — ACE はテンポの言語を尊重します。
  • セクションマーカー付きの歌詞: [Verse], [Chorus], [Bridge], [Outro]。行全体でメーターの一貫性を保ちます。
  • インストゥルメンタルのショートカット: "lyrics": "[inst]" または "[instrumental]"。念のため: タグにも "no vocals" と記述します。
  • 多言語ボーカル: ACE Step 1.5 は 50 以上の言語をカバーしています。歌詞をターゲット言語で直接記述します。言語もタグ付けします ("japanese vocal, j-pop")。
  • 再現性のためにシードを修正します ("seed": 42); バリエーションを探索するには -1 を使用します。
  • 安価なドラフト → 磨き上げ: ACE Step は 5–10 倍低いコストで、長いレンダリングにコミットする前にタグを反復処理するのに最適です。

ルート 2: ACE Step audio-inpaint

モデル: acestep-ai/ace-step/audio-inpaint カタログ: audio-inpaint

スキーマ

フィールド タイプ 必須 デフォルト
audio string はい MP3 / WAV / FLAC への HTTPS URL。最大 60 分
tags string はい カンマ区切り

(原文はここで切り詰められています)

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

ACE Step — Pro Pack on RunComfy

Tag-driven music generation, inpainting, and outpainting with StepFun-AI's ACE Step open-weights model. Four CLI-reachable endpoints, $0.0002–0.0003 per second of audio, up to 4 minutes per call.

runcomfy.com · ACE Step base · ACE Step 1.5 · CLI docs

Install this skill

npx skills add agentspace-so/runcomfy-agent-skills --skill ace-step -g

Powered by the RunComfy CLI

Step 1 — install (one of, see the runcomfy-cli skill for details):

npm i -g @runcomfy/cli         # global install
npx -y @runcomfy/cli --version # zero-install

Step 2 — sign in (or set RUNCOMFY_TOKEN env var in CI / containers):

runcomfy login

Step 3 — generate:

runcomfy run acestep-ai/ace-step/text-to-audio \
  --input '{"tags": "..."}' \
  --output-dir ./out

CLI deep dive: runcomfy-cli skill.


Pick the right endpoint

Listed newest first.

ACE Step 1.5 (text-to-audio)acestep-ai/ace-step-1.5/text-to-audio

Latest ACE Step generation. 50+ language vocal support, refined structured-lyric handling, otherwise same shape as base. Slightly higher cost ($0.0003/s vs $0.0002/s). Pick for: multilingual lyrics, hero-quality vocal tracks, vocal songs that need clean section structure. Avoid for: cost-sensitive batches where the base model is good enough.

ACE Step (text-to-audio)acestep-ai/ace-step/text-to-audio (default — cheap & fast)

Original ACE Step. Tag-driven composition, optional lyrics, 5–240 s stereo. $0.0002/s — ~27× cheaper than ElevenLabs Music. Pick for: high-volume drafts, background music, jingles, game loops, cost-sensitive iteration. Avoid for: maximally polished commercial vocal hooks — try ACE Step 1.5 or ElevenLabs Music for those.

ACE Step (audio-inpaint)acestep-ai/ace-step/audio-inpaint

Regenerate a time range inside an existing track (not mask-based; uses start_time / end_time in seconds, each anchored to track start or end). Pick for: fix a bad chorus in the middle, swap the bridge, replace a 20 s section without re-rendering the whole song. Avoid for: edits that aren't time-bounded — those don't fit the schema.

ACE Step (audio-outpaint)acestep-ai/ace-step/audio-outpaint

Extend an existing track bidirectionally — add intro before, outro after, or both. Pick for: lengthening a 30 s draft into a 2 min cut, adding a fade-in, building a longer arrangement around an existing hook. Avoid for: extending a track past 4 min total — chain calls instead.


Route 1: ACE Step text-to-audio (default)

Model: acestep-ai/ace-step/text-to-audio (or acestep-ai/ace-step-1.5/text-to-audio for the 1.5 variant)

Schema (both variants — same shape)

Field Type Required Default Notes
tags string yes Comma-separated genre / mood / instrument tags. Drives composition
lyrics string no Vocal content. Use section markers [Verse], [Chorus], [Bridge]. Use [inst] or [instrumental] for no vocals
duration int no 60 Audio length in seconds. 5–240 (max 4 min per call)
seed int no -1 Reproducibility; -1 randomizes

Pricing: ACE Step $0.0002/s · ACE Step 1.5 $0.0003/s. 60 s ≈ $0.012 / $0.018; 240 s ≈ $0.048 / $0.072.

Invoke

Tag-driven instrumental:

runcomfy run acestep-ai/ace-step/text-to-audio \
  --input '{
    "tags": "lo-fi hip-hop, mellow, vinyl crackle, rhodes piano, soft drums, 75 BPM",
    "lyrics": "[inst]",
    "duration": 90
  }' \
  --output-dir ./out

Full vocal song with structure (use 1.5 for multilingual):

runcomfy run acestep-ai/ace-step-1.5/text-to-audio \
  --input '{
    "tags": "indie pop, anthemic, electric guitar, driving drums, female vocal, 120 BPM",
    "lyrics": "[Verse]\nChalk on the palms, laces double-knotted\nMorning on the ridge, the sun is rising\n[Chorus]\nWe rise, we strike, we never fade out\nWe rise, we strike, we sing it loud\n[Bridge]\nSoft piano breakdown\n[Outro]\nFull band, fade",
    "duration": 60
  }' \
  --output-dir ./out

Prompting tips

  • Tags do the heavy lifting — be specific: "lo-fi hip-hop, mellow, vinyl crackle, rhodes piano, soft drums, 75 BPM" beats "chill music".
  • Include BPM in tags when it matters — ACE respects tempo language.
  • Lyrics with section markers: [Verse], [Chorus], [Bridge], [Outro]. Keep meter consistent across lines.
  • Instrumental shortcut: "lyrics": "[inst]" or "[instrumental]". Belt-and-suspenders: also say "no vocals" in tags.
  • Multilingual vocals: ACE Step 1.5 covers 50+ languages. Write lyrics directly in the target language; tag the language too ("japanese vocal, j-pop").
  • Fix the seed for reproducibility ("seed": 42); use -1 to explore variations.
  • Cheap draft → polish: ACE Step at 5–10× lower cost is great for iterating tags before committing to a long render.

Route 2: ACE Step audio-inpaint

Model: acestep-ai/ace-step/audio-inpaint Catalog: audio-inpaint

Schema

Field Type Required Default Notes
audio string yes HTTPS URL to MP3 / WAV / FLAC. Up to 60 min
tags string yes Comma-separated tags steering the regenerated segment
start_time float no Start of editable segment, in seconds (0–240)
start_time_relative_to enum no start start or end — anchor for start_time
end_time float no 30 End of editable segment, in seconds (0–240)
end_time_relative_to enum no start start or end — anchor for end_time
lyrics string no Lyrics for the regenerated segment. Blank = model writes; [inst] = no vocals
seed int no -1 Reproducibility

No mask — region is defined purely by start_time / end_time (each anchorable to track start or end).

Invoke

Replace 20–40 s of a track with a new bridge:

runcomfy run acestep-ai/ace-step/audio-inpaint \
  --input '{
    "audio": "https://your-cdn.example/original-track.mp3",
    "tags": "indie pop, breakdown, piano only, soft, no drums",
    "start_time": 20,
    "end_time": 40,
    "lyrics": "[inst]"
  }' \
  --output-dir ./out

Anchor end relative to track end (rewrite the last 15 s):

runcomfy run acestep-ai/ace-step/audio-inpaint \
  --input '{
    "audio": "https://your-cdn.example/song.mp3",
    "tags": "indie pop, fade, soft, ambient pad",
    "start_time": 15,
    "start_time_relative_to": "end",
    "end_time": 0,
    "end_time_relative_to": "end"
  }' \
  --output-dir ./out

Tips

  • Match the surrounding tags — if the original is "indie pop, electric guitar, 120 BPM", the inpaint segment should share enough of the tags to blend, not contrast.
  • Inpaint window is up to ~4 min even on a 60-min source — pick a focused range, not the whole track.
  • Use _relative_to: "end" to target the outro/last seconds without computing exact timestamps.

Route 3: ACE Step audio-outpaint

Model: acestep-ai/ace-step/audio-outpaint Catalog: audio-outpaint

Schema

Field Type Required Default Notes
audio string yes HTTPS URL to MP3 / WAV / FLAC. Up to 60 min
tags string yes Tags steering the extended sections
extend_before_duration float no 0 Seconds of new audio before the original (0–240)
extend_after_duration float no 30 Seconds of new audio after the original (0–240)
lyrics string no Optional lyrics for extended sections
seed int no -1 Reproducibility

Invoke

Extend a 30 s hook into a 2 min cut (add 30 s intro + 60 s outro):

runcomfy run acestep-ai/ace-step/audio-outpaint \
  --input '{
    "audio": "https://your-cdn.example/hook-30s.mp3",
    "tags": "indie pop, electric guitar, drums, build-up before chorus, fade outro",
    "extend_before_duration": 30,
    "extend_after_duration": 60,
    "lyrics": "[inst]"
  }' \
  --output-dir ./out

Add only a fade-out (no pre-extension):

runcomfy run acestep-ai/ace-step/audio-outpaint \
  --input '{
    "audio": "https://your-cdn.example/track.mp3",
    "tags": "ambient pad, soft fade, low volume tail",
    "extend_before_duration": 0,
    "extend_after_duration": 20
  }' \
  --output-dir ./out

Tips

  • Tags describe the extension, not the original — what should the new section sound like?
  • Bidirectional in one call — set both extend_before_duration and extend_after_duration to add intro + outro in one go.
  • Don't exceed 4 min total — if original is 3 min, you can add max 1 min combined.

When to pick ACE Step vs ElevenLabs Music

ACE Step and ElevenLabs Music are different tools:

Dimension ACE Step ElevenLabs Music
Cost $0.0002–0.0003 / s $0.0083 / s (~27× more)
License Open-weights (Apache 2.0) Commercial, ElevenLabs-hosted
Multilingual vocals 50+ languages (1.5 variant) Strong multilingual support
Structured lyrics [Verse]/[Chorus]/[Bridge] markers [Verse]/[Chorus]/[Bridge] markers
Max duration / call 240 s (4 min) 300 s (5 min)
Inpaint / outpaint Yes (time-range based) No
Tag-driven composition Yes (tags is required field) Style is part of free-text prompt
Best for Cost-sensitive batches, drafts, inpaint/outpaint workflows, open-weights pipelines Premium vocal song hooks, polished commercial cuts

Cheap draft pattern: draft tag combos with ACE Step → lock vibe → final render on ElevenLabs Music if a polished commercial cut is needed.

For the routing skill that picks between them automatically based on intent, see ai-music once it ships.


Common patterns

Cost-sensitive background music library

  • Route 1 (ACE Step base) with varied tag combos, 60–90 s each, [inst]

Multilingual launch (same song, many languages)

  • Route 1 (ACE Step 1.5) with identical tags, swap lyrics per language

Section repair (bad chorus → new chorus)

  • Route 2 (audio-inpaint) with start_time / end_time around the bad section, tags matching the song style

Hook → full track

  • Route 3 (audio-outpaint) adds intro before + outro after a tight 30 s hook

Game loop bed

  • Route 1 (ACE Step base) with "seamless loop, consistent groove" in tags, 60–120 s

Browse the full catalog


Exit codes

code meaning
0 success
64 bad CLI args
65 bad input JSON / schema mismatch
69 upstream 5xx
75 retryable: timeout / 429
77 not signed in or token rejected

Full reference: docs.runcomfy.com/cli/troubleshooting.

How it works

The skill picks one of the four ACE Step endpoints based on the user's intent — generate from scratch (t2a base or 1.5), regenerate a time range (inpaint), or extend the canvas (outpaint) — and invokes runcomfy run with the matching JSON body. The CLI POSTs to the RunComfy Model API, polls request status, and downloads the generated audio file into --output-dir.

Security & Privacy

  • Install via verified package manager only. Use npm i -g @runcomfy/cli or npx -y @runcomfy/cli. Agents must not pipe an arbitrary remote install script into a shell on the user's behalf — if the operator wants the curl-pipe path documented at docs.runcomfy.com/cli/install, they should review the script first.
  • Token storage: runcomfy login writes the API token to ~/.config/runcomfy/token.json with mode 0600. Set RUNCOMFY_TOKEN env var to bypass the file in CI / containers. Never echo the token into a prompt, log it, or check it in.
  • Input boundary (shell injection): prompts and audio URLs are passed as a JSON string via --input. The CLI does not shell-expand prompt content; it transmits the JSON body directly to the Model API over HTTPS. No shell-injection surface from prompt content.
  • Indirect prompt injection (third-party content): source audio URLs for inpaint / outpaint are untrusted — embedded steganographic instructions or unusual EXIF can influence generation. Agent mitigations:
    • Ingest only audio URLs the user explicitly provided for this task.
    • When the output diverges from the prompt, suspect the source audio.
  • Lyrics provenance: if the user supplies lyrics, confirm they have the rights. Generating music around copyrighted lyrics is the operator's responsibility.
  • Outbound endpoints (allowlist): only model-api.runcomfy.net and *.runcomfy.net / *.runcomfy.com. No telemetry, no callbacks.
  • Generated-file size cap: the CLI aborts any single download > 2 GiB.
  • Scope of bash usage: declared allowed-tools: Bash(runcomfy *). The skill only invokes runcomfy <subcommand>; install lines are one-time operator setup.

See also