vllm-studio-backend
vLLM Studioのバックエンドアーキテクチャ、特にコントローラーやエージェント、APIエンドポイント、推論プロセスなどの開発とデバッグを行うSkill。
📜 元の英語説明(参考)
Use when working on vLLM Studio backend architecture (controller runtime, Pi-mono agent loop, OpenAI-compatible endpoints, LiteLLM gateway, inference process, and debugging commands).
🇯🇵 日本人クリエイター向け解説
vLLM Studioのバックエンドアーキテクチャ、特にコントローラーやエージェント、APIエンドポイント、推論プロセスなどの開発とデバッグを行うSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-17
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
[Skill 名] vllm-studio-backend
vLLM Studio バックエンドアーキテクチャ
概要
このスキルでは、コントローラーランタイム、OpenAI互換プロキシ、Pi-monoエージェントループ、LiteLLMゲートウェイ、および推論プロセス管理といった、バックエンドがどのように構成されているかを説明します。
使用する場面
- コントローラーのルートを変更したり、ストリーミングを実行したりする場合。
- OpenAI互換エンドポイントの動作をデバッグする場合。
- Pi-monoエージェントのランタイムやツール実行を更新する場合。
- 推論とLiteLLMがどのように連携するかを理解する場合。
クイックスタート
- コンポーネントマップとデータフローについては、
references/backend-architecture.mdをお読みください。 /v1/modelsおよび/v1/chat/completionsの動作については、references/openai-compat.mdをお読みください。- 便利な実行/デバッグコマンドについては、
references/backend-commands.mdをお読みください。
主要な保証事項
- OpenAI互換エンドポイント (
/v1/models,/v1/chat/completions) を安定して維持します。 /chatUI はコントローラーの実行ストリーム (/chats/:id/turn) と Pi-mono ランタイムを使用します。- ツール実行はサーバーサイド (MCP + AgentFS + plan tools) で行われます。
参考文献
references/backend-architecture.mdreferences/openai-compat.mdreferences/backend-commands.md
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
vLLM Studio Backend Architecture
Overview
This skill explains how the backend is wired: controller runtime, OpenAI-compatible proxy, Pi-mono agent loop, LiteLLM gateway, and inference process management.
When To Use
- Modifying controller routes or run streaming.
- Debugging OpenAI-compatible endpoint behavior.
- Updating Pi-mono agent runtime or tool execution.
- Understanding how inference + LiteLLM fit together.
Quick Start
- Read
references/backend-architecture.mdfor the component map and data flow. - Read
references/openai-compat.mdfor/v1/modelsand/v1/chat/completionsbehavior. - Read
references/backend-commands.mdfor useful run/debug commands.
Core Guarantees
- Keep OpenAI-compatible endpoints stable (
/v1/models,/v1/chat/completions). /chatUI uses controller run stream (/chats/:id/turn) and Pi-mono runtime.- Tool execution happens server-side (MCP + AgentFS + plan tools).
References
references/backend-architecture.mdreferences/openai-compat.mdreferences/backend-commands.md