jpskill.com
🛠️ 開発・MCP コミュニティ

vllm-studio-backend

vLLM Studioのバックエンドアーキテクチャ、特にコントローラーやエージェント、APIエンドポイント、推論プロセスなどの開発とデバッグを行うSkill。

📜 元の英語説明(参考)

Use when working on vLLM Studio backend architecture (controller runtime, Pi-mono agent loop, OpenAI-compatible endpoints, LiteLLM gateway, inference process, and debugging commands).

🇯🇵 日本人クリエイター向け解説

一言でいうと

vLLM Studioのバックエンドアーキテクチャ、特にコントローラーやエージェント、APIエンドポイント、推論プロセスなどの開発とデバッグを行うSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

[Skill 名] vllm-studio-backend

vLLM Studio バックエンドアーキテクチャ

概要

このスキルでは、コントローラーランタイム、OpenAI互換プロキシ、Pi-monoエージェントループ、LiteLLMゲートウェイ、および推論プロセス管理といった、バックエンドがどのように構成されているかを説明します。

使用する場面

  • コントローラーのルートを変更したり、ストリーミングを実行したりする場合。
  • OpenAI互換エンドポイントの動作をデバッグする場合。
  • Pi-monoエージェントのランタイムやツール実行を更新する場合。
  • 推論とLiteLLMがどのように連携するかを理解する場合。

クイックスタート

  • コンポーネントマップとデータフローについては、references/backend-architecture.md をお読みください。
  • /v1/models および /v1/chat/completions の動作については、references/openai-compat.md をお読みください。
  • 便利な実行/デバッグコマンドについては、references/backend-commands.md をお読みください。

主要な保証事項

  • OpenAI互換エンドポイント (/v1/models, /v1/chat/completions) を安定して維持します。
  • /chat UI はコントローラーの実行ストリーム (/chats/:id/turn) と Pi-mono ランタイムを使用します。
  • ツール実行はサーバーサイド (MCP + AgentFS + plan tools) で行われます。

参考文献

  • references/backend-architecture.md
  • references/openai-compat.md
  • references/backend-commands.md
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

vLLM Studio Backend Architecture

Overview

This skill explains how the backend is wired: controller runtime, OpenAI-compatible proxy, Pi-mono agent loop, LiteLLM gateway, and inference process management.

When To Use

  • Modifying controller routes or run streaming.
  • Debugging OpenAI-compatible endpoint behavior.
  • Updating Pi-mono agent runtime or tool execution.
  • Understanding how inference + LiteLLM fit together.

Quick Start

  • Read references/backend-architecture.md for the component map and data flow.
  • Read references/openai-compat.md for /v1/models and /v1/chat/completions behavior.
  • Read references/backend-commands.md for useful run/debug commands.

Core Guarantees

  • Keep OpenAI-compatible endpoints stable (/v1/models, /v1/chat/completions).
  • /chat UI uses controller run stream (/chats/:id/turn) and Pi-mono runtime.
  • Tool execution happens server-side (MCP + AgentFS + plan tools).

References

  • references/backend-architecture.md
  • references/openai-compat.md
  • references/backend-commands.md