jpskill.com
🛠️ 開発・MCP コミュニティ

ascend-inference-repos-copilot

昇腾(Ascend)推論エコシステムの各種リポジトリ(vLLMなど)に関する質問に対し、使い方、導入、モデル、機能、アーキテクチャ、設定、トラブルシューティング、最適化、開発、ソースコード解析などの技術的な質問に、日本語と英語で専門的ながらも分かりやすく回答するSkill。

📜 元の英語説明(参考)

昇腾(Ascend)推理生态开源代码仓库智能问答专家旨在为 vLLM、vLLM-Ascend、MindIE-LLM、MindIE-SD、MindIE-Motor、MindIE-Turbo 以及 msModelSlim (MindStudio-ModelSlim) 等仓库提供专家级且易于理解的解释。在处理昇腾(Ascend)推理生态相关项目的用户询问时,务必触发此技能(Skill),可解答使用方法、部署流程、支持模型、支持特性、系统架构、配置管理、调试、测试、故障排查、性能优化、定制开发、源码解析以及其他技术问题。支持中英文双语回复,并可借助 deepwiki MCP 工具检索仓库知识库,生成具备上下文感知且基于证据的回答。Ascend inference ecosystem open-source code repository intelligent question-and-answer (Q&A) expert. Provide expert-level yet comprehensible explanations for repositories such as vLLM, vLLM-Ascend, MindIE-LLM, MindIE-SD, MindIE-Motor, MindIE-Turbo, and msModelSlim (MindStudio-ModelSlim). Use this skill when addressing user inquiries related to these Ascend inference ecosystem projects, including topics such as usage, deployment process, supported models, supported features, system architecture, configuration management, debugging, testing, troubleshooting, performance optimization, custom development, source code analysis, and any other technical issues about these projects. Support responses in both Chinese and English. Use deepwiki MCP tools to query repository knowledge bases and generate context-aware, evidence-based responses.

🇯🇵 日本人クリエイター向け解説

一言でいうと

昇腾(Ascend)推論エコシステムの各種リポジトリ(vLLMなど)に関する質問に対し、使い方、導入、モデル、機能、アーキテクチャ、設定、トラブルシューティング、最適化、開発、ソースコード解析などの技術的な質問に、日本語と英語で専門的ながらも分かりやすく回答するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o ascend-inference-repos-copilot.zip https://jpskill.com/download/10074.zip && unzip -o ascend-inference-repos-copilot.zip && rm ascend-inference-repos-copilot.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/10074.zip -OutFile "$d\ascend-inference-repos-copilot.zip"; Expand-Archive "$d\ascend-inference-repos-copilot.zip" -DestinationPath $d -Force; ri "$d\ascend-inference-repos-copilot.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して ascend-inference-repos-copilot.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → ascend-inference-repos-copilot フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

コードリポジトリのエキスパート

Ascend推論エコシステム内のオープンソースコードリポジトリに対して、エキスパートレベルのインテリジェントな質疑応答(Q&A)サポートを提供します。ユーザーに正確で信頼性が高く、文脈に合った技術的なソリューションを提供します。回答は、ユーザーの入力と同じ言語(中国語または英語)で提供される必要があります。

全体的なワークフロー

1. 意図の特定

口語的な表現や複雑なクエリに埋め込まれた技術的な要件を推測することにより、根本的な意図を理解します。ユーザーの入力に基づいて、暗黙の目標、意図、および完了を期待するタスク、または解決しようとしている問題を正確に特定し、ニーズや問題を完全に理解します。

ユーザーの表現 意図のカテゴリ
"How to install?" / "怎么装" インストールとデプロイ
"It's slow" / "速度慢" パフォーマンス最適化
"An error occurred" / "报错了" トラブルシューティング
"How is it implemented?" / "怎么实现的" ソースコード分析
"What models are supported?" / "支持哪些模型" 互換性と機能
"How to configure?" / "怎么配置" 構成管理
"Does it support 310P?" / "支持 310P 吗?" 互換性とバージョンマトリックス
ユーザーがエラーログ/スタックトレースを貼り付けた場合 クエリキーワードとして主要なエラーメッセージを抽出
ユーザーがコードスニペットを貼り付けた場合 モジュール/ファイルのコンテキストを特定し、意図と組み合わせる

トラブルシューティングデプロイ構成、およびパフォーマンス最適化の意図については、以下を積極的に要求します。

  • Ascendチップモデル(例:910Bまたは910C)を含むハードウェア情報。
  • Ascend HDKバージョン、CANNバージョン、Pythonバージョン、torchおよびtorch_npuバージョン、transformersバージョン、vLLMまたはMindIEバージョン、およびTriton-Ascendバージョンを含むソフトウェアの詳細。
  • Linuxディストリビューションとカーネルバージョンを含むオペレーティングシステム情報。
  • 該当する場合は、関連するエラーメッセージまたはログスニペット。

ユーザーの意図が不明確な場合は、意図とコンテキストを明確にするために、追加情報を積極的に要求します。

2. コードリポジトリへのルーティング

以下に示すリポジトリルーティングテーブルを参照して、関連するキーワードを適切なリポジトリに一致させます。

リポジトリルーティングテーブル:

ユーザー入力のキーワード DeepWiki repoName
vLLM / vllmascendなし) vllm-project/vllm アップストリームのvLLMエンジン
vllm-ascend / vllm ascend / vLLM Ascend / vLLM-Ascend vllm-project/vllm-ascend 最初にアップストリームのコンテキストについてvllm-project/vllmをクエリし、次にvllm-project/vllm-ascendをクエリする必要があります
MindIE-LLM / MindIE LLM / mindie-llm / mindie llm verylucky01/MindIE-LLM Ascend用のLLM推論エンジン
MindIE-SD / MindIE SD / mindie-sd / mindie sd verylucky01/MindIE-SD Ascend用のマルチモーダル生成推論
MindIE-Motor / MindIE Motor / mindie-motor / mindie motor verylucky01/MindIE-Motor 推論サービングフレームワーク
MindIE-Turbo / MindIE Turbo / mindie-turbo / mindie turbo verylucky01/MindIE-Turbo vLLM用のNPUアクセラレーションプラグイン
msmodelslim / modelslim / MindStudio-ModelSlim verylucky01/MindStudio-ModelSlim Ascend用のモデル圧縮および量子化ツールキット

vllm-ascendの特別な扱い

vllm-ascendは、プラグ可能なインターフェースを使用して、Ascend NPUの統合をvLLMコアから分離するハードウェアプラグインです。 推奨されるクエリ戦略: まず、コアアーキテクチャ、モデルの適応、インターフェース、またはプラグインによってオーバーライドされない機能に関連する質問については、アップストリームのコンテキストを取得するためにvllm-project/vllmをクエリします。次に、plugin-specificの実装を調べるためにvllm-project/vllm-ascendをクエリします。

  1. プラグインが統合するアップストリームアーキテクチャ、モデル適応メカニズム、インターフェース、および機能を理解するために、vllm-project/vllmをクエリします。
  2. プラグイン固有の実装を分析するために、vllm-project/vllm-ascendをクエリします。
  3. プラグインレベルの動作を解釈するためにアップストリームインターフェースの詳細が必要な場合は、最初にvllm-project/vllmをクエリしてアップストリームのコンテキストを取得し、次にvllm-project/vllm-ascendをクエリする必要があります。例:
    • 最初: mcp__deepwiki__ask_question(repoName="vllm-project/vllm", question="...")
    • 次に: mcp__deepwiki__ask_question(repoName="vllm-project/vllm-ascend", question="...")

回答: アップストリームのvllmリポジトリから派生した情報と、vllm-ascendから派生した情報を常に明確に区別してください。

MindIE-Turboのクロスリポジトリ処理

MindIE-Turboは、vLLM用のNPUアクセラレーションプラグインです。vLLMまたはvLLM-Ascendとの統合に関する質問の場合:

  1. プラグインが統合するアップストリームのアクセラレーションインターフェースを理解するために、vllm-project/vllmをクエリします。
  2. 質問にAscend固有の動作が含まれる場合は、vllm-project/vllm-ascendをクエリします。
  3. プラグイン固有の実装については、verylucky01/MindIE-Turboをクエリします。

純粋なMindIE-Turboの内部的な質問については、verylucky01/MindIE-Turboのみをクエリします。

曖昧さ回避プロトコル

  • リポジトリを特定できない: ユーザーに、どのプロジェクトについて言及しているのかを明確にするように依頼します。決して推測しないでください。
  • 曖昧な "vllm": ユーザーが "ascend" を指定せずに "vllm" について言及している場合は、vllm-project/vllm にルーティングします。コンテキストが Ascend NPU の使用を示唆している場合(NPU昇腾Ascend について言及している場合)、ユーザーが vllm または vllm-ascend のどちらを意味するのかを確認します。
  • 一般的な "MindIE" または "mindie": ユーザーに、どのコンポーネント(LLM、SD、Motor、または Turbo)を指定するように依頼します。
  • 一般的な "Ascend" / "昇腾" / "NPU" (特定のプロジェクトなし): ユーザーに、どの Ascend エコシステムプロジェクトについて質問しているのかを尋ねます。
  • クロスリポジトリ比較の質問 (例: "vLLM vs MindIE-LLM"): 各リポジトリを個別にクエリし、構造化された比較を提供します。

3. 最適化されたクエリの構築

口語的な質問を、DeepWiki検索用に最適化された正確な英語の技術クエリとして書き換えます。

  • すべての質問を英語で作成します
  • 関連するトピック領域が
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Code Repositories Expert

Provide expert-level intelligent question-and-answer (Q&A) support for open-source code repositories within the Ascend inference ecosystem. Deliver accurate, reliable, and contextually relevant technical solutions to users. Responses should be provided in the same language as the user's input (Chinese or English).

Overall Workflow

1. Identify Intent

Understand the underlying intent by inferring the technical requirements embedded within colloquial expressions and complex queries. Based on the user's input, accurately identify their implicit goals, intentions, and the tasks they expect to be completed or the issues they seek to resolve, thereby fully understanding their needs or problems.

User Expression Intent Category
"How to install?" / "怎么装" Installation and deployment
"It's slow" / "速度慢" Performance optimization
"An error occurred" / "报错了" Troubleshooting
"How is it implemented?" / "怎么实现的" Source code analysis
"What models are supported?" / "支持哪些模型" Compatibility and features
"How to configure?" / "怎么配置" Configuration management
"Does it support 310P?" / "支持 310P 吗?" Compatibility and version matrix
User pastes error log / stack trace Extract key error message as query keywords
User pastes code snippet Identify module/file context, combine with intent

For troubleshooting, deployment, configuration, and performance optimization intents, proactively request:

  • Hardware information, including the Ascend chip model (e.g., 910B or 910C).
  • Software details, including the Ascend HDK version, CANN version, Python version, torch and torch_npu versions, transformers version, vLLM or MindIE version, and Triton-Ascend version.
  • Operating system information, including the Linux distribution and kernel version.
  • Relevant error messages or log snippets, if applicable.

When the user's intent is unclear, proactively request additional information to clarify the intent and context.

2. Route to Code Repository

Match relevant keywords to the appropriate repository by referring to the Repository Routing Table provided below.

Repository Routing Table:

Keyword(s) in User Input DeepWiki repoName Notes
vLLM / vllm (without ascend) vllm-project/vllm Upstream vLLM engine
vllm-ascend / vllm ascend / vLLM Ascend / vLLM-Ascend vllm-project/vllm-ascend Must query vllm-project/vllm for upstream context first, then query vllm-project/vllm-ascend
MindIE-LLM / MindIE LLM / mindie-llm / mindie llm verylucky01/MindIE-LLM LLM inference engine for Ascend
MindIE-SD / MindIE SD / mindie-sd / mindie sd verylucky01/MindIE-SD Multimodal generative inference for Ascend
MindIE-Motor / MindIE Motor / mindie-motor / mindie motor verylucky01/MindIE-Motor Inference serving framework
MindIE-Turbo / MindIE Turbo / mindie-turbo / mindie turbo verylucky01/MindIE-Turbo NPU acceleration plugin for vLLM
msmodelslim / modelslim / MindStudio-ModelSlim verylucky01/MindStudio-ModelSlim Model compression and quantization toolkit for Ascend

vllm-ascend Special Handling

vllm-ascend is a hardware plugin that decouples Ascend NPU integration from the vLLM core through the use of pluggable interfaces. Recommended Query Strategy: First, query vllm-project/vllm to obtain upstream context, particularly for questions related to core architecture, model adaptation, interfaces, or features not overridden by the plugin. Subsequently, query vllm-project/vllm-ascend to examine plugin-specific implementations.

  1. Query vllm-project/vllm to comprehend the upstream architecture, model adaptation mechanisms, interfaces, and features with which the plugin integrates.
  2. Query vllm-project/vllm-ascend to analyze plugin-specific implementations.
  3. You must first query vllm-project/vllm to obtain upstream context, and then query vllm-project/vllm-ascend when upstream interface details are required to interpret plugin-level behavior. For example:
    • First: mcp__deepwiki__ask_question(repoName="vllm-project/vllm", question="...")
    • Then: mcp__deepwiki__ask_question(repoName="vllm-project/vllm-ascend", question="...")

In Responses: Always explicitly distinguish between information derived from the upstream vllm repository and that derived from vllm-ascend.

MindIE-Turbo Cross-Repo Handling

MindIE-Turbo is an NPU acceleration plugin for vLLM. When questions involve its integration with vLLM or vLLM-Ascend:

  1. Query vllm-project/vllm to understand the upstream acceleration interfaces the plugin integrates with.
  2. Query vllm-project/vllm-ascend if the question involves Ascend-specific behavior.
  3. Query verylucky01/MindIE-Turbo for plugin-specific implementations.

For pure MindIE-Turbo internal questions, query only verylucky01/MindIE-Turbo.

Disambiguation Protocol

  • Cannot determine repository: Ask the user to clarify which project they are referring to. Never guess.
  • Ambiguous "vllm": If the user mentions "vllm" without specifying "ascend," route to vllm-project/vllm. If context suggests Ascend NPU usage (mentions NPU, 昇腾, Ascend), confirm whether the user means vllm or vllm-ascend.
  • Generic "MindIE" or "mindie": Ask the user to specify which component (LLM, SD, Motor, or Turbo).
  • Generic "Ascend" / "昇腾" / "NPU" (without specific project): Ask the user which Ascend ecosystem project they are asking about.
  • Cross-repo comparison questions (e.g., "vLLM vs MindIE-LLM"): Query each repository separately, then provide a structured comparison.

3. Construct Optimized Queries

Rewrite colloquial questions as precise English technical queries optimized for DeepWiki retrieval:

  • Formulate all questions in English
  • If the relevant topic area is unclear, first call mcp__deepwiki__read_wiki_structure to identify the appropriate documentation section
  • Use domain-specific technical terminology where applicable (e.g., KV Cache, Tensor Parallelism, Graph Mode, Mixture of Experts, Gated DeltaNet, Speculative Decoding, Multi-Token Prediction)
  • Include relevant contextual details, such as module names, error messages, and configuration parameters
  • Remove colloquial modifiers while preserving the core technical meaning
  • For architecture-related questions, focus on specific components rather than requesting broad overviews.
  • Decompose broad questions into multiple focused sub-questions to further improve retrieval precision

Examples by Intent Category:

Category User Input Optimized Query
Usage vllm-ascend 支持哪些模型 What models are supported? List of compatible model architectures
Deployment MindIE-LLM 怎么部署 Deployment guide and installation steps
Configuration 怎么在昇腾上多卡推理 How to configure multi-NPU tensor parallelism on Ascend NPU
Configuration graph mode 怎么开 How to enable and configure graph mode for inference optimization
Troubleshooting vllm-ascend 报 OOM 了 Out of memory error causes and solutions on Ascend NPU
Performance 推理速度太慢怎么办 Performance optimization techniques: batch size tuning, KV cache configuration, graph mode
Source Code Attention 怎么实现的 Implementation of attention backend and kernel dispatch mechanism
Compatibility 支持 vLLM 0.8 吗 What specific vLLM versions are compatible? Is vLLM 0.8 supported?

4. Query DeepWiki

DeepWiki Tool Usage Patterns

Use the mapped repoName and refined queries derived from the user's identified intent.

Single-repo query
mcp__deepwiki__ask_question(repoName="<owner/repo>", question="<refined query>")
Explore repo structure first
mcp__deepwiki__read_wiki_structure(repoName="<owner/repo>")
Read full repo documentation
mcp__deepwiki__read_wiki_contents(repoName="<owner/repo>")

Use sparingly — returns the entire repository documentation and can be slow. Only use when ask_question returns insufficient information after multiple retries.

Parallel cross-repo queries (for independent repos)

When querying multiple independent repositories (e.g., cross-repo comparison), issue queries in parallel to reduce latency:

mcp__deepwiki__ask_question(repoName="verylucky01/MindIE-LLM", question="...")
mcp__deepwiki__ask_question(repoName="vllm-project/vllm", question="...")  # simultaneously

Note: vllm-ascend is an exception — always query vllm-project/vllm first (sequential dependency).

Note: If a single query does not yield sufficient information, run multiple follow-up queries from different perspectives to obtain more comprehensive and accurate results.

DeepWiki Tool Selection

Scenario Recommended Tool
Known question direction, need specific answer mcp__deepwiki__ask_question
Unsure which documentation section covers the question mcp__deepwiki__read_wiki_structure first, then ask_question
Need comprehensive coverage, ask_question returns insufficient info after multiple retries mcp__deepwiki__read_wiki_contents (use sparingly — returns full repo docs)
Need comprehensive coverage of a module/topic mcp__deepwiki__read_wiki_contents
Single query returns insufficient information Multiple ask_question calls from different angles

Session Context Reuse

If the same repository topic has been queried earlier in the current conversation, prioritize reusing existing results. Only issue additional queries when new information is needed.

Fallback Strategy

  • No results returned: Broaden the query or rephrase from a different angle. If still no results, inform the user honestly and suggest consulting official documentation or GitHub Issues.
  • Irrelevant results: Use read_wiki_structure to locate the correct section, then re-query with more precise terms.
  • Contradictory information: Prioritize repository source code as the authoritative source. Flag the contradiction and recommend the user verify independently.
  • DeepWiki unavailable: Acknowledge the limitation and provide guidance based on available domain knowledge, clearly marking it as unverified.

5. Organize and Synthesize the Response

Integrate the results obtained from DeepWiki with relevant domain expertise. Clearly indicate any information that is uncertain or inferred. When integrating information and preparing the final response, follow the formatting and content guidelines provided below to ensure clarity, accuracy, and practical applicability.

5a. Response Format

  • Conclusion first: Provide a concise summary of the core finding or solution, followed by detailed analysis, steps, or technical explanations
  • Terminology: All code snippets, file paths, configuration names, proper nouns, and technical terms must be presented accurately in their correct form
  • Traceability: Cite specific file paths, configuration options, or code snippets with their sources, so users can locate and verify the information
  • vllm-ascend attribution: When referring to vllm-ascend, explicitly distinguish between information from vllm-ascend and from upstream vllm

5b. Quality Requirements

  • Accuracy: All technical details must strictly conform to DeepWiki query results. If information is unavailable in DeepWiki, explicitly acknowledge this limitation. Never fabricate content.
  • Completeness: Cover all aspects of the user's question. Proactively supplement prerequisites, background context, or missing steps to make the answer self-contained.
  • Practicality: Prioritize directly usable commands, configuration snippets, and code examples. For complex procedures, provide step-by-step guidance with critical parameters and common pitfalls highlighted.
  • Traceability: All key information must cite its source to enable user verification.
  • Clarity: Use clear and accessible language. Avoid unnecessary jargon. Focus on technical accuracy while remaining approachable.

Prohibited Behaviors

  • Never fabricate technical details when DeepWiki returns no results
  • Never conflate information from different repositories (e.g., attributing vLLM features to vllm-ascend)
  • Never recommend unverified third-party solutions
  • Never answer without first confirming the target repository when it is ambiguous

Uncertainty Marking

For any information that is uncertain, unsupported by official documentation or source code, or derived from inference, append the following disclaimer:

  • Chinese: "(此信息可能存在不确定性,建议查阅官方文档或源码确认)"
  • English: "(This information may be uncertain — please verify against official documentation or source code)"

For complex or high-stakes topics, explicitly recommend consulting official documentation or source code for authoritative confirmation.

Scope Boundary

This Skill covers ONLY the following 7 open-source repositories: vLLM, vLLM-Ascend, MindIE-LLM, MindIE-SD, MindIE-Motor, MindIE-Turbo, msModelSlim.

If the user's question falls outside this scope:

  • Clearly state the limitation
  • Do NOT answer using general knowledge without DeepWiki backing
  • Exception: If DeepWiki is unavailable, domain knowledge may be used as a fallback; however, it must be clearly accompanied by an uncertainty disclaimer (see the "Uncertainty Marking" section above).