jpskill.com
🛠️ 開発・MCP コミュニティ

evals

エージェントの動作をテストするために、評価(eval)を作成したり実行したりするSkillで、エージェントの性能を客観的に測りたい場合に活用できるテスト自動化を支援するSkill。

📜 元の英語説明(参考)

Run and create evals for testing agent behavior. Use when the user wants to create or run an eval.

🇯🇵 日本人クリエイター向け解説

一言でいうと

エージェントの動作をテストするために、評価(eval)を作成したり実行したりするSkillで、エージェントの性能を客観的に測りたい場合に活用できるテスト自動化を支援するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o evals.zip https://jpskill.com/download/9736.zip && unzip -o evals.zip && rm evals.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/9736.zip -OutFile "$d\evals.zip"; Expand-Archive "$d\evals.zip" -DestinationPath $d -Force; ri "$d\evals.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して evals.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → evals フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Eval Skill

エージェントの振る舞いをテストするための eval を実行および作成します。

Eval の発見

Eval は *.eval.md に一致する Markdown ファイルです。glob を使用して検索します。

**/*.eval.md

一般的なパターンは、eval を evals/ ディレクトリに収集することです。

Eval の構造

Eval ファイルには、プロンプトと期待値が含まれています。

# Eval Title

<prompt>
エージェントが実行する指示。
</prompt>

<expectation>
成功基準 - eval が成功するために真でなければならないことを記述します。
</expectation>

Eval の実行

  1. Eval ファイルを読み込みます
  2. <prompt> の内容を抽出します
  3. プロンプトを使用してサブエージェントを生成します(共有状態の現在の作業ディレクトリで実行されます)
  4. サブエージェントは、LLM の判断を使用して、<expectation> に対して独自の結果を評価します
  5. サブエージェントは、推論とともに SUCCESS または FAIL を出力します

複数の eval を実行する場合は、すべてのサブエージェントを並行して生成します。最後に集計結果を報告します。

CI 解析のために、常に以下のいずれかの行で出力を終了してください。

  • eval result: pass — すべての eval が成功しました
  • eval result: fail — 1 つ以上の eval が失敗しました

サブエージェントの指示

重要: サブエージェントは、テストと観察のみを行う必要があります。期待値を満たすために、何かを修正、変更、または変更しようとしてはなりません。サブエージェントはプロンプトを実行し、結果を観察し、期待が満たされたかどうかを報告します。期待が満たされない場合は、FAIL を報告してください — 成功させようとしないでください。

コマンド

単一の eval を実行します。

/eval run <path-to-eval.eval.md>

すべての eval を実行します。

/eval run-all

Eval の作成

ユーザーから収集します。

  1. Context - 評価するプロセスまたはフロー
  2. Expectation - 自然言語での成功基準
/eval create <name>

現在のディレクトリに <name>.eval.md として eval を書き込みます。

分離

Eval を作成するときは、自己完結型で再現可能にすることを目指してください。これは重要ではありませんが、役立ちます。

  • ハードコードされたパスを避けるようにしてください — 特定の一時ディレクトリまたは絶対パスをエンコードするのではなく、相対パスを優先するか、プロンプトに独自の作業ディレクトリを作成させます。
  • 外部状態を避けるようにしてください — プロセスが既存のファイルまたはサービスに依存している場合は、eval がその状態自体を作成する必要があるかどうかを検討してください。
  • 可能な限りパラメータ化します — 特定の値(ポート、ファイル名、ID)を、eval が生成できる汎用的な値に置き換えます。

分離を改善する機会があるものの、明確化が必要な場合は、ユーザーに質問してください。

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Eval Skill

Run and create evals for testing agent behavior.

Discovering Evals

Evals are markdown files matching *.eval.md. Use glob to find them:

**/*.eval.md

A common pattern is to collect evals in an evals/ directory.

Eval Structure

An eval file contains a prompt and an expectation:

# Eval Title

<prompt>
Instructions for the agent to execute.
</prompt>

<expectation>
Success criteria - describe what must be true for the eval to pass.
</expectation>

Running an Eval

  1. Read the eval file
  2. Extract the <prompt> content
  3. Spawn a subagent with the prompt (runs in current working directory with shared state)
  4. The subagent evaluates its own result against the <expectation> using LLM judgment
  5. Subagent outputs SUCCESS or FAIL with reasoning

When running multiple evals, spawn all subagents in parallel. Report aggregate results at the end.

Always end output with exactly one of these lines for CI parsing:

  • eval result: pass — all evals passed
  • eval result: fail — one or more evals failed

Subagent Instructions

IMPORTANT: The subagent must only test and observe. It must NOT attempt to fix, modify, or change anything to make the expectation pass. The subagent executes the prompt, observes the outcome, and reports whether the expectation was met. If the expectation fails, report FAIL — do not try to make it pass.

Commands

Run a single eval:

/eval run <path-to-eval.eval.md>

Run all evals:

/eval run-all

Creating an Eval

Gather from the user:

  1. Context - The process or flow to evaluate
  2. Expectation - Success criteria in natural language
/eval create <name>

Write the eval to <name>.eval.md in the current directory.

Isolation

When creating an eval, try to make it self-contained and reproducible. This isn't critical, but helps:

  • Try to avoid hardcoded paths — prefer relative paths or have the prompt create its own working directory rather than encoding specific temp directories or absolute paths.
  • Try to avoid external state — if the process relied on existing files or services, consider whether the eval should create that state itself.
  • Parameterize where possible — replace specific values (ports, filenames, IDs) with generic ones the eval can generate.

If you see an opportunity to improve isolation but need clarification, ask the user.