jpskill.com
📦 その他 コミュニティ

result-diagnosis

機械学習やAIの結果が予想外だったり、うまくいかない場合に、原因を特定し、次に何をすべきかを見つける手助けをするSkill。

📜 元の英語説明(参考)

Diagnose surprising or negative ML/AI results. Use when methods fail, metrics conflict, seeds vary, baselines win, plots look suspicious, or next action is unclear.

🇯🇵 日本人クリエイター向け解説

一言でいうと

機械学習やAIの結果が予想外だったり、うまくいかない場合に、原因を特定し、次に何をすべきかを見つける手助けをするSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o result-diagnosis.zip https://jpskill.com/download/8059.zip && unzip -o result-diagnosis.zip && rm result-diagnosis.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/8059.zip -OutFile "$d\result-diagnosis.zip"; Expand-Archive "$d\result-diagnosis.zip" -DestinationPath $d -Force; ri "$d\result-diagnosis.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して result-diagnosis.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → result-diagnosis フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

結果診断

実験結果がプロジェクトにとって何を意味するのかを診断します。このスキルは、結果が出た後の意思決定、特に結果が否定的、驚くべき、不安定、または解釈が難しい場合に役立ちます。

このスキルは、以下の場合に使用します。

  • ある手法がベースラインを改善しない場合
  • 結果がシードによって大きく異なる場合
  • あるメトリックは改善するが、別のメトリックは悪化する場合
  • ベースラインが予想外に優位な場合
  • プロットまたはテーブルが疑わしい場合
  • 結果が実装バグ、メトリックバグ、データの問題、または不公平な比較によって引き起こされている可能性がある場合
  • 初期実験がアルゴリズムまたは論文の主張の修正を示唆する場合
  • ユーザーが「この結果は何を意味するのか?」または「次に何をすべきか?」と尋ねる場合

洗練されたレポートを作成するためにこのスキルを使用しないでください。診断が明確になったら、experiment-report-writerと組み合わせてください。

このスキルは、以下と組み合わせて使用します。

  • 診断が主張、証拠、リスク、アクション、またはワークツリーのステータスを更新する必要がある場合は、research-project-memory
  • 結果に共有可能なレポートが必要な場合は、experiment-report-writer
  • 診断が手法の修正を指し示す場合は、algorithm-design-planner
  • 診断が新しい対照実験を必要とする場合は、experiment-design-planner
  • 次のステップが再実行、健全性チェック、またはアブレーションである場合は、run-experiment
  • 正しいアクションが論文の主張を絞り込むか、再構成することである場合は、conference-writing-adapter

スキルディレクトリのレイアウト

<installed-skill-dir>/
├── SKILL.md
└── references/
    ├── diagnosis-taxonomy.md
    ├── evidence-audit.md
    ├── next-decision-rules.md
    ├── report-template.md
    └── triage-protocol.md

プログレッシブローディング

  • 常にreferences/diagnosis-taxonomy.mdreferences/triage-protocol.md、およびreferences/next-decision-rules.mdを読んでください。
  • ログ、設定、メトリック、プロット、実行、またはコードの状態を検査する場合は、references/evidence-audit.mdを読んでください。
  • 完全な診断レポートには、references/report-template.mdを使用してください。
  • 結果が現在のSOTA、ベンチマークの慣例、または最近のベースラインのパフォーマンスに依存する場合は、Web検索またはユーザーが提供する論文で現在のソースを確認してください。

コア原則

  • 最適化する前に診断してください。
  • 観察された結果と解釈を分離してください。
  • 高価な再実行の前に、簡単な健全性チェックを優先してください。
  • 否定的な結果を情報として扱ってください。それらはプロジェクト全体ではなく、主張を打ち消す可能性があります。
  • 実装、データ、メトリック、ベースライン、および選択ルールを確認する前に、アルゴリズムを非難しないでください。
  • 繰り返しの対照的な証拠が主張を反証する場合、実装をいつまでも非難しないでください。
  • すべての診断は、デバッグ、再実行、アブレーション、手法の修正、主張の絞り込み、記述、保留、または破棄のいずれかの決定で終わる必要があります。
  • 不確実性を明示的に記録してください。

ステップ1 - 結果と期待される動作を定義する

以下を抽出します。

  • 実験の質問とリンクされた主張
  • 手法とベースライン
  • データセット/分割
  • メトリックと期待される方向
  • 観察された結果
  • シード/繰り返しの数
  • 設定、コミット、ログ、テーブル、および図
  • 期待された結果とその理由
  • この結果が論文の主張に影響を与えるか、内部デバッグのみに影響を与えるか

曖昧な入力を以下のように書き換えます。

[設定]において、[ベースライン]よりも[メトリック/診断]を[手法]が改善することを期待したが、[コントロール]の下で[結果]が観察された。

期待される動作が定義されていない場合は、experiment-design-plannerに戻します。

ステップ2 - 症状を分類する

references/diagnosis-taxonomy.mdを読んでください。

主要な症状を分類します。

  • 改善なし
  • 退行
  • 不安定性または高い分散
  • メトリックの競合
  • 疑わしいほど大きなゲイン
  • ベースラインが予想外に強力
  • 診断/パフォーマンスの不一致
  • 学習の失敗または発散
  • 再現性の失敗
  • プロット/テーブルの不整合
  • 結果が論文のストーリーと矛盾する

次に、可能性の高い診断カテゴリを分類します。

  • 実装バグ
  • メトリック/評価バグ
  • データ/分割/前処理の問題
  • 不公平なベースラインまたはチューニングの問題
  • シードの分散または不十分な繰り返し
  • 最適化/ハイパーパラメータの問題
  • 手法のメカニズムの失敗
  • スケール/レジームの不一致
  • 主張/証拠の不一致
  • 予想される否定的な結果

ステップ3 - 証拠を収集する

references/evidence-audit.mdを読んでください。

主要なアーティファクトを優先します。

  • 設定の差分
  • 実行コマンド
  • gitコミット
  • ログと標準エラー
  • メトリックファイル
  • チェックポイント
  • シード
  • データセットのバージョンと分割ハッシュ
  • プロットとテーブル
  • 以前のベースライン実行
  • 実装の変更

推測するのではなく、不足している証拠をマークしてください。

ステップ4 - トリアージを実行する

references/triage-protocol.mdを読んでください。

次の順序で使用します。

  1. 再現性と出所:正しいコミット、設定、データ、シード、出力パス。
  2. メトリックと評価:メトリックの方向、集計、分割、リーク、後処理。
  3. ベースラインの公平性:同じ予算、チューニング、チェックポイントルール、データ、サンプラー、およびコードパス。
  4. 実装の健全性:フィーチャーフラグ、テンソルの形状、勾配の流れ、損失スケール、学習/評価モード。
  5. 統計的安定性:シード、分散、信頼区間、外れ値。
  6. メカニズムの診断:意図されたメカニズムが変更されたかどうか。
  7. 主張の整合性:結果が論文の主張を支持、弱体化、または反証するかどうか。

ブロックするバグまたは無効な比較が見つかった場合にのみ、途中で停止します。

ステップ5 - 競合する説明を構築する

各もっともらしい説明について、以下を記述します。

  • それに対する証拠
  • それに反する証拠
  • それを区別する最も安価なテスト
  • 真実の場合の決定

少なくとも以下を検討してください。

  • バグ
  • 悪いメトリック
  • 弱い実験計画
  • ベースラインが強すぎるか、チューニング不足
  • ハイパーパラメータの問題
  • メカニズムが間違っている
  • 主張が広すぎる

ステップ6 - 次の決定を選択する

references/next-decision-rules.mdを読んでください。

1つの主要な決定を選択します。

  • debug: バグまたは出所の問題が解決されるまで、結果は信頼できません
  • rerun: 結果はもっともらしいが、力が不足しているか、コントロールが欠落しています
  • ablate: 結果にはメカニズムの分離が必要です
  • revise-method: メカニズムには設計変更が必要になる可能性があります
  • narrow-claim: 証拠はより小さいまたは異なる主張を支持します
  • write: 証拠は報告するのに十分信頼できます
  • park: 結果は決定的ではなく、すぐに計算する価値はありません
  • kill: 主張または方向は、公平なコントロールの下で反証されます

実行

(原文がここで切り詰められています)

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Result Diagnosis

Diagnose what an experiment result means for the project. This skill is for decision-making after results exist, especially when they are negative, surprising, unstable, or hard to interpret.

Use this skill when:

  • a method does not improve over baseline
  • results vary strongly across seeds
  • a metric improves but another metric worsens
  • a baseline unexpectedly wins
  • a plot or table looks suspicious
  • a result may be caused by an implementation bug, metric bug, data issue, or unfair comparison
  • early experiments suggest revising the algorithm or paper claim
  • the user asks "what does this result mean?" or "what should we do next?"

Do not use this skill to write a polished report. Pair it with experiment-report-writer after the diagnosis is clear.

Pair this skill with:

  • research-project-memory when the diagnosis should update claims, evidence, risks, actions, or worktree status
  • experiment-report-writer when results need a shareable report
  • algorithm-design-planner when the diagnosis points to method revision
  • experiment-design-planner when the diagnosis requires a new controlled experiment
  • run-experiment when the next step is a rerun, sanity check, or ablation
  • conference-writing-adapter when the right action is to narrow or reframe paper claims

Skill Directory Layout

<installed-skill-dir>/
├── SKILL.md
└── references/
    ├── diagnosis-taxonomy.md
    ├── evidence-audit.md
    ├── next-decision-rules.md
    ├── report-template.md
    └── triage-protocol.md

Progressive Loading

  • Always read references/diagnosis-taxonomy.md, references/triage-protocol.md, and references/next-decision-rules.md.
  • Read references/evidence-audit.md when inspecting logs, configs, metrics, plots, runs, or code state.
  • Use references/report-template.md for full diagnosis reports.
  • If a result depends on current SOTA, benchmark conventions, or recent baseline performance, verify current sources with web search or user-provided papers.

Core Principles

  • Diagnose before optimizing.
  • Separate observed result from interpretation.
  • Prefer simple sanity checks before expensive reruns.
  • Treat negative results as information: they may kill a claim, not the whole project.
  • Do not blame the algorithm before checking implementation, data, metric, baseline, and selection rules.
  • Do not blame implementation forever when repeated controlled evidence falsifies the claim.
  • Every diagnosis should end with a decision: debug, rerun, ablate, revise method, narrow claim, write, park, or kill.
  • Record uncertainty explicitly.

Step 1 - Define the Result and Expected Behavior

Extract:

  • experiment question and linked claim
  • method and baseline
  • dataset/split
  • metrics and expected direction
  • observed result
  • number of seeds/repeats
  • configs, commit, logs, tables, and figures
  • what result was expected and why
  • whether this result affects paper claims or only internal debugging

Rewrite vague input into:

Expected [method] to improve [metric/diagnostic] over [baseline] on [setting], but observed [result] under [controls].

If expected behavior was never defined, route back to experiment-design-planner.

Step 2 - Classify the Symptom

Read references/diagnosis-taxonomy.md.

Classify the primary symptom:

  • no improvement
  • regression
  • instability or high variance
  • metric conflict
  • suspiciously large gain
  • baseline unexpectedly strong
  • diagnostic/performance mismatch
  • training failure or divergence
  • reproducibility failure
  • plot/table inconsistency
  • result contradicts paper story

Then classify likely diagnosis categories:

  • implementation bug
  • metric/evaluation bug
  • data/split/preprocessing issue
  • unfair baseline or tuning issue
  • seed variance or insufficient repeats
  • optimization/hyperparameter issue
  • method mechanism failure
  • scale/regime mismatch
  • claim/evidence mismatch
  • expected negative result

Step 3 - Gather Evidence

Read references/evidence-audit.md.

Prefer primary artifacts:

  • config diffs
  • run commands
  • git commit
  • logs and stderr
  • metric files
  • checkpoints
  • seeds
  • dataset versions and split hashes
  • plots and tables
  • previous baseline runs
  • implementation changes

Mark missing evidence rather than guessing.

Step 4 - Run Triage

Read references/triage-protocol.md.

Use this order:

  1. Reproducibility and provenance: correct commit, config, data, seed, output path.
  2. Metric and evaluation: metric direction, aggregation, split, leakage, postprocessing.
  3. Baseline fairness: same budget, tuning, checkpoint rule, data, sampler, and code path.
  4. Implementation sanity: feature flag, tensor shapes, gradient flow, loss scale, train/eval mode.
  5. Statistical stability: seeds, variance, confidence intervals, outliers.
  6. Mechanism diagnostic: whether the intended mechanism changed.
  7. Claim alignment: whether the result supports, weakens, or falsifies the paper claim.

Stop early only when a blocking bug or invalid comparison is found.

Step 5 - Build Competing Explanations

For each plausible explanation, state:

  • evidence for it
  • evidence against it
  • cheapest test that would distinguish it
  • decision if true

At minimum consider:

  • bug
  • bad metric
  • weak experiment design
  • baseline too strong or under-tuned
  • hyperparameter issue
  • mechanism false
  • claim too broad

Step 6 - Choose Next Decision

Read references/next-decision-rules.md.

Choose one primary decision:

  • debug: result is not trustworthy until a bug or provenance issue is resolved
  • rerun: result is plausible but underpowered or missing controls
  • ablate: result needs mechanism isolation
  • revise-method: mechanism likely needs design change
  • narrow-claim: evidence supports a smaller or different claim
  • write: evidence is trustworthy enough to report
  • park: result is inconclusive and not worth immediate compute
  • kill: claim or direction is falsified under fair controls

Do not pick write if basic provenance or fairness is unresolved.

Step 7 - Write the Diagnosis

Use references/report-template.md for full reports.

If saving to a project and no path is given, use:

docs/diagnosis/result_diagnosis_YYYY-MM-DD_<short-name>.md

Required output:

# Result Diagnosis: [Short Name]

## Result Snapshot
## Expected vs Observed
## Symptom Classification
## Evidence Checked
## Competing Explanations
## Most Likely Diagnosis
## Decision
## Next Checks or Actions
## Claim Impact
## Project Memory Writeback

Step 8 - Write Back to Project Memory

If the project uses research-project-memory, update:

  • memory/evidence-board.md: observed result, limitations, and source paths
  • memory/provenance-board.md: mark result provenance verified, stale, contradictory, or missing when diagnosis depends on source validity
  • memory/claim-board.md: claims supported, weakened, revised, evidence-needed, provisional, parked, or cut
  • memory/risk-board.md: bugs, metric risks, baseline risks, mechanism risks, or claim risks
  • memory/action-board.md: debug, rerun, ablation, method revision, writing, park, or kill actions
  • memory/handoff-board.md: create handoffs to method design, experiment design, paper evidence, or writing when diagnosis changes downstream work
  • memory/phase-dashboard.md: update the active gate when diagnosis advances evidence production or regresses the project to debugging, method revision, or claim narrowing
  • memory/decision-log.md: durable decisions such as killing a claim, changing method, or narrowing scope
  • worktree .agent/worktree-status.md: latest result and exit condition if a branch/worktree is involved

Use observed for verified results and inferred for explanations. Mark stale claims explicitly.

Final Sanity Check

Before finalizing:

  • observed result and interpretation are separated
  • provenance and config are checked or listed as missing
  • metric direction and aggregation are clear
  • baseline fairness is addressed
  • implementation sanity checks are considered
  • seed variance and repeats are considered
  • mechanism diagnostic is checked when relevant
  • result is mapped to a concrete decision
  • paper claim impact is explicit
  • project memory is updated when present