jpskill.com
💬 コミュニケーション コミュニティ

pinchbench

OpenClawエージェントが、カレンダー、メール、調査、コーディングなどの実務的なタスクをどれだけこなせるかを、ベンチマークで評価し、モデルの性能比較や結果の提出、環境設定の確認などに役立てるSkill。

📜 元の英語説明(参考)

Run PinchBench benchmarks to evaluate OpenClaw agent performance across real-world tasks. Use when testing model capabilities, comparing models, submitting benchmark results to the leaderboard, or checking how well your OpenClaw setup handles calendar, email, research, coding, and multi-step workflows.

🇯🇵 日本人クリエイター向け解説

一言でいうと

OpenClawエージェントが、カレンダー、メール、調査、コーディングなどの実務的なタスクをどれだけこなせるかを、ベンチマークで評価し、モデルの性能比較や結果の提出、環境設定の確認などに役立てるSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o pinchbench.zip https://jpskill.com/download/19799.zip && unzip -o pinchbench.zip && rm pinchbench.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/19799.zip -OutFile "$d\pinchbench.zip"; Expand-Archive "$d\pinchbench.zip" -DestinationPath $d -Force; ri "$d\pinchbench.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して pinchbench.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → pinchbench フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
13

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

PinchBench ベンチマークスキル

PinchBench は、LLM モデルが OpenClaw エージェントの頭脳としてどの程度機能するかを測定します。結果は pinchbench.com の公開リーダーボードで収集されます。

前提条件

  • Python 3.10+
  • uv パッケージマネージャー
  • OpenClaw インスタンス (このエージェント)

クイックスタート

cd <skill_directory>

# 特定のモデルでベンチマークを実行
uv run benchmark.py --model anthropic/claude-sonnet-4

# 自動化されたタスクのみを実行 (高速)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only

# 特定のタスクを実行
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_01_calendar,task_02_stock

# 結果のアップロードをスキップ
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload

利用可能なタスク (23)

タスク カテゴリ 説明
task_00_sanity 基本 エージェントが機能することを確認
task_01_calendar 生産性 カレンダーイベントの作成
task_02_stock 調査 株価の検索
task_03_blog ライティング ブログ記事の作成
task_04_weather コーディング 天気スクリプト
task_05_summary 分析 ドキュメントの要約
task_06_events 調査 会議の調査
task_07_email ライティング メール作成
task_08_memory メモリ コンテキストの取得
task_09_files ファイル ファイル構造の作成
task_10_workflow 統合 マルチステップ API ワークフロー
task_11_clawdhub スキル ClawHub との対話
task_12_skill_search スキル スキルの発見
task_13_image_gen クリエイティブ 画像生成
task_14_humanizer ライティング テキストの人間化
task_15_daily_summary 生産性 日次ダイジェスト
task_16_email_triage メール 受信トレイのトリアージ
task_17_email_search メール メール検索
task_18_market_research 調査 市場分析
task_19_spreadsheet_summary 分析 スプレッドシート分析
task_20_eli5_pdf_summary 分析 PDF の簡素化
task_21_openclaw_comprehension 知識 OpenClaw ドキュメントの理解
task_22_second_brain メモリ 知識管理

コマンドラインオプション

オプション 説明
--model モデル識別子 (例: anthropic/claude-sonnet-4)
--suite allautomated-only、またはカンマ区切りのタスク ID
--output-dir 結果ディレクトリ (デフォルト: results/)
--timeout-multiplier 低速モデル向けにタスクのタイムアウトを調整
--runs 平均化のためのタスクごとの実行回数
--no-upload リーダーボードへのアップロードをスキップ
--register 提出用の新しい API トークンを要求
--upload FILE 以前の結果 JSON をアップロード

トークン登録

結果をリーダーボードに提出するには:

# API トークンを登録 (1回のみ)
uv run benchmark.py --register

# ベンチマークを実行 (トークンで自動アップロード)
uv run benchmark.py --model anthropic/claude-sonnet-4

結果

結果は出力ディレクトリに JSON 形式で保存されます。

# タスクスコアを表示
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json

# 失敗したタスクを表示
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json

# 全体スコアを計算
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json

カスタムタスクの追加

tasks/ ディレクトリに TASK_TEMPLATE.md に従って Markdown ファイルを作成します。各タスクには以下が必要です。

  • YAML フロントマター (id、name、category、grading_type、timeout)
  • プロンプトセクション
  • 期待される動作
  • 採点基準
  • 自動チェック (Python 採点関数)

リーダーボード

結果は pinchbench.com で確認できます。リーダーボードには以下が表示されます。

  • 全体スコアによるモデルランキング
  • タスクごとの内訳
  • 過去のパフォーマンス傾向
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

PinchBench Benchmark Skill

PinchBench measures how well LLM models perform as the brain of an OpenClaw agent. Results are collected on a public leaderboard at pinchbench.com.

Prerequisites

  • Python 3.10+
  • uv package manager
  • OpenClaw instance (this agent)

Quick Start

cd <skill_directory>

# Run benchmark with a specific model
uv run benchmark.py --model anthropic/claude-sonnet-4

# Run only automated tasks (faster)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only

# Run specific tasks
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_01_calendar,task_02_stock

# Skip uploading results
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload

Available Tasks (23)

Task Category Description
task_00_sanity Basic Verify agent works
task_01_calendar Productivity Calendar event creation
task_02_stock Research Stock price lookup
task_03_blog Writing Blog post creation
task_04_weather Coding Weather script
task_05_summary Analysis Document summarization
task_06_events Research Conference research
task_07_email Writing Email drafting
task_08_memory Memory Context retrieval
task_09_files Files File structure creation
task_10_workflow Integration Multi-step API workflow
task_11_clawdhub Skills ClawHub interaction
task_12_skill_search Skills Skill discovery
task_13_image_gen Creative Image generation
task_14_humanizer Writing Text humanization
task_15_daily_summary Productivity Daily digest
task_16_email_triage Email Inbox triage
task_17_email_search Email Email search
task_18_market_research Research Market analysis
task_19_spreadsheet_summary Analysis Spreadsheet analysis
task_20_eli5_pdf_summary Analysis PDF simplification
task_21_openclaw_comprehension Knowledge OpenClaw docs comprehension
task_22_second_brain Memory Knowledge management

Command Line Options

Option Description
--model Model identifier (e.g., anthropic/claude-sonnet-4)
--suite all, automated-only, or comma-separated task IDs
--output-dir Results directory (default: results/)
--timeout-multiplier Scale task timeouts for slower models
--runs Number of runs per task for averaging
--no-upload Skip uploading to leaderboard
--register Request new API token for submissions
--upload FILE Upload previous results JSON

Token Registration

To submit results to the leaderboard:

# Register for an API token (one-time)
uv run benchmark.py --register

# Run benchmark (auto-uploads with token)
uv run benchmark.py --model anthropic/claude-sonnet-4

Results

Results are saved as JSON in the output directory:

# View task scores
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json

# Show failed tasks
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json

# Calculate overall score
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json

Adding Custom Tasks

Create a markdown file in tasks/ following TASK_TEMPLATE.md. Each task needs:

  • YAML frontmatter (id, name, category, grading_type, timeout)
  • Prompt section
  • Expected behavior
  • Grading criteria
  • Automated checks (Python grading function)

Leaderboard

View results at pinchbench.com. The leaderboard shows:

  • Model rankings by overall score
  • Per-task breakdowns
  • Historical performance trends

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。