この本文は AI(Claude)が読むための原文(英語または中国語)です。日本語訳は順次追加中。

淘宝桌面版MCP评测框架

概述

本skill提供一套系统化的评测框架，用于测试淘宝桌面版MCP工具的各项功能，并生成专业的技术评测报告。

⚠️ 执行原则（必须遵守）

原子性执行

评测任务一旦开始，必须完整执行完成，不可中断。

原则	说明
不可中断	开始评测后，必须完成所有5个任务 + 生成报告
完整流程	初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理
状态跟踪	每个任务完成后记录 checkpoint，便于恢复
用户提醒	如用户试图中断，提醒"评测任务未完成，是否继续？"

任务状态管理

评测开始时创建状态文件 ~/.copaw/tasks/benchmark_YYYYMMDD_HHMMSS/status.json：

{
  "benchmark_id": "20260317_145034",
  "version": "1.2.0",
  "start_time": "2026-03-17 14:50:00",
  "status": "running",
  "current_task": 1,
  "tasks": [
    {"id": 1, "name": "淘金币签到", "status": "pending", "score": null},
    {"id": 2, "name": "商品搜索+对比+加购", "status": "pending", "score": null},
    {"id": 3, "name": "订单管理", "status": "pending", "score": null},
    {"id": 4, "name": "获取购物车以及降价信息", "status": "pending", "score": null},
    {"id": 5, "name": "客服咨询对话", "status": "pending", "score": null}
  ],
  "screenshots": [],
  "report_generated": false
}

每个任务完成后立即更新状态：

# 任务完成后更新
echo '{"id": 1, "status": "completed", "score": 9, "end_time": "..."}' >> status.json

中断恢复机制

如果会话中断，下次用户询问评测时：

检查 status.json 是否存在
如果存在未完成任务：
- 提示用户："发现未完成的评测任务（任务X/Y），是否继续？"
- 用户确认后，从 current_task 继续执行
如果已完成但未生成报告：
- 直接生成报告

执行流程图

开始评测
    │
    ▼
创建任务目录 + status.json
    │
    ▼
┌─────────────────────────────┐
│  任务1：淘金币签到           │◄─── 记录截图、耗时、结果
│  任务2：商品搜索+对比+加购   │◄─── 记录截图、耗时、结果
│  任务3：订单管理            │◄─── 记录截图、耗时、结果
│  任务4：获取购物车以及降价信息 │◄─── 记录截图、耗时、结果
│  任务5：客服咨询对话        │◄─── 记录截图、耗时、结果
└─────────────────────────────┘
    │
    ▼
收集所有截图
    │
    ▼
生成 Word 报告（含截图）
    │
    ▼
更新 status.json → completed
    │
    ▼
输出评测结果摘要

禁止操作

禁止行为	原因
❌ 任务中途停止	导致评测数据不完整
❌ 跳过任务	影响总分计算
❌ 跳过截图	报告缺失关键证据
❌ 不生成报告	用户无法查看结果

用户中断处理

如果用户在评测过程中说"停"、"不做了"等：

AI：⚠️ 评测任务尚未完成（已完成 X/5 个任务）。
    中断将导致评测数据不完整，无法生成完整报告。
    是否继续完成评测？（建议选择"继续"）

    - 继续：继续执行剩余任务
    - 中断：停止评测，生成不完整报告（不推荐）

适用场景

MCP工具版本更新后的回归测试
新功能发布前的验收测试
定期质量检查和稳定性监控
问题复现和性能基准测试

评测任务清单

任务1：淘金币签到（权重 25%）

测试目标：验证导航、元素识别、点击操作的稳定性

测试步骤：

navigate → 首页
scan_page_elements → 识别淘金币入口
click_element → 进入淘金币页面
read_page_content → 读取金币数量
完成签到任务（逛商品等）
验证金币增加

评分标准： | 指标 | 分值 | |------|------| | 导航成功 | 2分 | | 元素识别准确 | 2分 | | 点击操作成功 | 2分 | | 金币增加验证 | 2分 | | 流程顺畅度 | 2分 |

任务2：商品搜索+对比+加购（权重 30%）

测试目标：验证搜索、详情查看、SKU选择、加购流程

测试步骤：

search_products → 搜索关键词（如"保温杯"）
read_page_content → 读取搜索结果
筛选前3个商品进行对比
click_element → 进入商品详情页
read_page_content → 读取商品信息
add_to_cart → 加入购物车（带SKU参数）

评分标准： | 指标 | 分值 | |------|------| | 搜索返回结果 | 2分 | | 商品详情页导航 | 2分 | | 信息提取完整 | 2分 | | SKU选择准确 | 2分 | | 加购成功 | 2分 |

任务3：订单管理（权重 20%）

测试目标：验证订单页面导航、状态筛选功能

测试步骤：

navigate → 订单页面
scan_page_elements → 识别筛选标签
依次测试：待付款、待发货、待收货、待评价
read_page_content → 读取订单列表
验证筛选功能正常

评分标准： | 指标 | 分值 | |------|------| | 订单页面导航 | 2分 | | 筛选标签识别 | 2分 | | 筛选功能正常 | 2分 | | 订单信息读取 | 2分 | | 页面切换流畅 | 2分 |

任务4：获取购物车以及降价信息（权重 20%）

测试目标：验证购物车导航、商品列表读取、降价信息提取

测试步骤：

navigate → 购物车页面
read_page_content → 读取商品列表
统计购物车商品总数
点击"降价"标签筛选降价商品
read_page_content → 读取降价商品详情
记录降价商品数量和降价金额

评分标准： | 指标 | 分值 | |------|------| | 购物车导航成功 | 2分 | | 商品列表读取完整 | 2分 | | 降价标签点击成功 | 2分 | | 降价信息提取准确 | 2分 | | 数据记录完整 | 2分 |

输出数据：

购物车商品总数
降价商品数量
每个降价商品的：商品名、原价、券后价、降价金额

任务5：客服咨询对话（权重 15%）

测试目标：验证搜索商品、发起客服咨询、多轮对话功能

测试步骤：

随机选择一个商品主题（如：鼠标、键盘、台灯等）
search_products → 搜索商品
open_chat_from_search → 进入商家客服对话
发起第一轮咨询："你好，请问这个商品今天下单，3天后能到杭州吗？"
等待客服回复（最多60秒）
send_chat_message → 发起第二轮追问："好的，那发什么快递呢？可以发顺丰吗？"
等待客服回复（最多60秒）
记录两轮对话内容

评分标准： | 指标 | 分值 | |------|------| | 商品搜索成功 | 1分 | | 进入客服对话 | 1分 | | 第一轮对话发送成功 | 1.5分 | | 客服第一次回复接收 | 1.5分 | | 第二轮追问发送成功 | 2分 | | 客服第二次回复接收 | 2分 | | 对话记录完整 | 1分 |

工具调用：

# 搜索商品
search_products keyword="鼠标"

# 通过搜索进入客服对话
open_chat_from_search query="鼠标" message="你好，请问这个商品今天下单，3天后能到杭州吗？"

# 发送第二轮追问（等待客服回复后）
send_chat_message message="好的，那发什么快递呢？可以发顺丰吗？"

注意事项：

优先选择官方旗舰店或高销量店铺
如果客服回复较慢，等待时间不超过60秒
必须完成两轮对话才算任务完成
记录两轮客服回复内容用于验证
如果客服长时间未回复，可主动发送追问（不算失败）

评测流程

1. 初始化评测任务

# 创建评测任务目录
mkdir -p ~/.copaw/tasks/benchmark_$(date +%Y%m%d_%H%M%S)/screenshots

# 记录评测开始时间
echo "评测开始时间: $(date '+%Y-%m-%d %H:%M:%S')" > ~/.copaw/tasks/benchmark_*/timing.log

2. 执行评测任务

必须严格遵守以下规范：

截图规范（每个任务必须）

截图时机	文件命名	说明
任务开始	`XX_task_start.png`	任务开始时的页面状态
关键操作前	`XX_step_N_操作名_before.png`	操作前的页面状态
关键操作后	`XX_step_N_操作名_after.png`	操作后的页面状态
任务完成	`XX_task_end.png`	任务完成时的页面状态
异常/问题	`XX_issue_N.png`	发现问题时的截图

截图命令：

screencapture -x ~/.copaw/tasks/benchmark_*/screenshots/01_task_start.png

耗时统计（每个操作必须）

# 操作开始
START_TIME=$(date +%s)

# 执行操作（如 navigate、click 等）

# 操作结束，计算耗时
END_TIME=$(date +%s)
echo "navigate_home: $((END_TIME - START_TIME))秒" >> timing.log

工具调用记录

每次工具调用必须记录：

工具名称
调用参数
返回结果摘要
是否成功
耗时

echo "$(date '+%H:%M:%S') | navigate | page=home | success | 2.3s" >> calls.log

3. 生成评测报告

报告命名规范（必须遵守）：

项目	格式	示例
报告标题	淘宝桌面版MCP评测报告 {YYYY-MM-DD}	淘宝桌面版MCP评测报告 2026-03-17
Word文件名	淘宝桌面版MCP评测报告 {YYYY-MM-DD}.docx	淘宝桌面版MCP评测报告 2026-03-17.docx
Markdown文件名	report_{YYYY-MM-DD}.md	report_2026-03-17.md

Word 报告必须包含以下内容：

第一部分：整体小结（必须）

评测概览表格（版本、时间、环境）
总体评分和等级
任务完成度统计表
工具调用总览表
耗时分布图/表
发现问题汇总表
关键结论

第二部分：分任务详情（每个任务必须包含）

每个任务需包含：

任务概要
- 任务名称和目标
- 开始/结束时间
- 耗时统计
- 评分和完成状态
执行流程表
- 步骤编号
- 操作描述
- 工具名称
- 调用参数
- 返回结果
- 是否成功
- 耗时
过程截图
- 每个关键步骤的截图（嵌入文档）
- 截图说明文字
数据结果
- 具体的数据（如金币数、商品数等）
- 对比表格
问题分析
- 发现的问题列表
- 问题截图和标注
- 影响评估
- 建议解决方案
评价与建议
- 优点总结
- 可优化点

第三部分：技术分析

工具调用统计表（工具名、调用次数、成功率、平均耗时）
性能指标表
问题清单（编号、描述、影响范围、优先级、状态）

第四部分：附录

完整截图清单
工具调用日志
相关文件路径

4. 更新评测记录

将评测结果追加到 benchmark_history.md

工具调用规范

导航操作

# 优先使用专用导航
mcporter call taobao-native.navigate --args '{"target":"home"}' --output json
mcporter call taobao-native.navigate --args '{"target":"cart"}' --output json
mcporter call taobao-native.navigate --args '{"target":"order"}' --output json

元素扫描

# 使用filter参数缩小范围
mcporter call taobao-native.scan_page_elements --args '{"filter":"淘金币"}' --output json
mcporter call taobao-native.scan_page_elements --args '{"filter":"保温杯"}' --output json

内容读取

# 使用scope参数限定范围
mcporter call taobao-native.read_page_content --args '{"maxLength":3000}' --output json

截图保存

# 使用screencapture命令
screencapture -x ~/.copaw/tasks/benchmark_*/screenshots/01_step_name.png

评分计算

总分 = 任务1得分 × 0.20 + 任务2得分 × 0.30 + 任务3得分 × 0.15 + 任务4得分 × 0.20 + 任务5得分 × 0.15

任务权重： | 任务 | 权重 | |------|------| | 1. 淘金币签到 | 20% | | 2. 商品搜索+对比+加购 | 30% | | 3. 订单管理 | 15% | | 4. 获取购物车以及降价信息 | 20% | | 5. 客服咨询对话 | 15% |

评分等级：

9-10分：优秀 ⭐⭐⭐⭐⭐
7-8分：良好 ⭐⭐⭐⭐
5-6分：及格 ⭐⭐⭐
3-4分：需改进 ⭐⭐
0-2分：不合格 ⭐

常见问题与解决方案

问题1：搜索结果页停留在首页

现象：search_products 返回结果，但页面仍在首页

解决方案：

检查当前页面URL
使用 scan_page_elements 确认搜索结果
必要时重新导航

问题2：元素点击失败

现象：click_element 返回失败

解决方案：

检查元素是否可见
尝试滚动页面后再点击
使用text参数模糊匹配

问题3：SKU选择失败

现象：add_to_cart 提示SKU参数错误

解决方案：

先进入商品详情页
使用 scan_page_elements 获取可用SKU选项
按文本匹配选择

评测报告结构

Word 报告采用总分结构，面向技术团队，聚焦评测过程和问题分析。

报告大纲

淘宝桌面版MCP评测报告 {YYYY-MM-DD}
│
├── 一、整体小结 ⭐ 必须首先呈现
│   ├── 1.1 评测概览
│   │   └── 表格：评测日期、版本、环境、总耗时
│   ├── 1.2 总体评分
│   │   └── 大字号评分 + 等级 + 雷达图（可选）
│   ├── 1.3 任务完成度
│   │   └── 表格：任务名、权重、评分、状态、完成率
│   ├── 1.4 工具调用总览
│   │   └── 表格：工具名、调用次数、成功率、平均耗时
│   ├── 1.5 耗时分布
│   │   └── 表格：任务名、耗时、占比
│   ├── 1.6 问题汇总
│   │   └── 表格：问题编号、描述、影响范围、优先级
│   └── 1.7 关键结论
│       └── 3-5条核心结论
│
├── 二、分任务详情
│   ├── 2.1 任务一：淘金币签到
│   │   ├── 2.1.1 任务概要
│   │   │   └── 表格：目标、时间、耗时、评分
│   │   ├── 2.1.2 执行流程
│   │   │   └── 详细表格：每步操作、工具、参数、结果、耗时
│   │   ├── 2.1.3 过程截图 ⭐ 必须嵌入
│   │   │   ├── 图1：首页淘金币入口
│   │   │   ├── 图2：淘金币页面
│   │   │   └── ... 每个关键步骤
│   │   ├── 2.1.4 数据结果
│   │   │   └── 金币数、签到天数等具体数据
│   │   ├── 2.1.5 问题分析
│   │   │   ├── 问题描述 + 截图标注
│   │   │   └── 影响评估 + 建议方案
│   │   └── 2.1.6 评价与建议
│   │
│   ├── 2.2 任务二：商品搜索+对比+加购
│   │   ├── 2.2.1 任务概要
│   │   ├── 2.2.2 执行流程
│   │   ├── 2.2.3 过程截图 ⭐
│   │   │   ├── 搜索结果页
│   │   │   ├── 商品详情页
│   │   │   ├── SKU选择
│   │   │   └── 加购成功
│   │   ├── 2.2.4 数据结果
│   │   ├── 2.2.5 问题分析
│   │   └── 2.2.6 评价与建议
│   │
│   ├── 2.3 任务三：订单管理
│   │   └── （同上结构）
│   │
│   ├── 2.4 任务四：获取购物车以及降价信息
│   │   └── （同上结构）
│   │
│   └── 2.5 任务五：客服咨询对话
│       └── （同上结构）
│
├── 三、技术分析
│   ├── 3.1 工具调用统计
│   │   └── 详细表格：工具、调用次数、成功、失败、成功率、总耗时、平均耗时
│   ├── 3.2 性能指标
│   │   └── 表格：总任务数、成功率、总耗时、平均耗时、截图数、调用总数
│   ├── 3.3 问题清单
│   │   └── 表格：编号、问题描述、复现步骤、影响范围、优先级、建议方案
│   └── 3.4 改进建议
│       ├── 短期（1周内）
│       ├── 中期（1个月内）
│       └── 长期（3个月内）
│
└── 四、附录
    ├── 4.1 完整截图清单
    │   └── 表格：序号、文件名、说明、对应任务
    ├── 4.2 工具调用日志
    │   └── 完整的调用记录
    └── 4.3 相关文件
        └── Markdown报告、Word报告、截图目录路径

报告要点

要点	要求	说明
总分结构	必须	先整体小结，再分任务详情
截图嵌入	必须	每个关键步骤必须有截图，嵌入Word文档
耗时统计	必须	每个操作、每个任务、总体都要有耗时
问题标注	必须	发现问题必须在截图上标注，并说明影响
工具调用日志	必须	完整记录每次工具调用的参数和结果
数据具体化	必须	用具体数字代替模糊描述（如"返回48个商品"而非"返回多个商品"）
面向技术团队	必须	使用专业术语，聚焦技术细节和问题分析

迭代记录

版本	日期	变更内容
v1.4.1	2026-03-17	报告标题和文件名增加日期，便于识别
v1.4.0	2026-03-17	任务4改名"获取购物车以及降价信息"，任务5要求至少两轮对话
v1.3.0	2026-03-17	新增原子性执行原则：任务不可中断、状态管理、中断恢复机制
v1.2.0	2026-03-17	优化报告结构：总分结构、详细截图规范、耗时统计、问题标注
v1.1.0	2026-03-17	新增任务5：客服咨询对话，调整任务权重
v1.0.0	2026-03-17	初始版本，完成首次评测（4个任务）

v1.4.1 更新内容

报告命名优化：

报告标题格式：淘宝桌面版MCP评测报告 {YYYY-MM-DD}
Word文件名格式：淘宝桌面版MCP评测报告 {YYYY-MM-DD}.docx
Markdown文件名格式：report_{YYYY-MM-DD}.md
目的：便于识别和管理多次评测记录

v1.4.0 更新内容

任务4调整：

原名称：购物车比价
新名称：获取购物车以及降价信息
优化评分标准：聚焦购物车商品统计和降价信息提取

任务5调整：

要求：必须完成至少两轮对话
第一轮：发起咨询（如发货时间）
第二轮：追问（如快递方式）
评分标准更新：两轮对话各占2分，回复接收各占2分

v1.3.0 更新内容

原子性执行原则：

评测任务一旦开始，必须完整执行完成，不可中断
完整流程：初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理

状态管理机制：

创建 status.json 跟踪任务进度
每个任务完成后立即更新状态
支持中断恢复：下次询问时检测未完成任务

用户中断处理：

用户尝试中断时提醒"评测任务未完成"
提供"继续"或"中断"选项
中断后生成不完整报告（不推荐）

禁止操作清单：

❌ 任务中途停止
❌ 跳过任务
❌ 跳过截图
❌ 不生成报告

v1.2.0 更新内容

报告结构优化：

采用总分结构：先整体小结，再分任务详情
面向技术团队，聚焦评测过程和问题分析

新增规范：

截图规范：每个关键步骤必须截图并嵌入文档
耗时统计：每个操作、每个任务、总体都要有耗时记录
问题标注：发现问题必须在截图上标注
工具调用日志：完整记录每次调用的参数和结果
数据具体化：用具体数字代替模糊描述

报告内容强化：

整体小结新增：任务完成度表、工具调用总览表、耗时分布表、问题汇总表
分任务详情新增：执行流程详细表、过程截图嵌入、问题分析章节
技术分析强化：工具调用统计表增加成功/失败/平均耗时列

v1.1.0 更新内容

新增任务：客服咨询对话（权重15%）

随机选择商品主题进行搜索
通过搜索进入商家客服对话
发起至少两轮客服咨询
记录客服回复内容

权重调整： | 任务 | v1.0.0 | v1.1.0 | v1.4.0 | |------|--------|--------|--------| | 1. 淘金币签到 | 25% | 20% | 20% | | 2. 商品搜索+对比+加购 | 30% | 30% | 30% | | 3. 订单管理 | 20% | 15% | 15% | | 4. 获取购物车以及降价信息 | 25% | 20% | 20% | | 5. 客服咨询对话 | - | 15% | 15%（新增） |

文件结构

~/.copaw/active_skills/taobao-mcp-benchmark/
├── SKILL.md                    # 本文档
├── templates/
│   ├── task_template.json      # 任务配置模板
│   └── report_template.md      # 报告模板
├── scripts/
│   └── generate_report.js      # Word报告生成脚本
└── history/
    └── benchmark_history.md    # 评测历史记录

快速开始

用户：帮我评测一下淘宝MCP工具
AI：好的，开始执行淘宝桌面版MCP评测...
    [执行4个评测任务]
    [生成评测报告]
    评测完成！总分：8.3/10

最后更新：2026-03-17 v1.4.1

taobao-mcp-benchmark

🇯🇵 日本人クリエイター向け解説

🎯 このSkillでできること

📦 インストール方法 (3ステップ)

淘宝桌面版MCP评测框架

概述

⚠️ 执行原则（必须遵守）

原子性执行

任务状态管理

中断恢复机制

执行流程图

禁止操作

用户中断处理

适用场景

评测任务清单

任务1：淘金币签到（权重 25%）

任务2：商品搜索+对比+加购（权重 30%）

任务3：订单管理（权重 20%）

任务4：获取购物车以及降价信息（权重 20%）

任务5：客服咨询对话（权重 15%）

评测流程

1. 初始化评测任务

2. 执行评测任务

截图规范（每个任务必须）

耗时统计（每个操作必须）

工具调用记录

3. 生成评测报告

第一部分：整体小结（必须）

第二部分：分任务详情（每个任务必须包含）

第三部分：技术分析

第四部分：附录

4. 更新评测记录

工具调用规范

导航操作

元素扫描

内容读取

截图保存

评分计算

常见问题与解决方案

问题1：搜索结果页停留在首页

问题2：元素点击失败

问题3：SKU选择失败

评测报告结构

报告大纲

报告要点

迭代记录

v1.4.1 更新内容

v1.4.0 更新内容

v1.3.0 更新内容

v1.2.0 更新内容

v1.1.0 更新内容

文件结构

快速开始

同梱ファイル