🛠️ 開発・MCP コミュニティ

content-extract

ウェブページのコンテンツをMarkdown形式で抽出し、OpenClawのワークフローを円滑にするために、まず簡易的な方法で試し、うまくいかない場合はMinerU APIを利用して、抽出結果と参照元リンクを明確に示すSkill。

📜 元の英語説明(参考)

Robust URL-to-Markdown extraction for OpenClaw workflows. Use when the user wants to "extract/summarize/convert a webpage to markdown" (especially WeChat mp.weixin.qq.com) and web_fetch/browser is blocked or messy. Uses a cheap probe via web_fetch first, then falls back to the official MinerU API (via the local mineru-extract skill) and returns a traceable result contract with source links.

🇯🇵 日本人クリエイター向け解説

一言でいうと

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o content-extract.zip https://jpskill.com/download/8336.zip && unzip -o content-extract.zip && rm content-extract.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/8336.zip -OutFile "$d\content-extract.zip"; Expand-Archive "$d\content-extract.zip" -DestinationPath $d -Force; ri "$d\content-extract.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して content-extract.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → content-extract フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-18
取得日時: 2026-05-18
同梱ファイル: 1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

content-extract — 上位層コンテンツ解析エントリポイント（MCP セマンティクスアライメント、ただし MCP Server は実行しない）

目標：「URL を渡すと、可読な Markdown と追跡可能なエントリポイントが出力される」という処理を統一されたエントリポイントにし、後続のすべての業務 skill（github-explorer、執筆系 skills、日報など）で再利用できるようにする。

コア原則（あなたが作成した Excel Skill 分解記事からの発想）：

行動規約層：常に追跡可能なエントリポイント（原文 URL + 解析結果のパス/リンク）を提供する。決してソースを捏造しない。
Token プローブ：まず低コストの probe で直接取得できるかどうかを判断する。できない場合は、高コストの解析（MinerU）を行う。
反発メカニズム：失敗した場合は、大量の例外スタックではなく、「次のアクションの提案」を返す。

ワークフロー（決定木）

入力：url

ドメインホワイトリスト（probe をスキップ）：URL が高確率でクローリング対策されている/動的なサイト（微信/知乎など）に属する場合は、直接 MinerU を使用する

ホワイトリストファイル：references/domain-whitelist.md
ホワイトリストに該当する URL：強制的に model_version=MinerU-HTML を設定する

Probe（低コスト）：優先的に web_fetch(url) を使用する

目標：正文 markdown を取得する（安価、高速）
「失敗/不合格」の条件（references/heuristics.md を参照）は以下を含む：
- 403/401/クローリング対策
- 「環境異常/検証コード/微信で開いてください」などのメッセージのみ
- 内容が極端に短い/明らかにナビゲーションページ/正文が欠落している

フォールバック（高忠実度）：MinerU 公式 API を使用する

下流の driver を呼び出す：skills/mineru-extract/scripts/mineru_parse_documents.py
HTML ページ（微信など）：強制的に model_version=MinerU-HTML を設定する

統一結果契約（Result Contract）を出力する

probe を使用するか MinerU を使用するかにかかわらず、同じ構造を返す：

{
  "ok": true,
  "source_url": "...",
  "engine": "web_fetch" ,
  "markdown": "...",
  "artifacts": {
    "out_dir": "...",
    "markdown_path": "...",
    "zip_path": "..."
  },
  "sources": [
    "原文URL",
    "（MinerU を使用した場合）MinerU full_zip_url",
    "（MinerU を使用した場合）ローカル markdown_path"
  ],
  "notes": ["重要な制限/失敗理由/次のステップの提案"]
}

注意：engine は web_fetch または mineru のいずれかになります。

MinerU 呼び出し（agent への確定的なスクリプト）

MinerU が必要な場合は、このコマンドを使用する（JSON を返し、markdown を JSON にインライン化できるため、下流での要約が容易になる）：

python3 mineru-extract/scripts/mineru_parse_documents.py \
  --file-sources "<URL>" \
  --model-version MinerU-HTML \
  --emit-markdown --max-chars 20000

パスの説明: 上記のコマンドは、skills のインストールルートディレクトリで実行することを想定しています。mineru-extract が別の場所にインストールされている場合は、実際のパスに置き換えてください。

納品仕様（必須）

出力には必ず sources（原文エントリポイント + 解析結果エントリポイント）を含めること。
MinerU が成功した場合：markdown_path（ローカルパス）を sources に書き込み、再確認を容易にすること。
2 つの経路が両方とも失敗した場合：必ず失敗理由を明確にし、次のステップ（例：Boss にアクセス可能なミラーリングリンクを提供してもらう / ブラウザ relay を使用して HTML をエクスポートすることを許可してもらう / HTML ファイルをアップロードして解析するバックアッププランを実行する）を提示すること。

本 skill 自身が行わないこと

MCP Server を実行しない（常駐サービスと運用負荷を避けるため）
ログイン/検証コードを回避しようとしない（これはアクセス層の問題であり、解析層とワークフローのルーティングのみを行う）

References

MinerU API docs: https://mineru.net/apiManage/docs
MinerU output files: https://opendatalab.github.io/MinerU/reference/output_files/

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

content-extract — 上层内容解析入口（MCP 语义对齐，但不跑 MCP Server）

目标：把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口，供后续所有业务 skill（github-explorer、写作类 skills、日报等）复用。

核心原则（来自你发的 Excel Skill 拆解文章的启发）：

行为规约层：永远给出可追溯入口（原文 URL + 解析产物路径/链接），绝不编造来源。
Token 探针：先用低成本 probe 判断可不可以直接抓；不行再走重解析（MinerU）。
反弹机制：失败时返回“下一步动作建议”，而不是一堆异常栈。

工作流（Decision Tree）

输入：url

Domain Whitelist（跳过 probe）：若 URL 属于高概率反爬/动态站点（微信/知乎等），直接走 MinerU

白名单文件：references/domain-whitelist.md
对命中白名单的 URL：强制 model_version=MinerU-HTML

Probe（低成本）：优先用 web_fetch(url)

目标：拿到正文 markdown（便宜、快）
判断“失败/不合格”条件（见 references/heuristics.md）包括：
- 403/401/反爬
- 只有“环境异常/验证码/请在微信打开”等提示
- 内容极短/明显导航页/丢正文

Fallback（高保真）：走 MinerU 官方 API

调用下游 driver：skills/mineru-extract/scripts/mineru_parse_documents.py
对 HTML 页面（微信等）：强制 model_version=MinerU-HTML

输出统一结果合同（Result Contract）

无论用 probe 还是 MinerU，都返回同一套结构：

{
  "ok": true,
  "source_url": "...",
  "engine": "web_fetch" ,
  "markdown": "...",
  "artifacts": {
    "out_dir": "...",
    "markdown_path": "...",
    "zip_path": "..."
  },
  "sources": [
    "原文URL",
    "（如使用MinerU）MinerU full_zip_url",
    "（如使用MinerU）本地markdown_path"
  ],
  "notes": ["任何重要限制/失败原因/下一步建议"]
}

注意：engine 可能是 web_fetch 或 mineru。

MinerU 调用（给 agent 的确定性脚本）

当需要 MinerU 时，用这个命令（返回 JSON，且可把 markdown 内联进 JSON，便于下游总结）：

python3 mineru-extract/scripts/mineru_parse_documents.py \
  --file-sources "<URL>" \
  --model-version MinerU-HTML \
  --emit-markdown --max-chars 20000

路径说明: 上述命令假设你在 skills 安装根目录下执行。如果 mineru-extract 安装在其他位置，请替换为实际路径。

交付规范（强制）

输出必须包含 sources（原文入口 + 解析产物入口）。
如果 MinerU 成功：必须把 markdown_path（本地路径）写进 sources，方便复查。
如果两条链路都失败：必须明确失败原因，并给出下一步（例如：让 Boss 提供可访问镜像链接 / 允许我用浏览器 relay 导出 HTML / 走上传 HTML 文件解析的兜底方案）。

本 skill 自身不做什么

不跑 MCP Server（避免常驻服务与运维负担）
不试图绕过登录/验证码（这属于访问层问题；我们只做解析层和工作流路由）

References

MinerU API docs: https://mineru.net/apiManage/docs
MinerU output files: https://opendatalab.github.io/MinerU/reference/output_files/