content-extract
ウェブページのコンテンツをMarkdown形式で抽出し、OpenClawのワークフローを円滑にするために、まず簡易的な方法で試し、うまくいかない場合はMinerU APIを利用して、抽出結果と参照元リンクを明確に示すSkill。
📜 元の英語説明(参考)
Robust URL-to-Markdown extraction for OpenClaw workflows. Use when the user wants to "extract/summarize/convert a webpage to markdown" (especially WeChat mp.weixin.qq.com) and web_fetch/browser is blocked or messy. Uses a cheap probe via web_fetch first, then falls back to the official MinerU API (via the local mineru-extract skill) and returns a traceable result contract with source links.
🇯🇵 日本人クリエイター向け解説
ウェブページのコンテンツをMarkdown形式で抽出し、OpenClawのワークフローを円滑にするために、まず簡易的な方法で試し、うまくいかない場合はMinerU APIを利用して、抽出結果と参照元リンクを明確に示すSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o content-extract.zip https://jpskill.com/download/8336.zip && unzip -o content-extract.zip && rm content-extract.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/8336.zip -OutFile "$d\content-extract.zip"; Expand-Archive "$d\content-extract.zip" -DestinationPath $d -Force; ri "$d\content-extract.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
content-extract.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
content-extractフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
content-extract — 上位層コンテンツ解析エントリポイント(MCP セマンティクスアライメント、ただし MCP Server は実行しない)
目標:「URL を渡すと、可読な Markdown と追跡可能なエントリポイントが出力される」という処理を統一されたエントリポイントにし、後続のすべての業務 skill(github-explorer、執筆系 skills、日報など)で再利用できるようにする。
コア原則(あなたが作成した Excel Skill 分解記事からの発想):
- 行動規約層:常に追跡可能なエントリポイント(原文 URL + 解析結果のパス/リンク)を提供する。決してソースを捏造しない。
- Token プローブ:まず低コストの probe で直接取得できるかどうかを判断する。できない場合は、高コストの解析(MinerU)を行う。
- 反発メカニズム:失敗した場合は、大量の例外スタックではなく、「次のアクションの提案」を返す。
ワークフロー(決定木)
入力:url
- ドメインホワイトリスト(probe をスキップ):URL が高確率でクローリング対策されている/動的なサイト(微信/知乎など)に属する場合は、直接 MinerU を使用する
- ホワイトリストファイル:
references/domain-whitelist.md - ホワイトリストに該当する URL:強制的に
model_version=MinerU-HTMLを設定する
- Probe(低コスト):優先的に
web_fetch(url)を使用する
- 目標:正文 markdown を取得する(安価、高速)
- 「失敗/不合格」の条件(
references/heuristics.mdを参照)は以下を含む:- 403/401/クローリング対策
- 「環境異常/検証コード/微信で開いてください」などのメッセージのみ
- 内容が極端に短い/明らかにナビゲーションページ/正文が欠落している
- フォールバック(高忠実度):MinerU 公式 API を使用する
- 下流の driver を呼び出す:
skills/mineru-extract/scripts/mineru_parse_documents.py - HTML ページ(微信など):強制的に
model_version=MinerU-HTMLを設定する
- 統一結果契約(Result Contract)を出力する
probe を使用するか MinerU を使用するかにかかわらず、同じ構造を返す:
{
"ok": true,
"source_url": "...",
"engine": "web_fetch" ,
"markdown": "...",
"artifacts": {
"out_dir": "...",
"markdown_path": "...",
"zip_path": "..."
},
"sources": [
"原文URL",
"(MinerU を使用した場合)MinerU full_zip_url",
"(MinerU を使用した場合)ローカル markdown_path"
],
"notes": ["重要な制限/失敗理由/次のステップの提案"]
}
注意:
engineはweb_fetchまたはmineruのいずれかになります。
MinerU 呼び出し(agent への確定的なスクリプト)
MinerU が必要な場合は、このコマンドを使用する(JSON を返し、markdown を JSON にインライン化できるため、下流での要約が容易になる):
python3 mineru-extract/scripts/mineru_parse_documents.py \
--file-sources "<URL>" \
--model-version MinerU-HTML \
--emit-markdown --max-chars 20000
パスの説明: 上記のコマンドは、skills のインストールルートディレクトリで実行することを想定しています。mineru-extract が別の場所にインストールされている場合は、実際のパスに置き換えてください。
納品仕様(必須)
- 出力には必ず
sources(原文エントリポイント + 解析結果エントリポイント)を含めること。 - MinerU が成功した場合:
markdown_path(ローカルパス)をsourcesに書き込み、再確認を容易にすること。 - 2 つの経路が両方とも失敗した場合:必ず失敗理由を明確にし、次のステップ(例:Boss にアクセス可能なミラーリングリンクを提供してもらう / ブラウザ relay を使用して HTML をエクスポートすることを許可してもらう / HTML ファイルをアップロードして解析するバックアッププランを実行する)を提示すること。
本 skill 自身が行わないこと
- MCP Server を実行しない(常駐サービスと運用負荷を避けるため)
- ログイン/検証コードを回避しようとしない(これはアクセス層の問題であり、解析層とワークフローのルーティングのみを行う)
References
- MinerU API docs: https://mineru.net/apiManage/docs
- MinerU output files: https://opendatalab.github.io/MinerU/reference/output_files/
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server)
目标:把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口,供后续所有业务 skill(github-explorer、写作类 skills、日报等)复用。
核心原则(来自你发的 Excel Skill 拆解文章的启发):
- 行为规约层:永远给出可追溯入口(原文 URL + 解析产物路径/链接),绝不编造来源。
- Token 探针:先用低成本 probe 判断可不可以直接抓;不行再走重解析(MinerU)。
- 反弹机制:失败时返回“下一步动作建议”,而不是一堆异常栈。
工作流(Decision Tree)
输入:url
- Domain Whitelist(跳过 probe):若 URL 属于高概率反爬/动态站点(微信/知乎等),直接走 MinerU
- 白名单文件:
references/domain-whitelist.md - 对命中白名单的 URL:强制
model_version=MinerU-HTML
- Probe(低成本):优先用
web_fetch(url)
- 目标:拿到正文 markdown(便宜、快)
- 判断“失败/不合格”条件(见
references/heuristics.md)包括:- 403/401/反爬
- 只有“环境异常/验证码/请在微信打开”等提示
- 内容极短/明显导航页/丢正文
- Fallback(高保真):走 MinerU 官方 API
- 调用下游 driver:
skills/mineru-extract/scripts/mineru_parse_documents.py - 对 HTML 页面(微信等):强制
model_version=MinerU-HTML
- 输出统一结果合同(Result Contract)
无论用 probe 还是 MinerU,都返回同一套结构:
{
"ok": true,
"source_url": "...",
"engine": "web_fetch" ,
"markdown": "...",
"artifacts": {
"out_dir": "...",
"markdown_path": "...",
"zip_path": "..."
},
"sources": [
"原文URL",
"(如使用MinerU)MinerU full_zip_url",
"(如使用MinerU)本地markdown_path"
],
"notes": ["任何重要限制/失败原因/下一步建议"]
}
注意:
engine可能是web_fetch或mineru。
MinerU 调用(给 agent 的确定性脚本)
当需要 MinerU 时,用这个命令(返回 JSON,且可把 markdown 内联进 JSON,便于下游总结):
python3 mineru-extract/scripts/mineru_parse_documents.py \
--file-sources "<URL>" \
--model-version MinerU-HTML \
--emit-markdown --max-chars 20000
路径说明: 上述命令假设你在 skills 安装根目录下执行。如果 mineru-extract 安装在其他位置,请替换为实际路径。
交付规范(强制)
- 输出必须包含
sources(原文入口 + 解析产物入口)。 - 如果 MinerU 成功:必须把
markdown_path(本地路径)写进sources,方便复查。 - 如果两条链路都失败:必须明确失败原因,并给出下一步(例如:让 Boss 提供可访问镜像链接 / 允许我用浏览器 relay 导出 HTML / 走上传 HTML 文件解析的兜底方案)。
本 skill 自身不做什么
- 不跑 MCP Server(避免常驻服务与运维负担)
- 不试图绕过登录/验证码(这属于访问层问题;我们只做解析层和工作流路由)
References
- MinerU API docs: https://mineru.net/apiManage/docs
- MinerU output files: https://opendatalab.github.io/MinerU/reference/output_files/