jpskill.com
📦 その他 コミュニティ

image-to-text

画像に含まれる文字を認識してテキストデータを取り出し、スキャン文書や表、グラフなどの情報を構造化されたテキストに変換することで、資料作成やデータ分析を効率化するSkill。

📜 元の英語説明(参考)

Extract text and structured data from images using Vision AI (OCR). Use when: reading text from screenshots, extracting data from scanned documents, converting images of tables/forms/charts to structured text.

🇯🇵 日本人クリエイター向け解説

一言でいうと

画像に含まれる文字を認識してテキストデータを取り出し、スキャン文書や表、グラフなどの情報を構造化されたテキストに変換することで、資料作成やデータ分析を効率化するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o image-to-text.zip https://jpskill.com/download/15001.zip && unzip -o image-to-text.zip && rm image-to-text.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/15001.zip -OutFile "$d\image-to-text.zip"; Expand-Archive "$d\image-to-text.zip" -DestinationPath $d -Force; ri "$d\image-to-text.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して image-to-text.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → image-to-text フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
3

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Image to Text

概要

OCR (Tesseract) を使用して、画像から読み取り可能なテキストをすべて抽出します。完全なテキストコンテンツと、単語レベルのバウンディングボックスおよび信頼度スコアを返します。

  • スクリーンショットまたはデザインモックアップからテキストコンテンツを読み取る
  • UIコピー(ラベル、ボタン、見出し)を抽出して、再入力する必要をなくす
  • デザイン画像からテキストの位置とバウンディングボックスを取得する

手順

  1. 画像は、光学文字認識のために Tesseract.js に渡されます。
  2. Tesseract は画像を線と単語に分割します。
  3. 完全なテキストに加えて、単語レベルの詳細(位置、信頼度)を返します。

抽出スクリプトを実行します。

bash <skill-path>/scripts/image-to-text.sh <image-path> [language]

引数:

  • image-path — 画像ファイルへのパス(必須)
  • language — OCR 言語コード(オプション、デフォルトは eng)。一般的なもの: eng, fra, deu, spa, chi_sim, jpn

スクリプトは、抽出されたテキストとメタデータを含む JSON を出力します。

{
  "text": "Request work\nSuggestions\nPlumbing\nHVAC\nCleaning\nElectrical",
  "confidence": 87.4,
  "words": [
    {
      "text": "Request",
      "confidence": 94.2,
      "bbox": { "x0": 142, "y0": 180, "x1": 268, "y1": 204 }
    }
  ],
  "lines": [
    {
      "text": "Request work",
      "confidence": 95.1,
      "bbox": { "x0": 142, "y0": 180, "x1": 332, "y1": 204 }
    }
  ]
}

テキストを抽出した後、コンテンツを行ごとにグループ化して表示し、デザインから UI コピーを実装する際に抽出されたテキストを直接使用します。

例 1: モバイルアプリのスクリーンショットからテキストを抽出する

bash <skill-path>/scripts/image-to-text.sh ./screenshot.png

出力:

Extracted text (87.4% confidence):

  Request work
  Suggestions
  Plumbing
  HVAC
  Cleaning
  Electrical

Found 6 lines, 6 words.

例 2: スキャンされた請求書からフランス語のテキストを抽出する

bash <skill-path>/scripts/image-to-text.sh ./invoice-scan.png fra

Tesseract はフランス語の言語モデルを使用して、アクセント付き文字とフランス語固有の書式を正しく認識します。抽出されたテキストは、合計、日付、明細項目などの請求書フィールドを解析するために使用できます。

ガイドライン

  • Tesseract は、クリーンでコントラストの高いテキストで最適に動作します。レンダリングされた UI のスクリーンショットはうまく機能します。角度が付いたテキストやノイズのあるテキストの写真は、結果が不十分になる可能性があります。
  • 英語以外のテキストを処理する場合は、2 番目の引数として正しい言語コードを渡してください。Tesseract は、文字を認識するために適切な言語モデルを必要とします。
  • 最初の実行は、Tesseract が言語データ(英語の場合は約 4MB)をダウンロードするため、時間がかかります。後続の実行は高速になります。
  • 構造化されたドキュメント(テーブル、フォーム)の場合は、抽出されたテキストを後処理して、JSON または CSV 形式に解析します。
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Image to Text

Overview

Extract all readable text from an image using OCR (Tesseract). Returns the full text content along with word-level bounding boxes and confidence scores.

  • Reading text content from a screenshot or design mockup
  • Extracting UI copy (labels, buttons, headings) so you don't have to retype it
  • Getting text positions and bounding boxes from a design image

Instructions

  1. The image is passed to Tesseract.js for optical character recognition
  2. Tesseract segments the image into lines and words
  3. Returns the full text plus word-level details (position, confidence)

Run the extraction script:

bash <skill-path>/scripts/image-to-text.sh <image-path> [language]

Arguments:

  • image-path — Path to the image file (required)
  • language — OCR language code (optional, defaults to eng). Common: eng, fra, deu, spa, chi_sim, jpn

The script outputs JSON with extracted text and metadata:

{
  "text": "Request work\nSuggestions\nPlumbing\nHVAC\nCleaning\nElectrical",
  "confidence": 87.4,
  "words": [
    {
      "text": "Request",
      "confidence": 94.2,
      "bbox": { "x0": 142, "y0": 180, "x1": 268, "y1": 204 }
    }
  ],
  "lines": [
    {
      "text": "Request work",
      "confidence": 95.1,
      "bbox": { "x0": 142, "y0": 180, "x1": 332, "y1": 204 }
    }
  ]
}

After extracting text, present the content grouped by lines and use the extracted text directly when implementing UI copy from a design.

Examples

Example 1: Extract text from a mobile app screenshot

bash <skill-path>/scripts/image-to-text.sh ./screenshot.png

Output:

Extracted text (87.4% confidence):

  Request work
  Suggestions
  Plumbing
  HVAC
  Cleaning
  Electrical

Found 6 lines, 6 words.

Example 2: Extract French text from a scanned invoice

bash <skill-path>/scripts/image-to-text.sh ./invoice-scan.png fra

Tesseract uses the French language model to correctly recognize accented characters and French-specific formatting. The extracted text can then be parsed for invoice fields like total, date, and line items.

Guidelines

  • Tesseract works best with clean, high-contrast text. Screenshots of rendered UI work well. Photos of text at angles or with noise may produce poor results.
  • Pass the correct language code as the second argument when processing non-English text. Tesseract needs the right language model to recognize characters.
  • First run is slow because Tesseract downloads language data (~4MB for English). Subsequent runs are faster.
  • For structured documents (tables, forms), post-process the extracted text to parse it into JSON or CSV format.

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。