jpskill.com
🛠️ 開発・MCP コミュニティ

pandas

CSVやExcelなどのデータを読み込み、欠損値の処理やデータの集計・結合、時系列データの扱いなど、表形式データの分析準備や加工をpandasを用いて効率的に行うSkill。

📜 元の英語説明(参考)

Assists with loading, cleaning, transforming, and analyzing tabular data using pandas. Use when importing CSV/Excel/SQL data, handling missing values, performing groupby aggregations, merging datasets, working with time series, or building analysis-ready datasets. Trigger words: pandas, dataframe, csv, groupby, merge, time series, data cleaning.

🇯🇵 日本人クリエイター向け解説

一言でいうと

CSVやExcelなどのデータを読み込み、欠損値の処理やデータの集計・結合、時系列データの扱いなど、表形式データの分析準備や加工をpandasを用いて効率的に行うSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o pandas.zip https://jpskill.com/download/15232.zip && unzip -o pandas.zip && rm pandas.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/15232.zip -OutFile "$d\pandas.zip"; Expand-Archive "$d\pandas.zip" -DestinationPath $d -Force; ri "$d\pandas.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して pandas.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → pandas フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Pandas

概要

Pandasは、表形式のデータをロード、クリーニング、変換、分析するためのPythonライブラリです。構造化されたデータ操作のためのDataFrameを提供し、CSV、Excel、SQL、JSON、Parquet形式をサポートし、強力なgroupby集計、merge/join操作、時系列リサンプリング、および分析パイプラインを構築するためのメソッドチェインを提供します。

指示

  • データをロードする際は、大規模なデータセットにはpd.read_parquet()(より高速、より小さい、型を保持)、CSVには明示的なdtypeを指定したpd.read_csv()、データベースクエリにはpd.read_sql()を使用します。
  • データをクリーニングする際は、欠損値をfillna()またはdropna()で処理し、drop_duplicates()で重複を削除し、文字列メソッド(.str.strip().str.lower())をテキストクリーニングに使用し、astype()およびpd.to_datetime()で型を明示的に変換します。
  • データを変換する際は、計算された列にはassign()、メソッドチェインにはpipe()、形状変更にはmelt()およびpivot_table()、ビニングにはpd.cut()/pd.qcut()を使用します。
  • 集計する際は、読みやすい列名のために名前付き集計でgroupby().agg()を使用し、結果を元の形状に戻すにはtransform()を使用し、時間ベースのグループ化にはresample()を使用します。
  • マージする際は、マージ時にデータ品質の問題を検出するために、明示的なhowおよびvalidateパラメータを指定してpd.merge()を使用し、DataFrameを積み重ねるにはpd.concat()を使用します。
  • パフォーマンスを最適化する際は、カーディナリティの低い文字列にはcategory dtypeを使用し、.apply()の代わりにベクトル化された操作を使用し、ストレージにはParquetを使用します。10GBを超えるデータセットの場合は、PolarsまたはDuckDBを検討してください。

例1:売上データセットのクリーニングと分析

ユーザーリクエスト: 「売上データの乱雑なCSVをロードし、それをクリーニングして、月次売上サマリーを生成してください」

アクション:

  1. 主要な列に対してdtypeparse_datesを指定してpd.read_csv()でロードします
  2. 欠損値をクリーニングし、注文IDで重複を削除し、テキストフィールドを標準化します
  3. assign()を使用して、売上高と利益率の計算列を追加します
  4. 売上高、注文数、および平均注文額について、resample("M").agg()で月ごとにグループ化します

出力: 可視化またはレポート作成の準備ができた、月次売上サマリーを含むクリーンなDataFrame。

例2:複数のソースからの顧客データをマージして強化する

ユーザーリクエスト: 「CRM、トランザクション、およびサポートチケットからの顧客データを単一のビューに結合します」

アクション:

  1. 各データセットをロードし、キーとなる列(メール、顧客ID)を標準化します
  2. pd.merge(on="customer_id", how="left", validate="one_to_many")を使用して、CRMとトランザクションをマージします
  3. 顧客ごとのサポートチケットを集計し、カウントをマージします
  4. ダウンストリーム分析のために、強化されたデータセットをParquetにエクスポートします

出力: CRM情報、トランザクション履歴、およびサポートメトリクスを含む、統合された顧客DataFrame。

ガイドライン

  • 中間ファイルおよび出力ファイルには、より高速で小さく、型を保持するため、pd.read_parquet()を使用します。
  • 読みやすくテスト可能なコードのために、.pipe()で変換をチェーンします。
  • 自己文書化された列名のために、.agg()で名前付き集計を使用します。
  • 型推論ではファイル全体を2回読み取るため、大きなファイルの場合はread_csv()dtypeを明示的に設定します。
  • メモリを大幅に節約するために、一意の値が1000未満の列にはcategory dtypeを使用します。
  • マージ時にデータ品質の問題を検出するために、validate="one_to_many"でマージを検証します。
  • 可読性を向上させるために、複雑なフィルターには、チェーンされたブールインデックス作成の代わりにquery()を使用します。
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Pandas

Overview

Pandas is a Python library for loading, cleaning, transforming, and analyzing tabular data. It provides DataFrames for structured data manipulation, supports CSV, Excel, SQL, JSON, and Parquet formats, and offers powerful groupby aggregation, merge/join operations, time series resampling, and method chaining for building analysis pipelines.

Instructions

  • When loading data, use pd.read_parquet() for large datasets (faster, smaller, type-preserving), pd.read_csv() with explicit dtype for CSVs, and pd.read_sql() for database queries.
  • When cleaning data, handle missing values with fillna() or dropna(), deduplicate with drop_duplicates(), use string methods (.str.strip(), .str.lower()) for text cleaning, and convert types explicitly with astype() and pd.to_datetime().
  • When transforming data, use assign() for computed columns, pipe() for method chaining, melt() and pivot_table() for reshaping, and pd.cut()/pd.qcut() for binning.
  • When aggregating, use groupby().agg() with named aggregation for readable column names, transform() to broadcast results back to original shape, and resample() for time-based grouping.
  • When merging, use pd.merge() with explicit how and validate parameters to catch data quality issues at merge time, and pd.concat() for stacking DataFrames.
  • When optimizing performance, use category dtype for low-cardinality strings, vectorized operations over .apply(), and Parquet for storage; for datasets over 10GB, consider Polars or DuckDB.

Examples

Example 1: Clean and analyze a sales dataset

User request: "Load a messy CSV of sales data, clean it, and generate monthly revenue summaries"

Actions:

  1. Load with pd.read_csv() specifying dtype and parse_dates for key columns
  2. Clean missing values, deduplicate by order ID, and standardize text fields
  3. Add computed columns for revenue and profit margin using assign()
  4. Group by month with resample("M").agg() for revenue, order count, and average order value

Output: A clean DataFrame with monthly revenue summaries ready for visualization or reporting.

Example 2: Merge and enrich customer data from multiple sources

User request: "Join customer data from CRM, transactions, and support tickets into a single view"

Actions:

  1. Load each dataset and standardize key columns (email, customer ID)
  2. Merge CRM and transactions with pd.merge(on="customer_id", how="left", validate="one_to_many")
  3. Aggregate support tickets per customer and merge counts
  4. Export the enriched dataset to Parquet for downstream analysis

Output: A unified customer DataFrame with CRM info, transaction history, and support metrics.

Guidelines

  • Use pd.read_parquet() for intermediate and output files since it is faster, smaller, and preserves types.
  • Chain transformations with .pipe() for readable and testable code.
  • Use named aggregation in .agg() for self-documenting column names.
  • Set dtype explicitly on read_csv() for large files since type inference reads the full file twice.
  • Use category dtype for columns with fewer than 1000 unique values for significant memory savings.
  • Validate merges with validate="one_to_many" to catch data quality issues at merge time.
  • Use query() for complex filters instead of chained boolean indexing for better readability.