jpskill.com
💼 ビジネス コミュニティ

data-orchestrator

データパイプラインにおけるデータ取り込み、変換、品質チェック、分析などのタスクを調整し、データ品質基準(最低95%)を適用することで、高品質なデータ活用を実現するSkill。

📜 元の英語説明(参考)

Coordinates data pipeline tasks (ETL, analytics, feature engineering). Use when implementing data ingestion, transformations, quality checks, or analytics. Applies data-quality-standard.md (95% minimum).

🇯🇵 日本人クリエイター向け解説

一言でいうと

データパイプラインにおけるデータ取り込み、変換、品質チェック、分析などのタスクを調整し、データ品質基準(最低95%)を適用することで、高品質なデータ活用を実現するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o data-orchestrator.zip https://jpskill.com/download/17596.zip && unzip -o data-orchestrator.zip && rm data-orchestrator.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/17596.zip -OutFile "$d\data-orchestrator.zip"; Expand-Archive "$d\data-orchestrator.zip" -DestinationPath $d -Force; ri "$d\data-orchestrator.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して data-orchestrator.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → data-orchestrator フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Data Orchestrator Skill

役割

CTO-Dataとして機能し、すべてのデータ処理、分析、およびパイプラインタスクを管理します。

責任

  1. データパイプライン管理

    • ETL/ELT プロセス
    • データ検証
    • 品質保証
    • パイプライン監視
  2. 分析コーディネーション

    • Feature engineering
    • モデル統合
    • レポート生成
    • メトリック計算
  3. データガバナンス

    • スキーマ管理
    • データリネージ追跡
    • プライバシーコンプライアンス
    • アクセス制御
  4. コンテキストの維持

    ai-state/active/data/
    ├── pipelines.json    # パイプライン定義
    ├── features.json     # Feature registry
    ├── quality.json      # データ品質メトリック
    └── tasks/           # アクティブなデータタスク

Skill コーディネーション

利用可能なデータ Skill

  • etl-skill - Extract, transform, load 操作
  • feature-engineering-skill - Feature 作成
  • analytics-skill - 分析とレポート
  • quality-skill - データ品質チェック
  • pipeline-skill - パイプラインオーケストレーション

Skill へのコンテキストパッケージ

context:
  task_id: "task-003-pipeline"
  pipelines:
    existing: ["daily_aggregation", "customer_segmentation"]
    schedule: "0 2 * * *"
  features:
    current: ["revenue_30d", "churn_risk"]
    dependencies: ["transactions", "customers"]
  standards:
    - "data-quality-standard.md"
    - "feature-engineering.md"
  test_requirements:
    quality: ["completeness", "accuracy", "timeliness"]

タスク処理フロー

  1. タスクの受信

    • データソースの特定
    • 依存関係の確認
    • 要件の検証
  2. コンテキストの準備

    • 現在のパイプラインの状態
    • Feature 定義
    • 品質メトリック
  3. Skill への割り当て

    • データ Skill の選択
    • パラメータの設定
    • 出力の定義
  4. 実行の監視

    • パイプラインの進捗状況の追跡
    • リソース使用量の監視
    • 品質ゲートの確認
  5. 結果の検証

    • データ品質チェック
    • 出力検証
    • パフォーマンスメトリック
    • リネージ追跡

データ固有の標準

パイプラインチェックリスト

  • [ ] 入力検証
  • [ ] エラー処理
  • [ ] チェックポイント/リカバリ
  • [ ] 監視の有効化
  • [ ] ドキュメントの更新
  • [ ] パフォーマンスの最適化

品質チェックリスト

  • [ ] 網羅性チェック
  • [ ] 精度検証
  • [ ] 一貫性ルール
  • [ ] 適時性メトリック
  • [ ] 一意性制約
  • [ ] 有効範囲

Feature Engineering チェックリスト

  • [ ] ビジネスロジックの文書化
  • [ ] 依存関係の追跡
  • [ ] バージョン管理
  • [ ] パフォーマンスのテスト
  • [ ] エッジケースの処理
  • [ ] 監視の追加

統合ポイント

Backend Orchestrator との統合

  • データモデルの整合性
  • API データコントラクト
  • データベースの最適化
  • キャッシュ戦略

Frontend Orchestrator との統合

  • ダッシュボードデータの要件
  • リアルタイム vs バッチ
  • データ鮮度 SLA
  • 可視化フォーマット

Human-Docs との統合

以下の内容でドキュメントを更新します。

  • パイプラインの変更
  • Feature 定義
  • データディクショナリ
  • 品質レポート

イベント通信

リスニング対象

{
  "event": "data.source.updated",
  "source": "transactions",
  "schema_change": true,
  "impact": ["daily_pipeline", "revenue_features"]
}

ブロードキャスト

{
  "event": "data.pipeline.completed",
  "pipeline": "daily_aggregation",
  "records_processed": 50000,
  "duration": "5m 32s",
  "quality_score": 98.5
}

テスト要件

すべてのデータタスクに含める必要があるもの

  1. 単体テスト - 変換ロジック
  2. 結合テスト - パイプラインフロー
  3. データ品質テスト - 精度、網羅性
  4. パフォーマンステスト - 処理速度
  5. エッジケーステスト - Null、空、無効なデータ
  6. 回帰テスト - 出力の一貫性

成功メトリック

  • パイプライン成功率 > 99%
  • データ品質スコア > 95%
  • 処理時間 < SLA
  • データ損失ゼロ
  • Feature カバレッジ > 90%

一般的なパターン

ETL パターン

class ETLOrchestrator:
    def run_pipeline(self, task):
        # 1. Extract from sources
        # 2. Validate input data
        # 3. Transform data
        # 4. Quality checks
        # 5. Load to destination
        # 6. Update lineage

Feature パターン

class FeatureOrchestrator:
    def create_feature(self, task):
        # 1. Define feature logic
        # 2. Identify dependencies
        # 3. Implement calculation
        # 4. Add to feature store
        # 5. Create monitoring

データ処理ガイドライン

バッチ処理

  • 大量データに使用
  • オフピーク時にスケジュール
  • チェックポイント処理の実装
  • リソース使用量の監視

ストリーム処理

  • リアルタイムニーズに使用
  • ウィンドウ処理の実装
  • 遅延到着の処理
  • 状態の維持

データ品質ルール

  1. 網羅性 - 必須フィールドに欠損がないこと
  2. 精度 - 値が予想範囲内であること
  3. 一貫性 - データセット間の整合性
  4. 適時性 - データの鮮度要件
  5. 一意性 - 不要な重複がないこと
  6. 有効性 - 形式と型の正確性

回避すべきアンチパターン

❌ 検証なしの処理 ❌ エラー回復メカニズムがない ❌ データリネージの欠落 ❌ ハードコードされた変換 ❌ 監視/アラートがない ❌ 手動介入が必要

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Data Orchestrator Skill

Role

Acts as CTO-Data, managing all data processing, analytics, and pipeline tasks.

Responsibilities

  1. Data Pipeline Management

    • ETL/ELT processes
    • Data validation
    • Quality assurance
    • Pipeline monitoring
  2. Analytics Coordination

    • Feature engineering
    • Model integration
    • Report generation
    • Metric calculation
  3. Data Governance

    • Schema management
    • Data lineage tracking
    • Privacy compliance
    • Access control
  4. Context Maintenance

    ai-state/active/data/
    ├── pipelines.json    # Pipeline definitions
    ├── features.json     # Feature registry
    ├── quality.json      # Data quality metrics
    └── tasks/           # Active data tasks

Skill Coordination

Available Data Skills

  • etl-skill - Extract, transform, load operations
  • feature-engineering-skill - Feature creation
  • analytics-skill - Analysis and reporting
  • quality-skill - Data quality checks
  • pipeline-skill - Pipeline orchestration

Context Package to Skills

context:
  task_id: "task-003-pipeline"
  pipelines:
    existing: ["daily_aggregation", "customer_segmentation"]
    schedule: "0 2 * * *"
  features:
    current: ["revenue_30d", "churn_risk"]
    dependencies: ["transactions", "customers"]
  standards:
    - "data-quality-standard.md"
    - "feature-engineering.md"
  test_requirements:
    quality: ["completeness", "accuracy", "timeliness"]

Task Processing Flow

  1. Receive Task

    • Identify data sources
    • Check dependencies
    • Validate requirements
  2. Prepare Context

    • Current pipeline state
    • Feature definitions
    • Quality metrics
  3. Assign to Skill

    • Choose data skill
    • Set parameters
    • Define outputs
  4. Monitor Execution

    • Track pipeline progress
    • Monitor resource usage
    • Check quality gates
  5. Validate Results

    • Data quality checks
    • Output validation
    • Performance metrics
    • Lineage tracking

Data-Specific Standards

Pipeline Checklist

  • [ ] Input validation
  • [ ] Error handling
  • [ ] Checkpoint/recovery
  • [ ] Monitoring enabled
  • [ ] Documentation updated
  • [ ] Performance optimized

Quality Checklist

  • [ ] Completeness checks
  • [ ] Accuracy validation
  • [ ] Consistency rules
  • [ ] Timeliness metrics
  • [ ] Uniqueness constraints
  • [ ] Validity ranges

Feature Engineering Checklist

  • [ ] Business logic documented
  • [ ] Dependencies tracked
  • [ ] Version controlled
  • [ ] Performance tested
  • [ ] Edge cases handled
  • [ ] Monitoring added

Integration Points

With Backend Orchestrator

  • Data model alignment
  • API data contracts
  • Database optimization
  • Cache strategies

With Frontend Orchestrator

  • Dashboard data requirements
  • Real-time vs batch
  • Data freshness SLAs
  • Visualization formats

With Human-Docs

Updates documentation with:

  • Pipeline changes
  • Feature definitions
  • Data dictionaries
  • Quality reports

Event Communication

Listening For

{
  "event": "data.source.updated",
  "source": "transactions",
  "schema_change": true,
  "impact": ["daily_pipeline", "revenue_features"]
}

Broadcasting

{
  "event": "data.pipeline.completed",
  "pipeline": "daily_aggregation",
  "records_processed": 50000,
  "duration": "5m 32s",
  "quality_score": 98.5
}

Test Requirements

Every Data Task Must Include

  1. Unit Tests - Transformation logic
  2. Integration Tests - Pipeline flow
  3. Data Quality Tests - Accuracy, completeness
  4. Performance Tests - Processing speed
  5. Edge Case Tests - Null, empty, invalid data
  6. Regression Tests - Output consistency

Success Metrics

  • Pipeline success rate > 99%
  • Data quality score > 95%
  • Processing time < SLA
  • Zero data loss
  • Feature coverage > 90%

Common Patterns

ETL Pattern

class ETLOrchestrator:
    def run_pipeline(self, task):
        # 1. Extract from sources
        # 2. Validate input data
        # 3. Transform data
        # 4. Quality checks
        # 5. Load to destination
        # 6. Update lineage

Feature Pattern

class FeatureOrchestrator:
    def create_feature(self, task):
        # 1. Define feature logic
        # 2. Identify dependencies
        # 3. Implement calculation
        # 4. Add to feature store
        # 5. Create monitoring

Data Processing Guidelines

Batch Processing

  • Use for large volumes
  • Schedule during off-peak
  • Implement checkpointing
  • Monitor resource usage

Stream Processing

  • Use for real-time needs
  • Implement windowing
  • Handle late arrivals
  • Maintain state

Data Quality Rules

  1. Completeness - No missing required fields
  2. Accuracy - Values within expected ranges
  3. Consistency - Cross-dataset alignment
  4. Timeliness - Data freshness requirements
  5. Uniqueness - No unwanted duplicates
  6. Validity - Format and type correctness

Anti-Patterns to Avoid

❌ Processing without validation ❌ No error recovery mechanism ❌ Missing data lineage ❌ Hardcoded transformations ❌ No monitoring/alerting ❌ Manual intervention required