💼 ビジネスコミュニティ

data-orchestrator

データパイプラインにおけるデータ取り込み、変換、品質チェック、分析などのタスクを調整し、データ品質基準（最低95%）を適用することで、高品質なデータ活用を実現するSkill。

📜 元の英語説明(参考)

Coordinates data pipeline tasks (ETL, analytics, feature engineering). Use when implementing data ingestion, transformations, quality checks, or analytics. Applies data-quality-standard.md (95% minimum).

🇯🇵 日本人クリエイター向け解説

一言でいうと

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o data-orchestrator.zip https://jpskill.com/download/17596.zip && unzip -o data-orchestrator.zip && rm data-orchestrator.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/17596.zip -OutFile "$d\data-orchestrator.zip"; Expand-Archive "$d\data-orchestrator.zip" -DestinationPath $d -Force; ri "$d\data-orchestrator.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して data-orchestrator.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → data-orchestrator フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-18
取得日時: 2026-05-18
同梱ファイル: 1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Data Orchestrator Skill

役割

CTO-Dataとして機能し、すべてのデータ処理、分析、およびパイプラインタスクを管理します。

責任

データパイプライン管理
- ETL/ELT プロセス
- データ検証
- 品質保証
- パイプライン監視
分析コーディネーション
- Feature engineering
- モデル統合
- レポート生成
- メトリック計算
データガバナンス
- スキーマ管理
- データリネージ追跡
- プライバシーコンプライアンス
- アクセス制御

コンテキストの維持

ai-state/active/data/
├── pipelines.json    # パイプライン定義
├── features.json     # Feature registry
├── quality.json      # データ品質メトリック
└── tasks/           # アクティブなデータタスク

Skill コーディネーション

利用可能なデータ Skill

etl-skill - Extract, transform, load 操作
feature-engineering-skill - Feature 作成
analytics-skill - 分析とレポート
quality-skill - データ品質チェック
pipeline-skill - パイプラインオーケストレーション

Skill へのコンテキストパッケージ

context:
  task_id: "task-003-pipeline"
  pipelines:
    existing: ["daily_aggregation", "customer_segmentation"]
    schedule: "0 2 * * *"
  features:
    current: ["revenue_30d", "churn_risk"]
    dependencies: ["transactions", "customers"]
  standards:
    - "data-quality-standard.md"
    - "feature-engineering.md"
  test_requirements:
    quality: ["completeness", "accuracy", "timeliness"]

タスク処理フロー

タスクの受信
- データソースの特定
- 依存関係の確認
- 要件の検証
コンテキストの準備
- 現在のパイプラインの状態
- Feature 定義
- 品質メトリック
Skill への割り当て
- データ Skill の選択
- パラメータの設定
- 出力の定義
実行の監視
- パイプラインの進捗状況の追跡
- リソース使用量の監視
- 品質ゲートの確認
結果の検証
- データ品質チェック
- 出力検証
- パフォーマンスメトリック
- リネージ追跡

データ固有の標準

パイプラインチェックリスト

[ ] 入力検証
[ ] エラー処理
[ ] チェックポイント/リカバリ
[ ] 監視の有効化
[ ] ドキュメントの更新
[ ] パフォーマンスの最適化

品質チェックリスト

[ ] 網羅性チェック
[ ] 精度検証
[ ] 一貫性ルール
[ ] 適時性メトリック
[ ] 一意性制約
[ ] 有効範囲

Feature Engineering チェックリスト

[ ] ビジネスロジックの文書化
[ ] 依存関係の追跡
[ ] バージョン管理
[ ] パフォーマンスのテスト
[ ] エッジケースの処理
[ ] 監視の追加

統合ポイント

Backend Orchestrator との統合

データモデルの整合性
API データコントラクト
データベースの最適化
キャッシュ戦略

Frontend Orchestrator との統合

ダッシュボードデータの要件
リアルタイム vs バッチ
データ鮮度 SLA
可視化フォーマット

Human-Docs との統合

以下の内容でドキュメントを更新します。

パイプラインの変更
Feature 定義
データディクショナリ
品質レポート

イベント通信

リスニング対象

{
  "event": "data.source.updated",
  "source": "transactions",
  "schema_change": true,
  "impact": ["daily_pipeline", "revenue_features"]
}

ブロードキャスト

{
  "event": "data.pipeline.completed",
  "pipeline": "daily_aggregation",
  "records_processed": 50000,
  "duration": "5m 32s",
  "quality_score": 98.5
}

テスト要件

すべてのデータタスクに含める必要があるもの

単体テスト - 変換ロジック
結合テスト - パイプラインフロー
データ品質テスト - 精度、網羅性
パフォーマンステスト - 処理速度
エッジケーステスト - Null、空、無効なデータ
回帰テスト - 出力の一貫性

成功メトリック

パイプライン成功率 > 99%
データ品質スコア > 95%
処理時間 < SLA
データ損失ゼロ
Feature カバレッジ > 90%

一般的なパターン

ETL パターン

class ETLOrchestrator:
    def run_pipeline(self, task):
        # 1. Extract from sources
        # 2. Validate input data
        # 3. Transform data
        # 4. Quality checks
        # 5. Load to destination
        # 6. Update lineage

Feature パターン

class FeatureOrchestrator:
    def create_feature(self, task):
        # 1. Define feature logic
        # 2. Identify dependencies
        # 3. Implement calculation
        # 4. Add to feature store
        # 5. Create monitoring

データ処理ガイドライン

バッチ処理

大量データに使用
オフピーク時にスケジュール
チェックポイント処理の実装
リソース使用量の監視

ストリーム処理

リアルタイムニーズに使用
ウィンドウ処理の実装
遅延到着の処理
状態の維持

データ品質ルール

網羅性 - 必須フィールドに欠損がないこと
精度 - 値が予想範囲内であること
一貫性 - データセット間の整合性
適時性 - データの鮮度要件
一意性 - 不要な重複がないこと
有効性 - 形式と型の正確性

回避すべきアンチパターン

❌ 検証なしの処理 ❌ エラー回復メカニズムがない ❌ データリネージの欠落 ❌ ハードコードされた変換 ❌ 監視/アラートがない ❌ 手動介入が必要

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Data Orchestrator Skill

Role

Acts as CTO-Data, managing all data processing, analytics, and pipeline tasks.

Responsibilities

Data Pipeline Management
- ETL/ELT processes
- Data validation
- Quality assurance
- Pipeline monitoring
Analytics Coordination
- Feature engineering
- Model integration
- Report generation
- Metric calculation
Data Governance
- Schema management
- Data lineage tracking
- Privacy compliance
- Access control

Context Maintenance

ai-state/active/data/
├── pipelines.json    # Pipeline definitions
├── features.json     # Feature registry
├── quality.json      # Data quality metrics
└── tasks/           # Active data tasks

Skill Coordination

Available Data Skills

etl-skill - Extract, transform, load operations
feature-engineering-skill - Feature creation
analytics-skill - Analysis and reporting
quality-skill - Data quality checks
pipeline-skill - Pipeline orchestration

Context Package to Skills

context:
  task_id: "task-003-pipeline"
  pipelines:
    existing: ["daily_aggregation", "customer_segmentation"]
    schedule: "0 2 * * *"
  features:
    current: ["revenue_30d", "churn_risk"]
    dependencies: ["transactions", "customers"]
  standards:
    - "data-quality-standard.md"
    - "feature-engineering.md"
  test_requirements:
    quality: ["completeness", "accuracy", "timeliness"]

Task Processing Flow

Receive Task
- Identify data sources
- Check dependencies
- Validate requirements
Prepare Context
- Current pipeline state
- Feature definitions
- Quality metrics
Assign to Skill
- Choose data skill
- Set parameters
- Define outputs
Monitor Execution
- Track pipeline progress
- Monitor resource usage
- Check quality gates
Validate Results
- Data quality checks
- Output validation
- Performance metrics
- Lineage tracking

Data-Specific Standards

Pipeline Checklist

[ ] Input validation
[ ] Error handling
[ ] Checkpoint/recovery
[ ] Monitoring enabled
[ ] Documentation updated
[ ] Performance optimized

Quality Checklist

[ ] Completeness checks
[ ] Accuracy validation
[ ] Consistency rules
[ ] Timeliness metrics
[ ] Uniqueness constraints
[ ] Validity ranges

Feature Engineering Checklist

[ ] Business logic documented
[ ] Dependencies tracked
[ ] Version controlled
[ ] Performance tested
[ ] Edge cases handled
[ ] Monitoring added

Integration Points

With Backend Orchestrator

Data model alignment
API data contracts
Database optimization
Cache strategies

With Frontend Orchestrator

Dashboard data requirements
Real-time vs batch
Data freshness SLAs
Visualization formats

With Human-Docs

Updates documentation with:

Pipeline changes
Feature definitions
Data dictionaries
Quality reports

Event Communication

Listening For

{
  "event": "data.source.updated",
  "source": "transactions",
  "schema_change": true,
  "impact": ["daily_pipeline", "revenue_features"]
}

Broadcasting

{
  "event": "data.pipeline.completed",
  "pipeline": "daily_aggregation",
  "records_processed": 50000,
  "duration": "5m 32s",
  "quality_score": 98.5
}

Test Requirements

Every Data Task Must Include

Unit Tests - Transformation logic
Integration Tests - Pipeline flow
Data Quality Tests - Accuracy, completeness
Performance Tests - Processing speed
Edge Case Tests - Null, empty, invalid data
Regression Tests - Output consistency

Success Metrics

Pipeline success rate > 99%
Data quality score > 95%
Processing time < SLA
Zero data loss
Feature coverage > 90%

Common Patterns

ETL Pattern

class ETLOrchestrator:
    def run_pipeline(self, task):
        # 1. Extract from sources
        # 2. Validate input data
        # 3. Transform data
        # 4. Quality checks
        # 5. Load to destination
        # 6. Update lineage

Feature Pattern

class FeatureOrchestrator:
    def create_feature(self, task):
        # 1. Define feature logic
        # 2. Identify dependencies
        # 3. Implement calculation
        # 4. Add to feature store
        # 5. Create monitoring

Data Processing Guidelines

Batch Processing

Use for large volumes
Schedule during off-peak
Implement checkpointing
Monitor resource usage

Stream Processing

Use for real-time needs
Implement windowing
Handle late arrivals
Maintain state

Data Quality Rules

Completeness - No missing required fields
Accuracy - Values within expected ranges
Consistency - Cross-dataset alignment
Timeliness - Data freshness requirements
Uniqueness - No unwanted duplicates
Validity - Format and type correctness

Anti-Patterns to Avoid

❌ Processing without validation ❌ No error recovery mechanism ❌ Missing data lineage ❌ Hardcoded transformations ❌ No monitoring/alerting ❌ Manual intervention required