data-orchestrator
データパイプラインにおけるデータ取り込み、変換、品質チェック、分析などのタスクを調整し、データ品質基準(最低95%)を適用することで、高品質なデータ活用を実現するSkill。
📜 元の英語説明(参考)
Coordinates data pipeline tasks (ETL, analytics, feature engineering). Use when implementing data ingestion, transformations, quality checks, or analytics. Applies data-quality-standard.md (95% minimum).
🇯🇵 日本人クリエイター向け解説
データパイプラインにおけるデータ取り込み、変換、品質チェック、分析などのタスクを調整し、データ品質基準(最低95%)を適用することで、高品質なデータ活用を実現するSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o data-orchestrator.zip https://jpskill.com/download/17596.zip && unzip -o data-orchestrator.zip && rm data-orchestrator.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/17596.zip -OutFile "$d\data-orchestrator.zip"; Expand-Archive "$d\data-orchestrator.zip" -DestinationPath $d -Force; ri "$d\data-orchestrator.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
data-orchestrator.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
data-orchestratorフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
Data Orchestrator Skill
役割
CTO-Dataとして機能し、すべてのデータ処理、分析、およびパイプラインタスクを管理します。
責任
-
データパイプライン管理
- ETL/ELT プロセス
- データ検証
- 品質保証
- パイプライン監視
-
分析コーディネーション
- Feature engineering
- モデル統合
- レポート生成
- メトリック計算
-
データガバナンス
- スキーマ管理
- データリネージ追跡
- プライバシーコンプライアンス
- アクセス制御
-
コンテキストの維持
ai-state/active/data/ ├── pipelines.json # パイプライン定義 ├── features.json # Feature registry ├── quality.json # データ品質メトリック └── tasks/ # アクティブなデータタスク
Skill コーディネーション
利用可能なデータ Skill
etl-skill- Extract, transform, load 操作feature-engineering-skill- Feature 作成analytics-skill- 分析とレポートquality-skill- データ品質チェックpipeline-skill- パイプラインオーケストレーション
Skill へのコンテキストパッケージ
context:
task_id: "task-003-pipeline"
pipelines:
existing: ["daily_aggregation", "customer_segmentation"]
schedule: "0 2 * * *"
features:
current: ["revenue_30d", "churn_risk"]
dependencies: ["transactions", "customers"]
standards:
- "data-quality-standard.md"
- "feature-engineering.md"
test_requirements:
quality: ["completeness", "accuracy", "timeliness"]
タスク処理フロー
-
タスクの受信
- データソースの特定
- 依存関係の確認
- 要件の検証
-
コンテキストの準備
- 現在のパイプラインの状態
- Feature 定義
- 品質メトリック
-
Skill への割り当て
- データ Skill の選択
- パラメータの設定
- 出力の定義
-
実行の監視
- パイプラインの進捗状況の追跡
- リソース使用量の監視
- 品質ゲートの確認
-
結果の検証
- データ品質チェック
- 出力検証
- パフォーマンスメトリック
- リネージ追跡
データ固有の標準
パイプラインチェックリスト
- [ ] 入力検証
- [ ] エラー処理
- [ ] チェックポイント/リカバリ
- [ ] 監視の有効化
- [ ] ドキュメントの更新
- [ ] パフォーマンスの最適化
品質チェックリスト
- [ ] 網羅性チェック
- [ ] 精度検証
- [ ] 一貫性ルール
- [ ] 適時性メトリック
- [ ] 一意性制約
- [ ] 有効範囲
Feature Engineering チェックリスト
- [ ] ビジネスロジックの文書化
- [ ] 依存関係の追跡
- [ ] バージョン管理
- [ ] パフォーマンスのテスト
- [ ] エッジケースの処理
- [ ] 監視の追加
統合ポイント
Backend Orchestrator との統合
- データモデルの整合性
- API データコントラクト
- データベースの最適化
- キャッシュ戦略
Frontend Orchestrator との統合
- ダッシュボードデータの要件
- リアルタイム vs バッチ
- データ鮮度 SLA
- 可視化フォーマット
Human-Docs との統合
以下の内容でドキュメントを更新します。
- パイプラインの変更
- Feature 定義
- データディクショナリ
- 品質レポート
イベント通信
リスニング対象
{
"event": "data.source.updated",
"source": "transactions",
"schema_change": true,
"impact": ["daily_pipeline", "revenue_features"]
}
ブロードキャスト
{
"event": "data.pipeline.completed",
"pipeline": "daily_aggregation",
"records_processed": 50000,
"duration": "5m 32s",
"quality_score": 98.5
}
テスト要件
すべてのデータタスクに含める必要があるもの
- 単体テスト - 変換ロジック
- 結合テスト - パイプラインフロー
- データ品質テスト - 精度、網羅性
- パフォーマンステスト - 処理速度
- エッジケーステスト - Null、空、無効なデータ
- 回帰テスト - 出力の一貫性
成功メトリック
- パイプライン成功率 > 99%
- データ品質スコア > 95%
- 処理時間 < SLA
- データ損失ゼロ
- Feature カバレッジ > 90%
一般的なパターン
ETL パターン
class ETLOrchestrator:
def run_pipeline(self, task):
# 1. Extract from sources
# 2. Validate input data
# 3. Transform data
# 4. Quality checks
# 5. Load to destination
# 6. Update lineage
Feature パターン
class FeatureOrchestrator:
def create_feature(self, task):
# 1. Define feature logic
# 2. Identify dependencies
# 3. Implement calculation
# 4. Add to feature store
# 5. Create monitoring
データ処理ガイドライン
バッチ処理
- 大量データに使用
- オフピーク時にスケジュール
- チェックポイント処理の実装
- リソース使用量の監視
ストリーム処理
- リアルタイムニーズに使用
- ウィンドウ処理の実装
- 遅延到着の処理
- 状態の維持
データ品質ルール
- 網羅性 - 必須フィールドに欠損がないこと
- 精度 - 値が予想範囲内であること
- 一貫性 - データセット間の整合性
- 適時性 - データの鮮度要件
- 一意性 - 不要な重複がないこと
- 有効性 - 形式と型の正確性
回避すべきアンチパターン
❌ 検証なしの処理 ❌ エラー回復メカニズムがない ❌ データリネージの欠落 ❌ ハードコードされた変換 ❌ 監視/アラートがない ❌ 手動介入が必要
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
Data Orchestrator Skill
Role
Acts as CTO-Data, managing all data processing, analytics, and pipeline tasks.
Responsibilities
-
Data Pipeline Management
- ETL/ELT processes
- Data validation
- Quality assurance
- Pipeline monitoring
-
Analytics Coordination
- Feature engineering
- Model integration
- Report generation
- Metric calculation
-
Data Governance
- Schema management
- Data lineage tracking
- Privacy compliance
- Access control
-
Context Maintenance
ai-state/active/data/ ├── pipelines.json # Pipeline definitions ├── features.json # Feature registry ├── quality.json # Data quality metrics └── tasks/ # Active data tasks
Skill Coordination
Available Data Skills
etl-skill- Extract, transform, load operationsfeature-engineering-skill- Feature creationanalytics-skill- Analysis and reportingquality-skill- Data quality checkspipeline-skill- Pipeline orchestration
Context Package to Skills
context:
task_id: "task-003-pipeline"
pipelines:
existing: ["daily_aggregation", "customer_segmentation"]
schedule: "0 2 * * *"
features:
current: ["revenue_30d", "churn_risk"]
dependencies: ["transactions", "customers"]
standards:
- "data-quality-standard.md"
- "feature-engineering.md"
test_requirements:
quality: ["completeness", "accuracy", "timeliness"]
Task Processing Flow
-
Receive Task
- Identify data sources
- Check dependencies
- Validate requirements
-
Prepare Context
- Current pipeline state
- Feature definitions
- Quality metrics
-
Assign to Skill
- Choose data skill
- Set parameters
- Define outputs
-
Monitor Execution
- Track pipeline progress
- Monitor resource usage
- Check quality gates
-
Validate Results
- Data quality checks
- Output validation
- Performance metrics
- Lineage tracking
Data-Specific Standards
Pipeline Checklist
- [ ] Input validation
- [ ] Error handling
- [ ] Checkpoint/recovery
- [ ] Monitoring enabled
- [ ] Documentation updated
- [ ] Performance optimized
Quality Checklist
- [ ] Completeness checks
- [ ] Accuracy validation
- [ ] Consistency rules
- [ ] Timeliness metrics
- [ ] Uniqueness constraints
- [ ] Validity ranges
Feature Engineering Checklist
- [ ] Business logic documented
- [ ] Dependencies tracked
- [ ] Version controlled
- [ ] Performance tested
- [ ] Edge cases handled
- [ ] Monitoring added
Integration Points
With Backend Orchestrator
- Data model alignment
- API data contracts
- Database optimization
- Cache strategies
With Frontend Orchestrator
- Dashboard data requirements
- Real-time vs batch
- Data freshness SLAs
- Visualization formats
With Human-Docs
Updates documentation with:
- Pipeline changes
- Feature definitions
- Data dictionaries
- Quality reports
Event Communication
Listening For
{
"event": "data.source.updated",
"source": "transactions",
"schema_change": true,
"impact": ["daily_pipeline", "revenue_features"]
}
Broadcasting
{
"event": "data.pipeline.completed",
"pipeline": "daily_aggregation",
"records_processed": 50000,
"duration": "5m 32s",
"quality_score": 98.5
}
Test Requirements
Every Data Task Must Include
- Unit Tests - Transformation logic
- Integration Tests - Pipeline flow
- Data Quality Tests - Accuracy, completeness
- Performance Tests - Processing speed
- Edge Case Tests - Null, empty, invalid data
- Regression Tests - Output consistency
Success Metrics
- Pipeline success rate > 99%
- Data quality score > 95%
- Processing time < SLA
- Zero data loss
- Feature coverage > 90%
Common Patterns
ETL Pattern
class ETLOrchestrator:
def run_pipeline(self, task):
# 1. Extract from sources
# 2. Validate input data
# 3. Transform data
# 4. Quality checks
# 5. Load to destination
# 6. Update lineage
Feature Pattern
class FeatureOrchestrator:
def create_feature(self, task):
# 1. Define feature logic
# 2. Identify dependencies
# 3. Implement calculation
# 4. Add to feature store
# 5. Create monitoring
Data Processing Guidelines
Batch Processing
- Use for large volumes
- Schedule during off-peak
- Implement checkpointing
- Monitor resource usage
Stream Processing
- Use for real-time needs
- Implement windowing
- Handle late arrivals
- Maintain state
Data Quality Rules
- Completeness - No missing required fields
- Accuracy - Values within expected ranges
- Consistency - Cross-dataset alignment
- Timeliness - Data freshness requirements
- Uniqueness - No unwanted duplicates
- Validity - Format and type correctness
Anti-Patterns to Avoid
❌ Processing without validation ❌ No error recovery mechanism ❌ Missing data lineage ❌ Hardcoded transformations ❌ No monitoring/alerting ❌ Manual intervention required