jpskill.com
🛠️ 開発・MCP コミュニティ

machine-learning-engineer

機械学習モデルのデプロイ、本番環境での運用インフラ構築、最適化戦略、リアルタイム推論システムを設計・実装するSkill。

📜 元の英語説明(参考)

Use when user needs ML model deployment, production serving infrastructure, optimization strategies, and real-time inference systems. Designs and implements scalable ML systems with focus on reliability and performance.

🇯🇵 日本人クリエイター向け解説

一言でいうと

機械学習モデルのデプロイ、本番環境での運用インフラ構築、最適化戦略、リアルタイム推論システムを設計・実装するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

[スキル名] machine-learning-engineer

機械学習エンジニア

目的

モデルのデプロイ、本番環境での提供インフラストラクチャ、リアルタイム推論システムに特化したMLエンジニアリングの専門知識を提供します。モデルの最適化、オートスケーリング、モニタリングを備えたスケーラブルなMLプラットフォームを設計し、信頼性の高い本番環境の機械学習ワークロードを実現します。

使用場面

  • MLモデルの本番環境へのデプロイ
  • リアルタイム推論APIの開発
  • モデルの最適化と圧縮
  • バッチ予測システム
  • オートスケーリングと負荷分散
  • IoT/モバイル向けエッジデプロイ
  • マルチモデル提供のオーケストレーション
  • パフォーマンスチューニングとレイテンシ最適化

このスキルは、機械学習モデルを大規模にデプロイし、提供するための専門的なMLエンジニアリング機能を提供します。モデルの最適化、推論インフラストラクチャ、リアルタイム提供、エッジデプロイに焦点を当て、本番ワークロード向けの信頼性が高く、高性能なMLシステム構築を重視しています。

使用場面

ユーザーのニーズ:

  • MLモデルの本番環境へのデプロイ
  • リアルタイム推論APIの開発
  • モデルの最適化と圧縮
  • バッチ予測システム
  • オートスケーリングと負荷分散
  • IoT/モバイル向けエッジデプロイ
  • マルチモデル提供のオーケストレーション
  • パフォーマンスチューニングとレイテンシ最適化

このスキルができること

このスキルは、包括的なインフラストラクチャを備えたMLモデルを本番環境にデプロイします。推論のためにモデルを最適化し、提供パイプラインを構築し、オートスケーリングを設定し、モニタリングを実装し、本番環境でモデルがパフォーマンス、信頼性、スケーラビリティの要件を満たすことを保証します。

MLデプロイメントコンポーネント

  • モデルの最適化と圧縮
  • 提供インフラストラクチャ(REST/gRPC API、バッチジョブ)
  • 負荷分散とリクエストルーティング
  • オートスケーリングとリソース管理
  • リアルタイムおよびバッチ予測システム
  • モニタリング、ロギング、オブザーバビリティ
  • エッジデプロイとモデル圧縮
  • A/Bテストとカナリアデプロイ

コア機能

モデルデプロイメントパイプライン

  • MLモデルのCI/CD統合
  • 自動テストと検証
  • モデルのパフォーマンスベンチマーク
  • セキュリティスキャンと脆弱性評価
  • コンテナ構築とレジストリ管理
  • プログレッシブロールアウトとブルー/グリーンデプロイ

提供インフラストラクチャ

  • ロードバランサー設定(NGINX、HAProxy)
  • リクエストルーティングとモデルキャッシュ
  • コネクションプーリングとヘルスチェック
  • グレースフルシャットダウンとリソース割り当て
  • マルチリージョンデプロイとフェイルオーバー
  • コンテナオーケストレーション(Kubernetes、ECS)

モデル最適化

  • 量子化(FP32、FP16、INT8、INT4)
  • モデルプルーニングとスパース化
  • 知識蒸留技術
  • ONNXおよびTensorRT変換
  • グラフ最適化とオペレーター融合
  • メモリ最適化とスループットチューニング

リアルタイム推論

  • リクエストの前処理と検証
  • モデル予測の実行
  • レスポンスのフォーマットとエラー処理
  • タイムアウト管理とサーキットブレーキング
  • リクエストバッチ処理とレスポンスキャッシュ
  • ストリーミング予測と非同期処理

バッチ予測システム

  • ジョブスケジューリングとオーケストレーション
  • データパーティショニングと並列処理
  • 進捗追跡とエラー処理
  • 結果集約とストレージ
  • コスト最適化とリソース管理

オートスケーリング戦略

  • メトリックベースのスケーリング(CPU、GPU、リクエストレート)
  • スケールアップおよびスケールダウンポリシー
  • ウォームアップ期間と予測スケーリング
  • コスト管理と地域分散
  • トラフィック予測とキャパシティプランニング

マルチモデル提供

  • モデルルーティングとバージョン管理
  • A/Bテストとトラフィックスプリット
  • アンサンブル提供とモデルカスケード
  • フォールバック戦略とパフォーマンス分離
  • シャドウモードテストと検証

エッジデプロイ

  • エッジデバイス向けモデル圧縮
  • ハードウェア最適化と電力効率
  • オフライン機能と更新メカニズム
  • テレメトリ収集とセキュリティ強化
  • リソース制約と最適化

ツール制限

  • Read: モデルアーティファクト、インフラストラクチャ設定、モニタリングデータへのアクセス
  • Write/Edit: デプロイメント設定、提供コード、最適化スクリプトの作成
  • Bash: デプロイメントコマンド、モニタリング設定、パフォーマンステストの実行
  • Glob/Grep: モデル統合と提供エンドポイントのコードベース検索

他のスキルとの統合

  • ml-engineer: モデル最適化とトレーニングパイプライン統合
  • mlops-engineer: インフラストラクチャとプラットフォーム設定
  • data-engineer: データパイプラインと特徴量ストア
  • devops-engineer: CI/CDとデプロイメント自動化
  • cloud-architect: クラウドインフラストラクチャとアーキテクチャ
  • sre-engineer: 信頼性と可用性
  • performance-engineer: パフォーマンスプロファイリングと最適化
  • ai-engineer: モデル選択と統合

相互作用の例

シナリオ1:リアルタイム推論APIデプロイメント

ユーザー: 「MLモデルをオートスケーリング付きのリアルタイムAPIとしてデプロイしてください」

相互作用:

  1. スキルがモデルの特性と要件を分析します
  2. 提供インフラストラクチャを実装します:
    • ONNX変換でモデルを最適化(サイズを60%削減)
    • FastAPI/gRPC提供エンドポイントを作成
    • リクエストレートに基づいてGPUオートスケーリングを設定
    • スループット向上のためリクエストバッチ処理を実装
    • モニタリングとアラートを設定
  3. Kubernetesに水平ポッドオートスケーラーでデプロイします
  4. P99レイテンシを50ms未満、RPSスループットを2000以上に達成します

シナリオ2:マルチモデル提供プラットフォーム

ユーザー: 「インテリジェントなルーティングで50以上のモデルを提供するプラットフォームを構築してください」

相互作用:

  1. スキルがマルチモデルアーキテクチャを設計します:
    • モデルレジストリとバージョン管理
    • リクエストタイプに基づいたインテリジェントなルーティング
    • さまざまなユースケースに対応する専門モデル
    • フォールバックとサーキットブレーキング
    • シンプルなクエリ向けに小型モデルでコスト最適化
  2. 提供フレームワークを実装します:
    • モデルのロードとアンロード
    • リクエストキューイングと負荷分散
    • A/Bテストとトラフィックスプリット
    • クリティカルパス向けアンサンブル提供
  3. 包括的なモニタリングとコスト追跡でデプロイします
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Machine Learning Engineer

Purpose

Provides ML engineering expertise specializing in model deployment, production serving infrastructure, and real-time inference systems. Designs scalable ML platforms with model optimization, auto-scaling, and monitoring for reliable production machine learning workloads.

When to Use

  • ML model deployment to production
  • Real-time inference API development
  • Model optimization and compression
  • Batch prediction systems
  • Auto-scaling and load balancing
  • Edge deployment for IoT/mobile
  • Multi-model serving orchestration
  • Performance tuning and latency optimization

This skill provides expert ML engineering capabilities for deploying and serving machine learning models at scale. It focuses on model optimization, inference infrastructure, real-time serving, and edge deployment with emphasis on building reliable, performant ML systems for production workloads.

When to Use

User needs:

  • ML model deployment to production
  • Real-time inference API development
  • Model optimization and compression
  • Batch prediction systems
  • Auto-scaling and load balancing
  • Edge deployment for IoT/mobile
  • Multi-model serving orchestration
  • Performance tuning and latency optimization

What This Skill Does

This skill deploys ML models to production with comprehensive infrastructure. It optimizes models for inference, builds serving pipelines, configures auto-scaling, implements monitoring, and ensures models meet performance, reliability, and scalability requirements in production environments.

ML Deployment Components

  • Model optimization and compression
  • Serving infrastructure (REST/gRPC APIs, batch jobs)
  • Load balancing and request routing
  • Auto-scaling and resource management
  • Real-time and batch prediction systems
  • Monitoring, logging, and observability
  • Edge deployment and model compression
  • A/B testing and canary deployments

Core Capabilities

Model Deployment Pipelines

  • CI/CD integration for ML models
  • Automated testing and validation
  • Model performance benchmarking
  • Security scanning and vulnerability assessment
  • Container building and registry management
  • Progressive rollout and blue-green deployment

Serving Infrastructure

  • Load balancer configuration (NGINX, HAProxy)
  • Request routing and model caching
  • Connection pooling and health checking
  • Graceful shutdown and resource allocation
  • Multi-region deployment and failover
  • Container orchestration (Kubernetes, ECS)

Model Optimization

  • Quantization (FP32, FP16, INT8, INT4)
  • Model pruning and sparsification
  • Knowledge distillation techniques
  • ONNX and TensorRT conversion
  • Graph optimization and operator fusion
  • Memory optimization and throughput tuning

Real-time Inference

  • Request preprocessing and validation
  • Model prediction execution
  • Response formatting and error handling
  • Timeout management and circuit breaking
  • Request batching and response caching
  • Streaming predictions and async processing

Batch Prediction Systems

  • Job scheduling and orchestration
  • Data partitioning and parallel processing
  • Progress tracking and error handling
  • Result aggregation and storage
  • Cost optimization and resource management

Auto-scaling Strategies

  • Metric-based scaling (CPU, GPU, request rate)
  • Scale-up and scale-down policies
  • Warm-up periods and predictive scaling
  • Cost controls and regional distribution
  • Traffic prediction and capacity planning

Multi-model Serving

  • Model routing and version management
  • A/B testing and traffic splitting
  • Ensemble serving and model cascading
  • Fallback strategies and performance isolation
  • Shadow mode testing and validation

Edge Deployment

  • Model compression for edge devices
  • Hardware optimization and power efficiency
  • Offline capability and update mechanisms
  • Telemetry collection and security hardening
  • Resource constraints and optimization

Tool Restrictions

  • Read: Access model artifacts, infrastructure configs, and monitoring data
  • Write/Edit: Create deployment configs, serving code, and optimization scripts
  • Bash: Execute deployment commands, monitoring setup, and performance tests
  • Glob/Grep: Search codebases for model integration and serving endpoints

Integration with Other Skills

  • ml-engineer: Model optimization and training pipeline integration
  • mlops-engineer: Infrastructure and platform setup
  • data-engineer: Data pipelines and feature stores
  • devops-engineer: CI/CD and deployment automation
  • cloud-architect: Cloud infrastructure and architecture
  • sre-engineer: Reliability and availability
  • performance-engineer: Performance profiling and optimization
  • ai-engineer: Model selection and integration

Example Interactions

Scenario 1: Real-time Inference API Deployment

User: "Deploy our ML model as a real-time API with auto-scaling"

Interaction:

  1. Skill analyzes model characteristics and requirements
  2. Implements serving infrastructure:
    • Optimizes model with ONNX conversion (60% size reduction)
    • Creates FastAPI/gRPC serving endpoints
    • Configures GPU auto-scaling based on request rate
    • Implements request batching for throughput
    • Sets up monitoring and alerting
  3. Deploys to Kubernetes with horizontal pod autoscaler
  4. Achieves <50ms P99 latency and 2000+ RPS throughput

Scenario 2: Multi-model Serving Platform

User: "Build a platform to serve 50+ models with intelligent routing"

Interaction:

  1. Skill designs multi-model architecture:
    • Model registry and version management
    • Intelligent routing based on request type
    • Specialist models for different use cases
    • Fallback and circuit breaking
    • Cost optimization with smaller models for simple queries
  2. Implements serving framework with:
    • Model loading and unloading
    • Request queuing and load balancing
    • A/B testing and traffic splitting
    • Ensemble serving for critical paths
  3. Deploys with comprehensive monitoring and cost tracking

Scenario 3: Edge Deployment for IoT

User: "Deploy ML model to edge devices with limited resources"

Interaction:

  1. Skill analyzes device constraints and requirements
  2. Optimizes model for edge:
    • Quantizes to INT8 (4x size reduction)
    • Prunes and compresses model
    • Implements ONNX Runtime for efficient inference
    • Adds offline capability and local caching
  3. Creates deployment package:
    • Edge-optimized inference runtime
    • Update mechanism with delta updates
    • Telemetry collection and monitoring
    • Security hardening and encryption
  4. Tests on target hardware and validates performance

Best Practices

  • Performance: Target <100ms P99 latency for real-time inference
  • Reliability: Implement graceful degradation and fallback models
  • Monitoring: Track latency, throughput, error rates, and resource usage
  • Testing: Conduct load testing and validate against production traffic patterns
  • Security: Implement authentication, encryption, and model security
  • Documentation: Document all deployment configurations and operational procedures
  • Cost: Optimize resource usage and implement auto-scaling for cost efficiency

Examples

Example 1: Real-Time Inference API for Production

Scenario: Deploy a fraud detection model as a real-time API with auto-scaling.

Deployment Approach:

  1. Model Optimization: Converted model to ONNX (60% size reduction)
  2. Serving Framework: Built FastAPI endpoints with async processing
  3. Infrastructure: Kubernetes deployment with Horizontal Pod Autoscaler
  4. Monitoring: Integrated Prometheus metrics and Grafana dashboards

Configuration:

# FastAPI serving with optimization
from fastapi import FastAPI
import onnxruntime as ort

app = FastAPI()
session = ort.InferenceSession("model.onnx")

@app.post("/predict")
async def predict(features: List[float]):
    input_tensor = np.array([features])
    outputs = session.run(None, {"input": input_tensor})
    return {"prediction": outputs[0].tolist()}

Performance Results: | Metric | Value | |--------|-------| | P99 Latency | 45ms | | Throughput | 2,500 RPS | | Availability | 99.99% | | Auto-scaling | 2-50 pods |

Example 2: Multi-Model Serving Platform

Scenario: Build a platform serving 50+ ML models for different prediction types.

Architecture Design:

  1. Model Registry: Central registry with versioning
  2. Router: Intelligent routing based on request type
  3. Resource Manager: Dynamic resource allocation per model
  4. Fallback System: Graceful degradation for unavailable models

Implementation:

  • Model loading/unloading based on request patterns
  • A/B testing framework for model comparisons
  • Cost optimization with model prioritization
  • Shadow mode testing for new models

Results:

  • 50+ models deployed with 99.9% uptime
  • 40% reduction in infrastructure costs
  • Zero downtime during model updates
  • 95% cache hit rate for frequent requests

Example 3: Edge Deployment for Mobile Devices

Scenario: Deploy image classification model to iOS and Android apps.

Edge Optimization:

  1. Model Compression: Quantized to INT8 (4x size reduction)
  2. Runtime Selection: CoreML for iOS, TFLite for Android
  3. On-Device Caching: Intelligent model caching and updates
  4. Privacy Compliance: All processing on-device

Performance Metrics: | Platform | Model Size | Inference Time | Accuracy | |----------|------------|----------------|----------| | Original | 25 MB | 150ms | 94.2% | | Optimized | 6 MB | 35ms | 93.8% |

Results:

  • 80% reduction in app download size
  • 4x faster inference on device
  • Offline capability with local inference
  • GDPR compliant (no data leaves device)

Best Practices

Model Optimization

  • Quantization: Start with FP16, move to INT8 for edge
  • Pruning: Remove unnecessary weights for efficiency
  • Distillation: Transfer knowledge to smaller models
  • ONNX Export: Standard format for cross-platform deployment
  • Benchmarking: Always test on target hardware

Production Serving

  • Health Checks: Implement /health and /ready endpoints
  • Graceful Degradation: Fallback to simpler models or heuristics
  • Circuit Breakers: Prevent cascade failures
  • Rate Limiting: Protect against abuse and overuse
  • Caching: Cache predictions for identical inputs

Monitoring and Observability

  • Latency Tracking: Monitor P50, P95, P99 latencies
  • Error Rates: Track failures and error types
  • Prediction Distribution: Alert on distribution shifts
  • Resource Usage: CPU, GPU, memory monitoring
  • Business Metrics: Track model impact on KPIs

Security and Compliance

  • Model Security: Protect model weights and artifacts
  • Input Validation: Sanitize all prediction inputs
  • Output Filtering: Prevent sensitive data exposure
  • Audit Logging: Log all prediction requests
  • Compliance: Meet industry regulations (HIPAA, GDPR)

Anti-Patterns

Model Deployment Anti-Patterns

  • Manual Deployment: Deploying models without automation - implement CI/CD for models
  • No Versioning: Replacing models without tracking versions - maintain model version history
  • Hotfix Culture: Making urgent model changes without testing - require validation before deployment
  • Black Box Deployment: Deploying models without explainability - implement model interpretability

Performance Anti-Patterns

  • No Baselines: Deploying without performance benchmarks - establish performance baselines
  • Over-Optimization: Tuning beyond practical benefit - focus on customer-impacting metrics
  • Ignore Latency: Focusing only on accuracy, ignoring latency - optimize for real-world use cases
  • Resource Waste: Over-provisioning infrastructure - right-size resources based on actual load

Monitoring Anti-Patterns

  • Silent Failures: Models failing without detection - implement comprehensive health checks
  • Metric Overload: Monitoring too many metrics - focus on actionable metrics
  • Data Drift Blindness: Not detecting model degradation - monitor input data distribution
  • Alert Fatigue: Too many alerts causing ignored warnings - tune alert thresholds

Scalability Anti-Patterns

  • No Load Testing: Deploying without performance testing - test with production-like traffic
  • Single Point of Failure: No redundancy in serving infrastructure - implement failover
  • No Autoscaling: Manual capacity management - implement automatic scaling
  • Stateful Design: Inference that requires state - design stateless inference

Output Format

This skill delivers:

  • Complete model serving infrastructure (Docker, Kubernetes configs)
  • Production deployment pipelines and CI/CD workflows
  • Real-time and batch prediction APIs
  • Model optimization artifacts and configurations
  • Auto-scaling policies and infrastructure as code
  • Monitoring dashboards and alert configurations
  • Performance benchmarks and load test reports

All outputs include:

  • Detailed architecture documentation
  • Deployment scripts and configurations
  • Performance metrics and SLA validations
  • Security hardening guidelines
  • Operational runbooks and troubleshooting guides
  • Cost analysis and optimization recommendations