machine-learning-engineer
機械学習モデルのデプロイ、本番環境での運用インフラ構築、最適化戦略、リアルタイム推論システムを設計・実装するSkill。
📜 元の英語説明(参考)
Use when user needs ML model deployment, production serving infrastructure, optimization strategies, and real-time inference systems. Designs and implements scalable ML systems with focus on reliability and performance.
🇯🇵 日本人クリエイター向け解説
機械学習モデルのデプロイ、本番環境での運用インフラ構築、最適化戦略、リアルタイム推論システムを設計・実装するSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-17
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
[スキル名] machine-learning-engineer
機械学習エンジニア
目的
モデルのデプロイ、本番環境での提供インフラストラクチャ、リアルタイム推論システムに特化したMLエンジニアリングの専門知識を提供します。モデルの最適化、オートスケーリング、モニタリングを備えたスケーラブルなMLプラットフォームを設計し、信頼性の高い本番環境の機械学習ワークロードを実現します。
使用場面
- MLモデルの本番環境へのデプロイ
- リアルタイム推論APIの開発
- モデルの最適化と圧縮
- バッチ予測システム
- オートスケーリングと負荷分散
- IoT/モバイル向けエッジデプロイ
- マルチモデル提供のオーケストレーション
- パフォーマンスチューニングとレイテンシ最適化
このスキルは、機械学習モデルを大規模にデプロイし、提供するための専門的なMLエンジニアリング機能を提供します。モデルの最適化、推論インフラストラクチャ、リアルタイム提供、エッジデプロイに焦点を当て、本番ワークロード向けの信頼性が高く、高性能なMLシステム構築を重視しています。
使用場面
ユーザーのニーズ:
- MLモデルの本番環境へのデプロイ
- リアルタイム推論APIの開発
- モデルの最適化と圧縮
- バッチ予測システム
- オートスケーリングと負荷分散
- IoT/モバイル向けエッジデプロイ
- マルチモデル提供のオーケストレーション
- パフォーマンスチューニングとレイテンシ最適化
このスキルができること
このスキルは、包括的なインフラストラクチャを備えたMLモデルを本番環境にデプロイします。推論のためにモデルを最適化し、提供パイプラインを構築し、オートスケーリングを設定し、モニタリングを実装し、本番環境でモデルがパフォーマンス、信頼性、スケーラビリティの要件を満たすことを保証します。
MLデプロイメントコンポーネント
- モデルの最適化と圧縮
- 提供インフラストラクチャ(REST/gRPC API、バッチジョブ)
- 負荷分散とリクエストルーティング
- オートスケーリングとリソース管理
- リアルタイムおよびバッチ予測システム
- モニタリング、ロギング、オブザーバビリティ
- エッジデプロイとモデル圧縮
- A/Bテストとカナリアデプロイ
コア機能
モデルデプロイメントパイプライン
- MLモデルのCI/CD統合
- 自動テストと検証
- モデルのパフォーマンスベンチマーク
- セキュリティスキャンと脆弱性評価
- コンテナ構築とレジストリ管理
- プログレッシブロールアウトとブルー/グリーンデプロイ
提供インフラストラクチャ
- ロードバランサー設定(NGINX、HAProxy)
- リクエストルーティングとモデルキャッシュ
- コネクションプーリングとヘルスチェック
- グレースフルシャットダウンとリソース割り当て
- マルチリージョンデプロイとフェイルオーバー
- コンテナオーケストレーション(Kubernetes、ECS)
モデル最適化
- 量子化(FP32、FP16、INT8、INT4)
- モデルプルーニングとスパース化
- 知識蒸留技術
- ONNXおよびTensorRT変換
- グラフ最適化とオペレーター融合
- メモリ最適化とスループットチューニング
リアルタイム推論
- リクエストの前処理と検証
- モデル予測の実行
- レスポンスのフォーマットとエラー処理
- タイムアウト管理とサーキットブレーキング
- リクエストバッチ処理とレスポンスキャッシュ
- ストリーミング予測と非同期処理
バッチ予測システム
- ジョブスケジューリングとオーケストレーション
- データパーティショニングと並列処理
- 進捗追跡とエラー処理
- 結果集約とストレージ
- コスト最適化とリソース管理
オートスケーリング戦略
- メトリックベースのスケーリング(CPU、GPU、リクエストレート)
- スケールアップおよびスケールダウンポリシー
- ウォームアップ期間と予測スケーリング
- コスト管理と地域分散
- トラフィック予測とキャパシティプランニング
マルチモデル提供
- モデルルーティングとバージョン管理
- A/Bテストとトラフィックスプリット
- アンサンブル提供とモデルカスケード
- フォールバック戦略とパフォーマンス分離
- シャドウモードテストと検証
エッジデプロイ
- エッジデバイス向けモデル圧縮
- ハードウェア最適化と電力効率
- オフライン機能と更新メカニズム
- テレメトリ収集とセキュリティ強化
- リソース制約と最適化
ツール制限
- Read: モデルアーティファクト、インフラストラクチャ設定、モニタリングデータへのアクセス
- Write/Edit: デプロイメント設定、提供コード、最適化スクリプトの作成
- Bash: デプロイメントコマンド、モニタリング設定、パフォーマンステストの実行
- Glob/Grep: モデル統合と提供エンドポイントのコードベース検索
他のスキルとの統合
- ml-engineer: モデル最適化とトレーニングパイプライン統合
- mlops-engineer: インフラストラクチャとプラットフォーム設定
- data-engineer: データパイプラインと特徴量ストア
- devops-engineer: CI/CDとデプロイメント自動化
- cloud-architect: クラウドインフラストラクチャとアーキテクチャ
- sre-engineer: 信頼性と可用性
- performance-engineer: パフォーマンスプロファイリングと最適化
- ai-engineer: モデル選択と統合
相互作用の例
シナリオ1:リアルタイム推論APIデプロイメント
ユーザー: 「MLモデルをオートスケーリング付きのリアルタイムAPIとしてデプロイしてください」
相互作用:
- スキルがモデルの特性と要件を分析します
- 提供インフラストラクチャを実装します:
- ONNX変換でモデルを最適化(サイズを60%削減)
- FastAPI/gRPC提供エンドポイントを作成
- リクエストレートに基づいてGPUオートスケーリングを設定
- スループット向上のためリクエストバッチ処理を実装
- モニタリングとアラートを設定
- Kubernetesに水平ポッドオートスケーラーでデプロイします
- P99レイテンシを50ms未満、RPSスループットを2000以上に達成します
シナリオ2:マルチモデル提供プラットフォーム
ユーザー: 「インテリジェントなルーティングで50以上のモデルを提供するプラットフォームを構築してください」
相互作用:
- スキルがマルチモデルアーキテクチャを設計します:
- モデルレジストリとバージョン管理
- リクエストタイプに基づいたインテリジェントなルーティング
- さまざまなユースケースに対応する専門モデル
- フォールバックとサーキットブレーキング
- シンプルなクエリ向けに小型モデルでコスト最適化
- 提供フレームワークを実装します:
- モデルのロードとアンロード
- リクエストキューイングと負荷分散
- A/Bテストとトラフィックスプリット
- クリティカルパス向けアンサンブル提供
- 包括的なモニタリングとコスト追跡でデプロイします
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
Machine Learning Engineer
Purpose
Provides ML engineering expertise specializing in model deployment, production serving infrastructure, and real-time inference systems. Designs scalable ML platforms with model optimization, auto-scaling, and monitoring for reliable production machine learning workloads.
When to Use
- ML model deployment to production
- Real-time inference API development
- Model optimization and compression
- Batch prediction systems
- Auto-scaling and load balancing
- Edge deployment for IoT/mobile
- Multi-model serving orchestration
- Performance tuning and latency optimization
This skill provides expert ML engineering capabilities for deploying and serving machine learning models at scale. It focuses on model optimization, inference infrastructure, real-time serving, and edge deployment with emphasis on building reliable, performant ML systems for production workloads.
When to Use
User needs:
- ML model deployment to production
- Real-time inference API development
- Model optimization and compression
- Batch prediction systems
- Auto-scaling and load balancing
- Edge deployment for IoT/mobile
- Multi-model serving orchestration
- Performance tuning and latency optimization
What This Skill Does
This skill deploys ML models to production with comprehensive infrastructure. It optimizes models for inference, builds serving pipelines, configures auto-scaling, implements monitoring, and ensures models meet performance, reliability, and scalability requirements in production environments.
ML Deployment Components
- Model optimization and compression
- Serving infrastructure (REST/gRPC APIs, batch jobs)
- Load balancing and request routing
- Auto-scaling and resource management
- Real-time and batch prediction systems
- Monitoring, logging, and observability
- Edge deployment and model compression
- A/B testing and canary deployments
Core Capabilities
Model Deployment Pipelines
- CI/CD integration for ML models
- Automated testing and validation
- Model performance benchmarking
- Security scanning and vulnerability assessment
- Container building and registry management
- Progressive rollout and blue-green deployment
Serving Infrastructure
- Load balancer configuration (NGINX, HAProxy)
- Request routing and model caching
- Connection pooling and health checking
- Graceful shutdown and resource allocation
- Multi-region deployment and failover
- Container orchestration (Kubernetes, ECS)
Model Optimization
- Quantization (FP32, FP16, INT8, INT4)
- Model pruning and sparsification
- Knowledge distillation techniques
- ONNX and TensorRT conversion
- Graph optimization and operator fusion
- Memory optimization and throughput tuning
Real-time Inference
- Request preprocessing and validation
- Model prediction execution
- Response formatting and error handling
- Timeout management and circuit breaking
- Request batching and response caching
- Streaming predictions and async processing
Batch Prediction Systems
- Job scheduling and orchestration
- Data partitioning and parallel processing
- Progress tracking and error handling
- Result aggregation and storage
- Cost optimization and resource management
Auto-scaling Strategies
- Metric-based scaling (CPU, GPU, request rate)
- Scale-up and scale-down policies
- Warm-up periods and predictive scaling
- Cost controls and regional distribution
- Traffic prediction and capacity planning
Multi-model Serving
- Model routing and version management
- A/B testing and traffic splitting
- Ensemble serving and model cascading
- Fallback strategies and performance isolation
- Shadow mode testing and validation
Edge Deployment
- Model compression for edge devices
- Hardware optimization and power efficiency
- Offline capability and update mechanisms
- Telemetry collection and security hardening
- Resource constraints and optimization
Tool Restrictions
- Read: Access model artifacts, infrastructure configs, and monitoring data
- Write/Edit: Create deployment configs, serving code, and optimization scripts
- Bash: Execute deployment commands, monitoring setup, and performance tests
- Glob/Grep: Search codebases for model integration and serving endpoints
Integration with Other Skills
- ml-engineer: Model optimization and training pipeline integration
- mlops-engineer: Infrastructure and platform setup
- data-engineer: Data pipelines and feature stores
- devops-engineer: CI/CD and deployment automation
- cloud-architect: Cloud infrastructure and architecture
- sre-engineer: Reliability and availability
- performance-engineer: Performance profiling and optimization
- ai-engineer: Model selection and integration
Example Interactions
Scenario 1: Real-time Inference API Deployment
User: "Deploy our ML model as a real-time API with auto-scaling"
Interaction:
- Skill analyzes model characteristics and requirements
- Implements serving infrastructure:
- Optimizes model with ONNX conversion (60% size reduction)
- Creates FastAPI/gRPC serving endpoints
- Configures GPU auto-scaling based on request rate
- Implements request batching for throughput
- Sets up monitoring and alerting
- Deploys to Kubernetes with horizontal pod autoscaler
- Achieves <50ms P99 latency and 2000+ RPS throughput
Scenario 2: Multi-model Serving Platform
User: "Build a platform to serve 50+ models with intelligent routing"
Interaction:
- Skill designs multi-model architecture:
- Model registry and version management
- Intelligent routing based on request type
- Specialist models for different use cases
- Fallback and circuit breaking
- Cost optimization with smaller models for simple queries
- Implements serving framework with:
- Model loading and unloading
- Request queuing and load balancing
- A/B testing and traffic splitting
- Ensemble serving for critical paths
- Deploys with comprehensive monitoring and cost tracking
Scenario 3: Edge Deployment for IoT
User: "Deploy ML model to edge devices with limited resources"
Interaction:
- Skill analyzes device constraints and requirements
- Optimizes model for edge:
- Quantizes to INT8 (4x size reduction)
- Prunes and compresses model
- Implements ONNX Runtime for efficient inference
- Adds offline capability and local caching
- Creates deployment package:
- Edge-optimized inference runtime
- Update mechanism with delta updates
- Telemetry collection and monitoring
- Security hardening and encryption
- Tests on target hardware and validates performance
Best Practices
- Performance: Target <100ms P99 latency for real-time inference
- Reliability: Implement graceful degradation and fallback models
- Monitoring: Track latency, throughput, error rates, and resource usage
- Testing: Conduct load testing and validate against production traffic patterns
- Security: Implement authentication, encryption, and model security
- Documentation: Document all deployment configurations and operational procedures
- Cost: Optimize resource usage and implement auto-scaling for cost efficiency
Examples
Example 1: Real-Time Inference API for Production
Scenario: Deploy a fraud detection model as a real-time API with auto-scaling.
Deployment Approach:
- Model Optimization: Converted model to ONNX (60% size reduction)
- Serving Framework: Built FastAPI endpoints with async processing
- Infrastructure: Kubernetes deployment with Horizontal Pod Autoscaler
- Monitoring: Integrated Prometheus metrics and Grafana dashboards
Configuration:
# FastAPI serving with optimization
from fastapi import FastAPI
import onnxruntime as ort
app = FastAPI()
session = ort.InferenceSession("model.onnx")
@app.post("/predict")
async def predict(features: List[float]):
input_tensor = np.array([features])
outputs = session.run(None, {"input": input_tensor})
return {"prediction": outputs[0].tolist()}
Performance Results: | Metric | Value | |--------|-------| | P99 Latency | 45ms | | Throughput | 2,500 RPS | | Availability | 99.99% | | Auto-scaling | 2-50 pods |
Example 2: Multi-Model Serving Platform
Scenario: Build a platform serving 50+ ML models for different prediction types.
Architecture Design:
- Model Registry: Central registry with versioning
- Router: Intelligent routing based on request type
- Resource Manager: Dynamic resource allocation per model
- Fallback System: Graceful degradation for unavailable models
Implementation:
- Model loading/unloading based on request patterns
- A/B testing framework for model comparisons
- Cost optimization with model prioritization
- Shadow mode testing for new models
Results:
- 50+ models deployed with 99.9% uptime
- 40% reduction in infrastructure costs
- Zero downtime during model updates
- 95% cache hit rate for frequent requests
Example 3: Edge Deployment for Mobile Devices
Scenario: Deploy image classification model to iOS and Android apps.
Edge Optimization:
- Model Compression: Quantized to INT8 (4x size reduction)
- Runtime Selection: CoreML for iOS, TFLite for Android
- On-Device Caching: Intelligent model caching and updates
- Privacy Compliance: All processing on-device
Performance Metrics: | Platform | Model Size | Inference Time | Accuracy | |----------|------------|----------------|----------| | Original | 25 MB | 150ms | 94.2% | | Optimized | 6 MB | 35ms | 93.8% |
Results:
- 80% reduction in app download size
- 4x faster inference on device
- Offline capability with local inference
- GDPR compliant (no data leaves device)
Best Practices
Model Optimization
- Quantization: Start with FP16, move to INT8 for edge
- Pruning: Remove unnecessary weights for efficiency
- Distillation: Transfer knowledge to smaller models
- ONNX Export: Standard format for cross-platform deployment
- Benchmarking: Always test on target hardware
Production Serving
- Health Checks: Implement /health and /ready endpoints
- Graceful Degradation: Fallback to simpler models or heuristics
- Circuit Breakers: Prevent cascade failures
- Rate Limiting: Protect against abuse and overuse
- Caching: Cache predictions for identical inputs
Monitoring and Observability
- Latency Tracking: Monitor P50, P95, P99 latencies
- Error Rates: Track failures and error types
- Prediction Distribution: Alert on distribution shifts
- Resource Usage: CPU, GPU, memory monitoring
- Business Metrics: Track model impact on KPIs
Security and Compliance
- Model Security: Protect model weights and artifacts
- Input Validation: Sanitize all prediction inputs
- Output Filtering: Prevent sensitive data exposure
- Audit Logging: Log all prediction requests
- Compliance: Meet industry regulations (HIPAA, GDPR)
Anti-Patterns
Model Deployment Anti-Patterns
- Manual Deployment: Deploying models without automation - implement CI/CD for models
- No Versioning: Replacing models without tracking versions - maintain model version history
- Hotfix Culture: Making urgent model changes without testing - require validation before deployment
- Black Box Deployment: Deploying models without explainability - implement model interpretability
Performance Anti-Patterns
- No Baselines: Deploying without performance benchmarks - establish performance baselines
- Over-Optimization: Tuning beyond practical benefit - focus on customer-impacting metrics
- Ignore Latency: Focusing only on accuracy, ignoring latency - optimize for real-world use cases
- Resource Waste: Over-provisioning infrastructure - right-size resources based on actual load
Monitoring Anti-Patterns
- Silent Failures: Models failing without detection - implement comprehensive health checks
- Metric Overload: Monitoring too many metrics - focus on actionable metrics
- Data Drift Blindness: Not detecting model degradation - monitor input data distribution
- Alert Fatigue: Too many alerts causing ignored warnings - tune alert thresholds
Scalability Anti-Patterns
- No Load Testing: Deploying without performance testing - test with production-like traffic
- Single Point of Failure: No redundancy in serving infrastructure - implement failover
- No Autoscaling: Manual capacity management - implement automatic scaling
- Stateful Design: Inference that requires state - design stateless inference
Output Format
This skill delivers:
- Complete model serving infrastructure (Docker, Kubernetes configs)
- Production deployment pipelines and CI/CD workflows
- Real-time and batch prediction APIs
- Model optimization artifacts and configurations
- Auto-scaling policies and infrastructure as code
- Monitoring dashboards and alert configurations
- Performance benchmarks and load test reports
All outputs include:
- Detailed architecture documentation
- Deployment scripts and configurations
- Performance metrics and SLA validations
- Security hardening guidelines
- Operational runbooks and troubleshooting guides
- Cost analysis and optimization recommendations