jpskill.com
💼 ビジネス コミュニティ

monitoring-observability

システム監視やログ分析、分散トレーシングなど、サービスの安定稼守と性能向上に必要な観測性パターンとベストプラクティスを提案するSkill。

📜 元の英語説明(参考)

Observability patterns and monitoring best practices. Use when user asks to "set up monitoring", "structured logging", "distributed tracing", "metrics collection", "observability", "APM setup", "log aggregation", "metrics dashboards", "error tracking", "performance monitoring", or mentions observability stack and monitoring strategy.

🇯🇵 日本人クリエイター向け解説

一言でいうと

システム監視やログ分析、分散トレーシングなど、サービスの安定稼守と性能向上に必要な観測性パターンとベストプラクティスを提案するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

監視と可観測性

本番システム向けの包括的な監視、可観測性、およびアラート戦略です。

可観測性の3本柱

メトリクス

  • 定量的測定値(カウンター、ゲージ、ヒストグラム)
  • 時系列データ(Prometheus、InfluxDB、Datadog)
  • 例:リクエストレイテンシー、エラー率、CPU使用率

ログ

  • 構造化されたイベントレコード
  • 検索およびフィルタリング可能
  • 例:アプリケーションログ、アクセスログ、エラーログ

トレース

  • システムを介したリクエストフロー
  • 分散トレーシング(Jaeger、Zipkin)
  • 依存関係とボトルネックを表示

実装アプローチ

メトリクス収集

from prometheus_client import Counter, Histogram

request_count = Counter('http_requests_total', 'Total requests')
latency = Histogram('http_request_duration_seconds', 'Request latency')

@app.route('/api/users')
def get_users():
    request_count.inc()
    with latency.time():
        return fetch_users()

構造化ロギング

{
  "timestamp": "2025-02-07T10:30:00Z",
  "level": "ERROR",
  "service": "user-service",
  "request_id": "req_12345",
  "user_id": "user_789",
  "error_code": "DB_CONNECTION_FAILED",
  "message": "Failed to connect to database",
  "duration_ms": 1500
}

分散トレーシング

  • アプリケーションコードを計測します
  • サービス間でトレースIDを伝播させます
  • トレースを一元的に収集します(Jaeger、Zipkin)
  • サービス間の依存関係を可視化します

人気のツール

カテゴリ ツール
メトリクス Prometheus, Grafana, Datadog, New Relic
ロギング ELK Stack, Splunk, CloudWatch, Loki
トレーシング Jaeger, Zipkin, DataDog APM
APM New Relic, DataDog, Dynatrace

ベストプラクティス

  1. 構造化ロギング - コンテキストを含むJSON形式
  2. コンテキストデータ - リクエストID、ユーザーID、サービス名
  3. サンプリング - コスト削減のため、すべてをログに記録しない
  4. 保持ポリシー - コストと保持要件のバランス
  5. アラート - エラー率、レイテンシー、リソース使用量について
  6. ダッシュボード - 主要なメトリクスを可視化
  7. ランブック - アラートへの対応方法を文書化

監視すべき主要なメトリクス

  • リクエストレートとレイテンシー(p50、p95、p99)
  • エラー率とエラーの種類
  • リソース使用量(CPU、メモリ、ディスク)
  • データベースクエリのパフォーマンス
  • キャッシュヒット率
  • キューの深さ
  • ユーザーセッション数

参考資料

  • Prometheus Monitoring Best Practices
  • Observability Engineering (O'Reilly)
  • Google SRE Book
  • ELK Stack Documentation
  • OpenTelemetry Project
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Monitoring & Observability

Comprehensive monitoring, observability, and alerting strategies for production systems.

Three Pillars of Observability

Metrics

  • Quantitative measurements (counters, gauges, histograms)
  • Time-series data (Prometheus, InfluxDB, Datadog)
  • Examples: request latency, error rate, CPU usage

Logs

  • Structured event records
  • Searchable and filterable
  • Examples: application logs, access logs, error logs

Traces

  • Request flow through system
  • Distributed tracing (Jaeger, Zipkin)
  • Shows dependencies and bottlenecks

Implementation Approaches

Metrics Collection

from prometheus_client import Counter, Histogram

request_count = Counter('http_requests_total', 'Total requests')
latency = Histogram('http_request_duration_seconds', 'Request latency')

@app.route('/api/users')
def get_users():
    request_count.inc()
    with latency.time():
        return fetch_users()

Structured Logging

{
  "timestamp": "2025-02-07T10:30:00Z",
  "level": "ERROR",
  "service": "user-service",
  "request_id": "req_12345",
  "user_id": "user_789",
  "error_code": "DB_CONNECTION_FAILED",
  "message": "Failed to connect to database",
  "duration_ms": 1500
}

Distributed Tracing

  • Instrument application code
  • Propagate trace IDs across services
  • Collect traces centrally (Jaeger, Zipkin)
  • Visualize service dependencies

Popular Tools

Category Tools
Metrics Prometheus, Grafana, Datadog, New Relic
Logging ELK Stack, Splunk, CloudWatch, Loki
Tracing Jaeger, Zipkin, DataDog APM
APM New Relic, DataDog, Dynatrace

Best Practices

  1. Structured Logging - JSON format with context
  2. Contextual Data - Request IDs, user IDs, service names
  3. Sampling - Don't log everything to save costs
  4. Retention Policy - Balance cost and retention needs
  5. Alerts - On error rates, latency, resource usage
  6. Dashboards - Visualize key metrics
  7. Runbooks - Document how to respond to alerts

Key Metrics to Monitor

  • Request rate and latency (p50, p95, p99)
  • Error rate and error types
  • Resource usage (CPU, memory, disk)
  • Database query performance
  • Cache hit rates
  • Queue depths
  • User session counts

References

  • Prometheus Monitoring Best Practices
  • Observability Engineering (O'Reilly)
  • Google SRE Book
  • ELK Stack Documentation
  • OpenTelemetry Project