🛠️ 開発・MCP コミュニティ

observability-monitoring

システムの状況を把握するために、ログ、指標、分散トレーシングといった情報を構造的に収集・分析し、異常があればアラートを出す仕組みを構築・運用するSkill。

📜 元の英語説明(参考)

Structured logging, metrics, distributed tracing, and alerting strategies

🇯🇵 日本人クリエイター向け解説

一言でいうと

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o observability-monitoring.zip https://jpskill.com/download/17248.zip && unzip -o observability-monitoring.zip && rm observability-monitoring.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/17248.zip -OutFile "$d\observability-monitoring.zip"; Expand-Archive "$d\observability-monitoring.zip" -DestinationPath $d -Force; ri "$d\observability-monitoring.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して observability-monitoring.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → observability-monitoring フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-18
取得日時: 2026-05-18
同梱ファイル: 1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Observability & Monitoring Skill

構造化ロギング、メトリクス、分散トレーシング、およびアラートを含む、オブザーバビリティを実装するための包括的なフレームワークです。

使用する場面

アプリケーションの監視を設定する
構造化ロギングを実装する
メトリクスとダッシュボードを追加する
分散トレーシングを構成する
アラートルールを作成する
本番環境の問題をデバッグする

オブザーバビリティの3つの柱

┌─────────────────┬─────────────────┬─────────────────┐
│     LOGS        │     METRICS     │     TRACES      │
├─────────────────┼─────────────────┼─────────────────┤
│ いつ、何が       │ システムは       │ リクエストは     │
│ 起こったか       │ 時間経過とともに   │ どのように       │
│                 │ どのように       │ サービスを       │
│                 │ 動作しているか   │ 流れるか         │
└─────────────────┴─────────────────┴─────────────────┘

構造化ロギング

ログレベル

Level	ユースケース
ERROR	処理されない例外、失敗した操作
WARN	非推奨の API、リトライの試み
INFO	ビジネスイベント、成功した操作
DEBUG	開発時のトラブルシューティング

ベストプラクティス

// Good: コンテキスト付きの構造化
logger.info('User action completed', {
  action: 'purchase',
  userId: user.id,
  orderId: order.id,
  duration_ms: 150
});

// Bad: 文字列補間
logger.info(`User ${user.id} completed purchase`);

Winston のセットアップとリクエストミドルウェアについては、templates/structured-logging.ts を参照してください。

メトリクスの収集

RED メソッド (Rate, Errors, Duration)

すべてのサービスに不可欠なメトリクス:

Rate - 1秒あたりのリクエスト数
Errors - 1秒あたりの失敗したリクエスト数
Duration - リクエストのレイテンシ分布

Prometheus Buckets

// HTTP リクエストのレイテンシ
buckets: [0.01, 0.05, 0.1, 0.5, 1, 2, 5]

// データベースクエリのレイテンシ
buckets: [0.001, 0.01, 0.05, 0.1, 0.5, 1]

完全なメトリクス構成については、templates/prometheus-metrics.ts を参照してください。

分散トレーシング

OpenTelemetry のセットアップ

一般的なライブラリを自動的にインストルメント:

Express/HTTP
PostgreSQL
Redis

手動スパン

tracer.startActiveSpan('processOrder', async (span) => {
  span.setAttribute('order.id', orderId);
  // ... 処理
  span.end();
});

完全なセットアップについては、templates/opentelemetry-tracing.ts を参照してください。

アラート戦略

重要度レベル

Level	対応時間	例
Critical (P1)	15分未満	サービス停止、データ損失
High (P2)	1時間未満	主要な機能の破損
Medium (P3)	4時間未満	エラー率の増加
Low (P4)	翌日	警告

主要なアラート

Alert	条件	重要度
ServiceDown	`up == 0` が 1分間続く	Critical
HighErrorRate	5xx > 5% が 5分間続く	Critical
HighLatency	p95 > 2s が 5分間続く	High
LowCacheHitRate	< 70% が 10分間続く	Medium

Prometheus のアラートルールについては、templates/alerting-rules.yml を参照してください。

ヘルスチェック

Kubernetes Probes

Probe	目的	エンドポイント
Liveness	アプリは実行中か？	`/health`
Readiness	トラフィックを受け入れる準備はできているか？	`/ready`
Startup	起動は完了したか？	`/startup`

Readiness レスポンス

{
  "status": "healthy|degraded|unhealthy",
  "checks": {
    "database": { "status": "pass", "latency_ms": 5 },
    "redis": { "status": "pass", "latency_ms": 2 }
  },
  "version": "1.0.0",
  "uptime": 3600
}

実装については、templates/health-checks.ts を参照してください。

オブザーバビリティチェックリスト

実装

[ ] JSON 構造化ロギング
[ ] リクエスト相関 ID
[ ] RED メトリクス (Rate, Errors, Duration)
[ ] ビジネスメトリクス
[ ] 分散トレーシング
[ ] ヘルスチェックエンドポイント

アラート

[ ] サービス停止アラート
[ ] エラー率の閾値
[ ] レイテンシの閾値
[ ] リソース使用率のアラート

ダッシュボード

[ ] サービス概要
[ ] エラー分析
[ ] パフォーマンスメトリクス

拡張思考トリガー

Opus 4.5 の拡張思考を以下に使用します:

インシデント調査 - ログ、メトリクス、トレースの関連付け
アラートの調整 - ノイズの削減、実際の問題の捕捉
アーキテクチャの決定 - 監視ソリューションの選択
パフォーマンスのデバッグ - サービス間のレイテンシ分析

テンプレートリファレンス

Template	目的
`structured-logging.ts`	リクエストミドルウェアを備えた Winston ロガー
`prometheus-metrics.ts`	ミドルウェアを備えた HTTP、DB、キャッシュメトリクス
`opentelemetry-tracing.ts`	分散トレーシングのセットアップ
`alerting-rules.yml`	Prometheus のアラートルール
`health-checks.ts`	Liveness、readiness、startup プローブ

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Observability & Monitoring Skill

Comprehensive frameworks for implementing observability including structured logging, metrics, distributed tracing, and alerting.

When to Use

Setting up application monitoring
Implementing structured logging
Adding metrics and dashboards
Configuring distributed tracing
Creating alerting rules
Debugging production issues

Three Pillars of Observability

┌─────────────────┬─────────────────┬─────────────────┐
│     LOGS        │     METRICS     │     TRACES      │
├─────────────────┼─────────────────┼─────────────────┤
│ What happened   │ How is system   │ How do requests │
│ at specific     │ performing      │ flow through    │
│ point in time   │ over time       │ services        │
└─────────────────┴─────────────────┴─────────────────┘

Structured Logging

Log Levels

Level	Use Case
ERROR	Unhandled exceptions, failed operations
WARN	Deprecated API, retry attempts
INFO	Business events, successful operations
DEBUG	Development troubleshooting

Best Practice

// Good: Structured with context
logger.info('User action completed', {
  action: 'purchase',
  userId: user.id,
  orderId: order.id,
  duration_ms: 150
});

// Bad: String interpolation
logger.info(`User ${user.id} completed purchase`);

See templates/structured-logging.ts for Winston setup and request middleware

Metrics Collection

RED Method (Rate, Errors, Duration)

Essential metrics for any service:

Rate - Requests per second
Errors - Failed requests per second
Duration - Request latency distribution

Prometheus Buckets

// HTTP request latency
buckets: [0.01, 0.05, 0.1, 0.5, 1, 2, 5]

// Database query latency
buckets: [0.001, 0.01, 0.05, 0.1, 0.5, 1]

See templates/prometheus-metrics.ts for full metrics configuration

Distributed Tracing

OpenTelemetry Setup

Auto-instrument common libraries:

Express/HTTP
PostgreSQL
Redis

Manual Spans

tracer.startActiveSpan('processOrder', async (span) => {
  span.setAttribute('order.id', orderId);
  // ... work
  span.end();
});

See templates/opentelemetry-tracing.ts for full setup

Alerting Strategy

Severity Levels

Level	Response Time	Examples
Critical (P1)	< 15 min	Service down, data loss
High (P2)	< 1 hour	Major feature broken
Medium (P3)	< 4 hours	Increased error rate
Low (P4)	Next day	Warnings

Key Alerts

Alert	Condition	Severity
ServiceDown	`up == 0` for 1m	Critical
HighErrorRate	5xx > 5% for 5m	Critical
HighLatency	p95 > 2s for 5m	High
LowCacheHitRate	< 70% for 10m	Medium

See templates/alerting-rules.yml for Prometheus alerting rules

Health Checks

Kubernetes Probes

Probe	Purpose	Endpoint
Liveness	Is app running?	`/health`
Readiness	Ready for traffic?	`/ready`
Startup	Finished starting?	`/startup`

Readiness Response

{
  "status": "healthy|degraded|unhealthy",
  "checks": {
    "database": { "status": "pass", "latency_ms": 5 },
    "redis": { "status": "pass", "latency_ms": 2 }
  },
  "version": "1.0.0",
  "uptime": 3600
}

See templates/health-checks.ts for implementation

Observability Checklist

Implementation

[ ] JSON structured logging
[ ] Request correlation IDs
[ ] RED metrics (Rate, Errors, Duration)
[ ] Business metrics
[ ] Distributed tracing
[ ] Health check endpoints

Alerting

[ ] Service outage alerts
[ ] Error rate thresholds
[ ] Latency thresholds
[ ] Resource utilization alerts

Dashboards

[ ] Service overview
[ ] Error analysis
[ ] Performance metrics

Extended Thinking Triggers

Use Opus 4.5 extended thinking for:

Incident investigation - Correlating logs, metrics, traces
Alert tuning - Reducing noise, catching real issues
Architecture decisions - Choosing monitoring solutions
Performance debugging - Cross-service latency analysis

Templates Reference

Template	Purpose
`structured-logging.ts`	Winston logger with request middleware
`prometheus-metrics.ts`	HTTP, DB, cache metrics with middleware
`opentelemetry-tracing.ts`	Distributed tracing setup
`alerting-rules.yml`	Prometheus alerting rules
`health-checks.ts`	Liveness, readiness, startup probes