『Datadog の良い使い方』を体系化する
Datadog は導入容易だが、適切に使わないと月額数十万円〜数百万円のコストになります。本記事では編集部の視点で、深掘りした使い方を公開情報をもとに整理します。Datadog 活用ガイド もご参考に。
コスト構造の理解
(1) Host 数:APM/Infra で課金。(2) Log Ingestion:GB 単位。(3) Custom Metrics:カーディナリティ別。(4) Synthetic:監視テスト数。(5) Real User Monitoring:MAU。主要コストは Logs と Custom Metrics(公開情報をもとに)。
コスト削減施策
(1) Log Indexing 削減:必要なものだけ。(2) Sampling:APM トレース。(3) Custom Metric の見直し。(4) Excluded Hosts:開発環境。(5) Reserved capacity:年間契約割引。FinOps 実践 もご参考に。
APM の高度設定
(1) Profiling:本番プロファイル。(2) Database Monitoring:SQL レベル。(3) Error Tracking:エラー集約。(4) Service Maps:依存可視化。(5) Watchdog:AI 異常検知。分散トレーシング もご参考に。
Custom Metrics の管理
(1) カーディナリティに注意:tag 値が多すぎると爆発。(2) 命名規約:service.action.metric。(3) histogram → distribution:percentile 正確化。(4) 定期見直し。(5) OpenTelemetry 統合。
SLO 運用
(1) SLO 定義:99.5% 等。(2) Error Budget計算。(3) Burn Rate アラート:早期検知。(4> ダッシュボード:チーム単位。(5) 定例レビュー。アラート設計 も合わせて。
RUM (Real User Monitoring)
(1) Web Vitals 自動取得。(2) Session Replay:UX 分析。(3) Error 追跡。(4) 地域別パフォーマンス。(5) 個人情報マスキング。Web Vitals 最適化 もご参考に。
Cloud Cost Management
(1) AWS/GCP/Azure 統合。(2) FOCUS 仕様対応。(3) タグベースの分析。(4) 予算アラート。(5) Datadog 自身のコストも追跡。k8s コスト最適化 もご参考に。
失敗しがちなパターン
(1) Log 全送信:コスト爆発。(2) Custom Metric カーディナリティ無視。(3) サンプリング未設定。(4) SLO 未定義。(5) RUM の個人情報。対策は、(1)Index 設定、(2)tag 制限、(3)Tail-based sampling、(4)SLO制定、(5)mask 設定、です。