Datadog は『総合監視の定番プラットフォーム』
Datadog は、インフラ監視・APM・ログ管理・セキュリティ・RUM を統合した監視プラットフォームです。守備範囲が広く、複数サービス・大規模システムの一元監視に強みがあります。本記事では、Datadog の活用とコスト最適化を編集部の視点で整理します。ツールの仕様・料金は変化するため、最新は公式情報をご確認ください。オブザーバビリティ実践ガイド もご参考に。
主要プロダクト
(1) Infrastructure Monitoring:サーバ・コンテナの監視。(2) APM:アプリケーションパフォーマンス。(3) Log Management:ログ集約・検索。(4) RUM:実ユーザー体験の計測。(5) Security Monitoring:脅威検知。Sentry活用ガイド もご参考に(比較)。
導入の基本
(1) Agent のインストール:ホスト・コンテナに。(2) インテグレーション:各種サービスとの連携。(3) APM トレーサーの設定:言語別ライブラリ。(4) ダッシュボード作成:見るべき指標を整理。(5) モニター(アラート)設定:閾値・異常検知。SREへの転身ガイド もご参考に。
ダッシュボード設計
(1) サービス概要:RED メトリクス。(2) インフラ状況:CPU・メモリ・ディスク。(3) ビジネス指標:業務 KPI も。(4) SLO ダッシュボード:目標達成度。(5) 役割別の整理:見る人に応じて。データアナリストの実務スキル もご参考に。
アラート設計
(1) 症状ベース:SLO 違反で通知。(2) 異常検知:機械学習ベースの検知。(3) 通知ルーティング:担当者へ自動。(4) 誤検知の削減:通知疲れを避ける。(5) エスカレーション:オンコール連動。エンジニアの燃え尽き予防 もご参考に。
コスト最適化(最重要)
(1) ホスト数の管理:課金の主因。(2) ログのインデックス制御:全ログをインデックスしない。(3) カスタムメトリクスの削減:高基数メトリクスに注意。(4) APM サンプリング:全件トレースしない。(5) 保持期間の調整:必要最小限。Datadog は便利な反面、設定を誤ると請求が急増するため、コスト管理が運用の要です。APIマネタイズ戦略 もご参考に(コスト構造の理解)。
Sentry・OSS との使い分け
(1) Datadog:総合監視・大規模・複数サービス。(2) Sentry:エラー+APM 特化・低コスト。(3) OSS(Grafana/Prometheus/Loki):セルフホストでコスト最適化。(4) 規模での選択:小規模は Sentry/OSS、大規模は Datadog。(5) 併用:エラーは Sentry、インフラは Datadog という構成も。オブザーバビリティ実践ガイド もご参考に。
失敗しがちなパターン
(1) コスト管理なし:請求が急増。(2) 高基数メトリクス乱用:コスト爆発。(3) 全ログインデックス:費用がかさむ。(4) アラート過多:通知疲れ。(5) ダッシュボードが散乱:見られない。対策は、(1)コスト監視、(2)メトリクス精査、(3)ログ制御、(4)SLOベース通知、(5)ダッシュボード整理、です。IT・Web業界の職種完全マップ もご活用ください。