年中アイス

いろいろつらつら

monitoring casual #6 に参加してきました。

6/12(木)に開催されたmonitoring casual #6 に参加してきました。

最近、インフラというか運用含め見ることになり、この辺りの実際は情報としては出てきづらいのかなーと思っていて、ちょうど参加人数に入ることもできたのがよかったです。作るより、監視運用するまで行くことが(当たり前ですが)情報は少ないので。

14人で、3時間強となかなかの長時間でしたが、いろいろ話を聞けてよかったです。LTとは何なのか。それぞれの内容はスライドが公開されていたり、Togetterにツイートがまとまってたので、そちらを見ていただければと。
Monitoring Casual Talks #6 #monitoringcasual - Togetterまとめ

LT発表内容

私の発表は、Icinga+OpsGenie+パトライトでやってますってぐらいの話でした。なんかアイシンガの綴り間違えてた気がする。
OpsGenieは、専用アプリでのプッシュ通知受け取り、電話、SMS、メールなどが可能。電話のコールのスケジュール(誰がいつ担当)だったり、監視サーバの監視(Heartbeatして、それが一定時間切れると通知)に使っています。ローカライズされていないのと、あまりUIがモダンでない点が難点です。
A mobile IT management service providing rich alerts

パトライトは確かこれ。Webサーバが内蔵されていて、特定のパケット送ると、音とランプ点灯、点滅が行えます。
製品情報|ネットワーク監視表示灯 NHL・NHP・NHS 型

他、私が感じたところを何点か

障害対応の頻度

実際、深夜とか緊急の対応ってどのぐらいの頻度ですかという話が出て、短い方で1週間に1回、あとは1ヶ月〜数ヶ月に1回ぐらいということでした。スピード感を持つ(品質よりリリースを優先する)と、この頻度はもちろんあがりやすく、そこはビジネスの進め方とのバランスなんだなーと。

通知の方法

通知の内容が、何をさしているかわからないというところから、その障害単一の情報から、過去と比較してどうなのかといった、障害対応する人に優しい情報を付与できるようにするのは大事だと思いました。
また、APIのついている電球キット?があるらしく、それで視覚的に障害発生などを伝えると行った試みをされている方も。うちもパトランプを導入しているので、障害時(オフィス内は)全員が認識できて、各担当すぐにチェックします。

通知方法は、私がOpsGenieの話をしたのもありましたが、プッシュ通知なら、im-kayacがありますよーってことだったので、notice/warnあたりはこれでもよさそうでした。Twilioも入れようとしている話も聞けたので、うちも再検討しようかなと。

im.kayac.com
Twilio Cloud Communications - APIs for Voice, VoIP and Text Messaging

自前か外部サービスか

監視やメトリクスの可視化を行うサービスを自分たちで構築(または実装)するか、外部のサービスを利用するか。
感覚としては、監視の監視とか考えたくないので、外部サービスを使いたいが、お金はシビア。また、人がいればスクラッチで細かく手を入れて作るのもあるが、トータルコストだとやはり外部サービスかもといったところでした。外部サービスつぶれないか問題もありました。この辺り、実際に運用監視とかされている方の意見なので、結局どこで担保するのかといった視点が強かった印象です。

うちもメトリクスの可視化にElasticsearch+KibanaのElasticsearchは3台クラスタで構成されていたりするので、運用はそれなりに手間と費用がかかっちゃってます。datadogあたり、検証しようかなと思いました。
Cloud Monitoring as a Service | Datadog
datadogの他に、datadogsってのもあるんですね。。。
DataDogs Professional Data Consultancy - DataDogs

なぜそのプロダクト、サービスを選択したのか

これも話題があがって、確かに気になるところだなと。流れとしては、2,3個選定してそこからですが、外部サービスだと、結局は金額になりがちとのこと。あとは、使い慣れていたり。私は前任から引き継いだIcingaなので、改めてここは再考してみる価値はあるかなと気づきました。blue-green deployやってるので、ホストの入れ替えを静的にやるのはしんどくなってきたのもあります。

外部サービスのリスト非常にありがたいです。ありがとうございます。
http://www.canopsis.org/2013/02/monitoring-saas/

最後に

何でもそうですが、目的は似たようなところに向かう中で、それぞれやっていることを知れるというのはよかったです。あと久しぶりに外部で話す機会を持てましたが、だいぶプレゼンなまってたのを改善しようと思いました。