[2020年7月] Google Cloud Certified – Professional Data Engineer日本語版(プロ認定):ロギング設計まとめ

どうも、すえきあおいです。ビッグデータ、AI、機械学習らへんでポイントになる、ロギングについてまとめました。

あ、私はProfessional Data Engineerの資格を取るため勉強中のへっぽこSEです。ちなみに試験は7/29。あと2日(!)です。

※これは予定投稿なので、記事を書いている時と公開日時にはタイムラグがあります

 

Cloud Loggingとは

Google Cloud と Amazon Web Services からのロギングデータとイベントの保存、検索、分析、モニタリング、アラート発信を行うプロダクト。Fluentdを基盤に作られている。

※Fluentd(フルエントディー):ログデータ収集管理ツール。

 

ログの種類は2つ

  • モニタリング対象サービスのログ:アプリが出すログ。Cloud Loging上では7日間(プレミアムなら30日間)保持される。
  • 監査ログ(Audit):管理アクティビティ、データアクセスのログ。Cloudプロジェクト内で誰が、何を、どこで、いつ行ったか調べられる。Cloud Loging上では400日間保存される。

 

エクスポート先は3つ

  • CloudStorage:JSONファイルでエクスポート
  • BigQuery:テーブルとしてエクスポート
  • Pub/Sub:JSONメッセージでエクスポート

 

集約シンク機能

監査ログエントリを組織のプロジェクトから 1 か所に集約、エクスポートできます。

Google Cloud 組織のすべてのプロジェクト、フォルダ、請求先アカウントからログエントリをエクスポートできる集約シンクを作成できます。たとえば、

 

Cloud Storageにおけるログ運用

Cloud Storageの4つのクラス

  • Standard Storage :頻繁にアクセスされるデータ(ホットデータ)や、短時間だけ保存されるデータに最適です。
  • Nearline Storage:読み取りまたは変更を月に 1 回程度しか行わないデータに適しています。
  • Coldline Storage:四半期に 1 回程度しか読み取りや変更を行わないデータに適しています。
  • Archive Storage :1 年間に 1 回未満しかアクセスしないデータに最適です。

Nearline または Coldline にログを移動してから削除すると、ログの維持に必要な運用コストを管理できます。

Cloud Storageのオブジェクトのライフサイクル管理機能

オブジェクトの有効期間(TTL)の設定、非現行バージョンの保持、コスト管理を容易にするためのストレージ クラスのダウングレードなど、一般的な作業をサポートする。

注意:ライフサイクル構成に対する更新が反映されるまでに、最大で 24 時間かかる。

 

ロギング関連の暗記ワードとその解説

Splunk(スプランク)

総合的なログプラットフォーム。あらゆるアプリ、サーバ、ネットワーク機器にインデックスをつけられる。SIEMソリューション。

 

SIEM

Security Information and Event Management”の略。 セキュリティ情報イベント管理。

さまざまな機器やソフトウェアの動作状況の記録(ログ)を一元的に蓄積・管理し、 保安上の脅威となる事象をいち早く検知・分析し、情報漏えいなどの異常を自動検出することで、セキュリティを強化すること。

 

Splunk HEC(HTTP Event Collector)

Splunk Cloudに直接HTTP(またはHTTPS)経由でデータを送信する方法。

Pub/Sub to Splunk Dataflow テンプレートを使えば、Pub/SubトピックからSplunk HECにログとイベントを転送できる。

 

Elastic Stack(ELK Stack)

Elasticsearch、Kibana、Beats、Logstashからなるプロダクト群。

 

Elasticsearch

ログや指標などのテレメトリーの非構造化データの取り込み、インデックス付け、および分析を実行するオープンソースのドキュメント データベース。

  • Logstash:豊富な機能、パワフルなデータ取り込みツール。大量データの処理、またはきめ細かい分析がしたいならこっち。
  • Beats:それぞれがあるインプットに特化したシンプル・軽量なデータ取り込みツール。少量データ、手軽に分析したいならこっち。

 

べき等挿入

冪等性(べきとうせい、idempotency, idempotence)とは、同じ操作を何度繰り返しても、同じ結果が得られるという性質です。

一意の識別子。Elasticsearchでは「_id」フィールド、Logstashでは[@metadata]項目などで一意のドキュメントを作成できる。

べき等挿入では、[@metadata][gcs][line_id]などが使われる。

 

Kibana

Elasticsearchデータを可視化したり、Elastic Stackを制御することができる。完全無料のUIダッシュボード 。

 

 

参考(公式)↓

Design patterns for exporting logging data  |  Solutions  |  Google CloudThis article introduces a series of articles that explore design patterns and best practices for common logging export scenarios.
Design patterns for exporting logging data  |  Solutions  |  Google Cloud cloud.google.com
Design patterns for exporting logging data  |  Solutions  |  Google Cloud

 

それでは!

末岐 碧衣
  • 末岐 碧衣
  • フリーランス のシステムエンジニア。独立後、一度も営業せずに月収 96 万円を達成。1986年大阪生まれ。早稲田大学理工学部卒。システムエンジニア歴 12年。
    2009年、ITコンサルティング企業に入社。3年目でコミュ障が爆発し人間関係が崩壊。うつにより休職するも、復帰後はコミュ障の自覚を持ち、「チームプレイ」を徹底的に避け、会社組織内においても「一人でできる仕事」に専念。社内外から評価を得た。
    無理に「チームプレイ」するよりも「一人でできる仕事」に専念した方が自分も周囲も幸せにできることを確信し、2015年フリーランスとして独立。