- はじめに
- Google SRE リソース
- Site Reliability Engineering: How Google Runs Production Systems
- The Site Reliability Workbook: Practical Ways to Implement SRE
- Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems
- SLO Adoption and Usage in SRE
- Creating a Production Launch Plan
- Training Site Reliability Engineers: What Your Organization Needs to Create a Learning Program
- Anatomy of an Incident – Google – Site Reliability Engineering
- Enterprise Roadmap to SRE – Google – Site Reliability Engineering
- Incident Metrics in SRE – Google – Site Reliability Engineering
- Practical Guide to Cloud Migration – Google – Site Reliability Engineering
- Google以外の重要な書籍紹介
- 97 Things Every SRE Should Know
- Seeking SRE
- Practical Monitoring
- Database Reliability Engineering
- Observability Engineering
- Chaos Engineering
- Building Microservices, 2nd Edition
- API Design Patterns
- Systems Performance, 2nd Edition
- Efficient Go
- Implementing Service Level Objectives
- Modern Software Engineering: Doing What Works to Build Better Software Faster
- Learning Test-Driven Development
- システム障害対応 実践ガイド
- Webエンジニアのための監視システム実装ガイド
- SRE サイトリライアビリティエンジニアリングが”ザックリ”「すっきり」分かる本
- さいごに
はじめに
2024年、情報技術の世界は革新的な変化を続け、特にSRE(サイト信頼性エンジニアリング)の分野では新しい概念や技術が絶えず生まれています。この急速に進化する環境において、効率的に最新の知識を吸収する方法を見つけることは非常に重要です。その一つの答えが、「タイパ(タイムパフォーマンス)」という概念です。タイパとは、投入した時間に対する成果の効率を意味し、限られた時間を最大限に活用することの重要性を示しています。このブログでは、SRE分野で高いタイパを達成するための役立つ書籍を探求します。これらの書籍を全て読むのは、SREに深い情熱を持つ者か、非常に勤勉な人に限られるかもしれませんが、オススメの順番などはあえて紹介しません。
また、「class SRE implements DevOps」は、「SREはDevOpsというインターフェースの実装である」という意味を持ちます。「DevOps = 思想」という定義に対して、それを具体化し実装したものがSREであると考えます。本ブログでは、DevOpsやその進化形であるPlatform Engineeringについては触れません。それは、既に多岐にわたる議論がある中で、さらに混迷を招く可能性があるためです。また、全ての情報は完璧ではないと思うので補足情報などがあれば教えてください。
有用な知識の特性
有用な知識が持つべき三つの性質について考えます。第一に「一般性」です。これは知識が多様な状況で適用できることを意味します。例えば、コンテナ技術やクラウドインフラの原則は、異なるプラットフォームやアプリケーションでも適用可能です。これが一般性のある知識です。
第二の性質は「関係性」です。孤立した知識はあまり役に立ちません。私の知識と貴方では持っている知識や経験が同じ言葉でも感じ方がもちろん違います。例えば、単に多くのモニタリングツールを知っているだけでは不十分で現場の課題を知っている必要があります。また、それらがシステムのパフォーマンスやセキュリティとどのように関連し、全体的な信頼性を向上させるかを理解することが重要です。
最後に「場面応答性」があります。知識は、それが必要とされる特定の状況で適切に活用されるべきです。例えば、システムのスケーラビリティを改善する際には、負荷分散やキャッシングなどの特定の技術や知識が必要です。これらの技術や知識は、それぞれの状況に応じて適切に選択し、活用されるべきです。場面応答性がある知識は、適切な状況でのみその真価を発揮することができます。
この有用な知識の枠組みに加えて、特に学生や新卒の方々には「基礎の重要性」を強調したいと思います。技術的な深い理解や幅広い応用は、コンピュータサイエンスの基本原理、アルゴリズム、データ構造などの基礎知識があってこそ可能です。SREやオブザーバビリティなどの先進的な分野への関心も良いことですが、その前にしっかりとした基礎を学び、築くことが非常に重要です。基礎知識がしっかりしていれば、新しい技術やトレンドにも柔軟に対応し、深く理解することができるでしょう。
Google SRE リソース
Googleは、SRE(Site Reliability Engineering、サイト信頼性エンジニアリング)の知識と実践を業界全体で共有し、普及させるために積極的な取り組みを行っています。このページで紹介されている書籍やリソースはその一部に過ぎません。Google SREリソースとして、さらに多くの資料が公開されていますので、興味のある方は以下のリンクから探求してみてください。
Site Reliability Engineering: How Google Runs Production Systems
「Site Reliability Engineering: How Google Runs Production Systems」は、Googleが開発したシステム管理とサービス運用の方法論を学ぶことができる、非常に重要なSREの書籍です。この書籍はO’Reillyから出版されており、全552ページにわたって豊富な内容が展開されています。発売日は2016年4月で、原書なのでリリースから時間が経過していますが、その内容の深さと実践的なアプローチは、今日でも多くのSRE専門家やソフトウェアエンジニアにとって非常に価値のあるものです。
この書籍では、ソフトウェアのライフサイクル全体にわたるコミットメントと、世界最大規模のソフトウェアシステムの構築、導入、監視、維持方法について詳細に解説しています。リスク管理、サービスレベル目標、リリースエンジニアリングなどSREの基本原則から始まり、インシデント管理、障害の根本原因分析、SREチーム内でのソフトウェア開発についても深く掘り下げています。さらに、SREのトレーニングやコミュニケーション管理についても紹介しており、急速にスケールするサービスを高い信頼性で運用する方法についての理解を深めることができます。
この書籍は、大規模なシステムの運用における複雑な課題への実践的な解決策を提供しており、非常に有益です。リリースエンジニアリングやインシデント管理の部分は特に、日常業務に直接応用できる知見が豊富に含まれており、実務においても大いに役立つ内容となっています。また、SREチーム内でのソフトウェア開発プロセスに関する記述は、チームワークと効率性を高めるための貴重で有用な参考資料となります。
Googleによって無料で公開されていることも特筆すべき点で、こちらのリンクから無料で読むことが可能です。さらに、日本語での翻訳版も存在し、日本の読者にとっても2倍の感謝を持って読むことができるでしょう。
さらに、Googleに直接関連はありませんが「もう一度読むSRE」というポッドキャストもあり、この書籍の内容を深く理解するための補足資料として聞いてみるのも良いでしょう。ポッドキャストを通じて、書籍の内容をさらに掘り下げたり、実際の業務における適用例を聞くことができます。
The Site Reliability Workbook: Practical Ways to Implement SRE
「The Site Reliability Workbook: Practical Ways to Implement SRE」は、SREの原則と実践方法に深く踏み込んだ、O’Reillyから出版された812ページにも及ぶ充実した内容の書籍です。その分厚さは、まさに鈍器のよう。2018年7月の発売で、「Site Reliability Engineering: How Google Runs Production Systems」のリリースから3年が経過し、この期間を経てさらに充実した内容に進化しています。
この書籍では、具体的な事例を通じてSREの原則と実践方法に深く踏み込んでいます。前作で紹介されたSREの基本原則からさらに一歩進み、Google内部で培われた技術的ノウハウだけでなく、Evernote、The Home Depot、New York Timesなどさまざまな企業の事例も紹介しています。クラウド環境での信頼性の高いサービス実行方法や、サービスレベル目標に基づくサービスの運用、既存の運用チームをSREに変換する方法など、実践的かつ詳細な解説がなされています。
この書籍は、既にSREを導入している企業やこれから導入を考えている企業の開発者、運用管理者、マネージャーにとって、理論から実践へと移行するための貴重な手引きとなります。実際の業務に役立つ豊富な知識と具体的なガイドラインを提供しており、SREの実践を深めたいすべてのプロフェッショナルにとって有用な内容です。
Googleによって無料で公開されていることも特筆すべき点で、こちらのリンクから無料で読むことが可能です。このような資料を無償で提供することは、業界全体の技術向上に大きく貢献しています。GoogleがSREの知識と実践を広く共有し、普及させようとする意図が明確に伺えます。
さらに、日本語で翻訳されているため、日本の読者も2倍の感謝を持って読むことができるでしょう。
Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems
「Building Secure and Reliable Systems: Best Practices for Designing, Implementing, and Maintaining Systems」は、O’Reillyから出版された519ページに及ぶ内容で、セキュリティを中心に据えた構成となっています。2020年3月の発売で、聖典とも言える「Site Reliability Engineering: How Google Runs Production Systems」のリリースから4年が経過しており、この間にセキュリティ意識の高まりを強く感じさせる書籍です。
この書籍では、システムのセキュリティと信頼性が一体であることを明示し、スケーラブルなシステムの設計と運用におけるセキュリティの重要性を深く掘り下げています。GoogleのセキュリティとSREのエキスパートが、セキュアでスケーラブルかつ信頼性の高いシステムを根本から設計するためのベストプラクティスを紹介しており、システムの設計、実装、保守に関する考え方と実践法を詳しく解説しています。また、組織の文化がベストプラクティスに取り組む上でいかに重要かについても言及されています。
この書籍はセキュリティと信頼性を軸にしたシステム構築のための貴重な知見を提供しています。特に、セキュリティをシステム設計の初期段階から考慮する重要性を説く内容は、現代のセキュリティ意識が高まる中でのシステム設計において非常に参考になります。また、組織文化とそのベストプラクティスへの適用に関する洞察は、チームや組織全体のセキュリティ意識向上に大いに役立つでしょう。
「Building Secure and Reliable Systems」も、Googleによって無料で公開されており、こちらのリンクから無料で読むことが可能です。Googleがセキュリティと信頼性に関する知識を広く共有しようとする姿勢が、このような形で表れているのです。
また、Google SRE本は3冊とも翻訳されていてありがたい限りですね!!!
セキュリティに関する本の一環として、Googleとは直接関連はありませんが、『体系的に学ぶ 安全なWebアプリケーションの作り方 第2版 脆弱性が生まれる原理と対策の実践』の読書をお勧めします。この本では、Webアプリケーションのセキュリティにおける脆弱性の原理と対策について詳細に解説されています。
SLO Adoption and Usage in SRE
「SLO Adoption and Usage in SRE」は、サービスレベル目標(SLO)のSREにおける採用と使用に焦点を当てた104ページの実践的なレポートです。2020年4月1日に発売されたこのレポートは、SREのフレームワークを活用して運用コストの削減や開発生産性の向上に役立つ方法を提供します。
SREやソフトウェアエンジニアとして、このレポートはSLOの重要性とその実践法を深く理解するのに大変役立ちます。SLO、SLI、エラーバジェットをSREの実践の中核として位置づけ、サービスの信頼性をどのように測定し管理するかを具体的に示しています。Googleの調査結果や実際のケーススタディを基に、許容可能な信頼性のレベルを定義し、それに基づいてシステム変更を適切に管理する方法は、日々の業務に直接適用できる知識です。
SRE担当者、エグゼクティブ、開発者、アーキテクトなど、幅広い関係者にとって、SLOを取り入れたSREの実践を深めるための有用なリソースとなるでしょう。
Creating a Production Launch Plan
「Creating a Production Launch Plan」は、実稼働環境の立ち上げにおける計画策定に焦点を当てた45ページの実践的なレポートです。2020年1月に発売されたこのレポートは、製品のローンチプランをテンプレートとして使用することで、多くの時間、費用、そして頭痛を節約する方法を提供します。
SREやソフトウェアエンジニアとして、このレポートは実稼働環境の立ち上げにおける計画策定の重要性と実践法を深く理解するのに非常に役立ちます。Googleが実際にどのように本番発売計画を策定したかを紹介し、自社製品を導入する際のリスクを低減するための実践的な方法を学べます。ローンチプランは、すべての関係者とプロセスを巻き込み、ローンチの進行を確実にコントロールすることで、さまざまな問題を防ぐことができます。
開発者やサイト信頼性エンジニア(SRE)を対象に、Googleのローンチプランの基本的な構成要素を探り、自社製品を導入する際のリスクを低減するための実践的な方法を提供する本レポートは、企業規模や製品のユーザーベースに関係なく、消費者向けサービスにも適応可能です。これらの教訓は、製品のローンチを成功に導くための貴重で有用な学習リソースとなるでしょう。
Training Site Reliability Engineers: What Your Organization Needs to Create a Learning Program
「Training Site Reliability Engineers: What Your Organization Needs to Create a Learning Program」(日本語名:サイト信頼性エンジニアの育成:学習プログラムを作成するために組織に必要なこと)は、サイト信頼性エンジニアの育成に関する116ページの詳細なガイドです。2020年2月に発売されたこのレポートでは、一般的な内容からドメイン固有の内容まで、組織でのSREトレーニング方法について解説しています。
GoogleのSREチームによるこのガイドでは、Googleが新しいSREを育成するために使用しているトレーニングのベストプラクティスを学ぶことができます。また、SRE(またはSREに類似した機能)のトレーニングを成功させた小規模な組織での使用例も紹介されています。
効果的なSREトレーニングを実施するためには、自社のニーズと受講者の両方に合うように意図的に設計する必要があります。本レポートの大部分はGoogle SREの具体的な経験に焦点を当てていますが、トレーニング設計の背景にある理論についても説明し、過去数年間に業界全体で得られたベストプラクティスや教訓を紹介しています。
このレポートは、SREの育成に取り組む組織にとって、トレーニングプログラムの設計と実施における重要な指針を提供し、より効果的なSREトレーニングの実現をサポートします。Googleの実践に基づく具体的なアプローチは、業界におけるSREトレーニングのスタンダードを形成していると言えるでしょう。
Anatomy of an Incident – Google – Site Reliability Engineering
「Anatomy of an Incident – Google – Site Reliability Engineering」(日本語名:インシデントの解剖 – Google サイト信頼性エンジニアリング)は、インシデント対応に関する70ページの実践的なレポートで、2016年4月に発売されました。このレポートは、システム設計における失敗の避けられない側面を探り、科学者やエンジニアが未来を完全に把握することなく解決策を実行する現実を浮き彫りにしています。
次のゼロデイ脆弱性、バイラル・メディア・トレンド、気象災害、テクノロジーの変化などを予測することは難しいものですが、本レポートでは、インシデントがシステムに影響を及ぼした場合に対応するための準備方法について詳しく探求しています。SREやDevOpsの実務者、IT管理者、エンジニアリング・リーダーを対象に、Ayelet Sachto氏、Adrienne Walcer氏、Jessie Yang氏のアドバイスをもとに、組織がインシデントに備え、対応し、回復する方法について解説されています。
- 参考リンク: Anatomy of an Incident
このレポートは無料で公開されており、上記のリンクから原著を読むことが可能です。インシデント発生時の効果的な対応策を学ぶことは、組織のシステムの信頼性を高め、将来のトラブルへの対処能力を強化するために不可欠です。インシデント管理に関心のあるすべてのプロフェッショナルにとって価値のあるリソースと言えるでしょう。
Enterprise Roadmap to SRE – Google – Site Reliability Engineering
「Enterprise Roadmap to SRE – Google – Site Reliability Engineering」(日本語名:SREエンタープライズロードマップ – SREを導入し継続する方法)は、SREに関する技術的立ち位置、導入理由、必要なプロセス、文化、事例などを幅広く紹介する62ページのコンパクトなレポートです。2020年3月に発売され、日本語で読める点も非常に魅力的です。
このレポートでは、Google Cloud Reliability AdvocateのSteve McGheeとGoogle Cloud Solutions ArchitectのJames Brookbankが、組織でSREを導入する際にエンジニアが直面する特定の課題について深く掘り下げています。Googleが過去に出版した「Site Reliability Engineering」と「The Site Reliability Workbook」が、サービスライフサイクル全体への取り組みによって組織がソフトウェアシステムの構築、展開、監視、保守を成功させる方法と理由を示しているのに対し、本レポートはそれらを補完する内容となっています。
- 参考リンク: Enterprise Roadmap to SRE
SREの普及にもかかわらず、多くの企業ではSREに対する当初の熱意とその採用の度合いの間に大きな隔たりが生じています。このレポートは、プロダクトオーナーや信頼性の高いサービスに携わる方々がSREの採用について知りたいときに、そのプロセスを体系的に説明するものです。SREの導入を検討する企業や、より効果的な方法でSREを実践したいエンジニアにとって、重要なガイダンスを提供する資料です。
Incident Metrics in SRE – Google – Site Reliability Engineering
「Incident Metrics in SRE – Google – Site Reliability Engineering」(日本語名:SREにおけるインシデント評価指標 – Google – Site Reliability Engineering)は、SREにおけるインシデント評価指標に深く焦点を当てた36ページのレポートです。2021年3月に発売され、SREでの改善評価や傾向追跡に用いられるMTTxメトリクスの効果について深く掘り下げています。
SREでは、MTTR(平均復旧時間)やMTTM(平均緩和時間)などのメトリクスが一般的に使用されていますが、Google SREのStepan Davidovic氏はモンテカルロ・シミュレーションを用いて、これらのメトリクスが生産インシデントのコンテキストにおいて意思決定やトレンド分析に適していないことを示しています。これらのメトリクスの適用は見かけよりも厄介で、多くの実用的なシナリオにおいて誤解を招く可能性があります。本レポートでは、これらの測定を達成するための代替方法を探ります。
- 参考リンク: Incident Metrics in SRE
このレポートは、SREの実務においてインシデント評価指標の適用に関する誤解を避け、より効果的な方法を探るための重要なリソースとなります。SRE担当者やシステム運用チームは、このレポートを通じてインシデントの評価と分析に対するより深い理解を得ることができ、より効率的かつ適切な意思決定を行うための手助けを受けることができるでしょう。
Practical Guide to Cloud Migration – Google – Site Reliability Engineering
「Practical Guide to Cloud Migration – Google – Site Reliability Engineering」(日本語名:クラウド移行実践ガイド – Google – サイト信頼性エンジニアリング)は、クラウドへの移行に関する実践的なアプローチを解説する124ページのレポートです。2021年2月に発売され、企業が直面する大規模なクラウド変革の課題に焦点を当てています。
クラウドへの移行はしばしば、大きなリターンが期待されるものです。この移行が実現すると、働き方を根本的に変える新たなビジネスチャンスが生まれます。本レポートでは、Googleのチームメンバーがクラウドへの移行に必要な文化的および技術的変革をナビゲートする方法を示しています。Googleはクラウドで誕生した企業ですが、チームメンバーの中には、この移行を苦労して乗り越えなければならなかった組織の出身者もいます。彼らは成功したクラウド変革のさまざまな側面をカバーする13のエッセイを通じて、苦労して勝ち取った経験を共有します。
このレポートは、クラウドへの移行を検討している企業やチームにとって、具体的なヒントやアドバイスが満載の価値あるガイドとなります。クラウド変革の課題に直面する多くの組織が、このレポートを通じて適切な戦略とアプローチを学び、成功への道を切り開くための重要な手がかりを得ることができるでしょう。
Google以外の重要な書籍紹介
この章では、Googleに関連しないが、サイト信頼性エンジニアリング(SRE)やソフトウェアエンジニアリングの分野で重要な書籍を紹介しています。しかし、これらの書籍は、SREとソフトウェアエンジニアリングの広大な知識と実践の世界におけるごく一部に過ぎません。市場には、読者の皆様にとってさらに多くの価値ある書籍が存在し、それぞれが独自の視点と深い専門知識を提供しています。これらの書籍は、私の独断と偏見で日々直面する課題を解決し、スキルを磨くための貴重で有用なリソースとなり得ます。
97 Things Every SRE Should Know
「97 Things Every SRE Should Know」は、250ページにわたる実践的な書籍で、2020年11月に出版されました。この本は、SREの新人からベテランまでが、SREの採用方法、SLOの重要性、インシデント対応のアップグレード時期、モニタリングと可観測性の違いなどについて学ぶことができる、幅広いトピックをカバーしています。
編集者のJaime WooとEmil Stolarskyは、信頼されるベストプラクティスや新しい問題解決方法を含む、97の有用なヒントを集めました。これにより、SREのスキルを成長させ、洗練させることが可能です。特に、「エラーバジェットを手に入れたら、次に何をするか」 - Alex Hidalgo や 「自分の仕事を認識させる:自慢文書を書く」 - Julia Evans and Karla Burnett などのアドバイスは、SREの領域において深い理解と実践的なスキルを習得するのに役立ちます。
この書籍はSREにおける深い理解と実践的なスキルの習得に大いに役立ち、技術者やチームリーダー、プロジェクトマネージャーにとって非常に参考になる内容となっています。
Seeking SRE
「Seeking SRE」は、サイト信頼性エンジニアリング(SRE)に関する幅広いトピックを扱う587ページの書籍で、O'Reilly Media, Inc.から2018年9月に出版されました。この書籍は、システムとアプリケーションの信頼性の重要性と、市場の要求する速度でのイテレーションを行いながら信頼性を維持する難しさを背景にしています。Googleによる「Site Reliability Engineering」という著書に触発され、SREの非常に異なる部分を探求しています。
「Seeking SRE」には25以上の章が含まれ、SREの世界で行われている重要な議論に読者を引き込みます。様々な環境でのSREの実装方法、DevOpsとの関連、最先端の専門知識、ベストプラクティスとテクノロジー、さらにはSREの人間的側面について、エンジニアやその他の分野のリーダーが語る内容が盛り込まれています。David N. Blank-Edelmanがキュレーター兼編集者を務め、SREの理解を深め、実践的なスキルを習得したい技術者やリーダーにとって非常に参考になる内容となっています。日本語の書籍も出版されていてとても嬉しいですね
弊社では輪読会を行いましたが様々な案件とリンクして考える事ができてよかったです。
Practical Monitoring
「Practical Monitoring」は、O'Reilly Media, Inc.から出版された170ページに及ぶ監視システムの設計と実装に関する実践的なアプローチを提供する書籍です。2017年10月に発売され、モニタリングの改善が必要だが、どこから手を付けるべきかわからない人々に向けて書かれています。
著者のMike Julianは、企業アプリケーションからデータセンターのハードウェアに至るまで、様々なレベルでの効果的なモニタリングを設計し実装するための戦略と戦術を提供しています。この書籍は特定のツールの実装方法ではなく、モニタリングの原則と基本的な仕組みに焦点を当てており、モニタリングのアンチパターン、デザインの原則、効果的なオンコールローテーションの構築、アプリケーションからのメトリクスとログの取得といった重要なトピックをカバーしています。
モニタリングは、「Service Reliability Hierarchy」 でも最も最初に取り組むべきだと記載されており、その重要性は業界全体で認識されています。本書は、モニタリングの効果的な実践に関して、あらゆるレベルの専門家に対して具体的な洞察とガイダンスを提供します。
個人的には、既に知っている内容も多かったものの、心得的な部分は「監視版リーダブルコード」と表現できるほどの価値がありました。ある程度監視を経験した人には自分の知識を再確認するのに適していますが、入門書としては抽象的で理解しにくい内容も含まれているため、即座に具体的な知識を得て活用したい人には向いていないかもしれません。ネットワーク、サーバー、フロントエンド、バックエンド、KPIなどを幅広くカバーしていますが、具体的なアクションポイントにはあまり触れられていません。
こちらのリンクで、この本をチェックすることができます。日本語版もO'Reilly Platform で読めます。
こちらの書籍は、日本語版では「入門 監視」と題されており、これは非常に喜ばしいことです。原題の直訳である「実践 監視」とするのではなく、「入門」としていることで、モニタリングの基礎から学びたい初心者や、監視システムの知識を深めたい方々にとってもアプローチしやすい内容となっています。初学者に優しいこのタイトル変更は、監視の世界への第一歩を踏み出す人々にとって、大いに役立つことでしょう。
「Monitoring Anti-Patterns」は、監視システムにおける一般的な間違いや誤解を扱う非常に洞察に満ちたセクションです。このセクションでは、監視を単なるタスクではなく、システム全体の健康とパフォーマンスを維持するための重要なプロセスとして捉えることの重要性が強調されています。具体的には、監視システムの設計と実装において、ツールへの過度な依存(「ツールの崇拝」)、チェックボックス式のアプローチ(「動作している」とは何を意味するのかに焦点を当てる)、監視を一時的な対処策として使うこと(「監視を松葉杖として使う」)、また手動での設定の問題点などが取り上げられています。
これらのアンチパターンは、監視システムの構築における一般的な落とし穴を示しており、これらを理解し避けることは、より効果的な監視システムの構築に不可欠です。また、OSメトリクスはアラートにはあまり役立たないことが多いため、メトリクスをより頻繁に収集することの重要性も指摘されています。このセクションを読むことで、監視に関する一般的な誤解を避け、より効果的な戦略を実践するための洞察を得ることができます。
「Prometheus: Up & Running, 2nd Edition」は、Prometheusの使い方とベストプラクティスを網羅した書籍です。Prometheusは多くの組織で実運用されているメトリクスベースのモニタリングシステムであり、この書籍はサイト信頼性エンジニア、Kubernetes管理者、ソフトウェア開発者にとって実践的な指南書となります。
Database Reliability Engineering
「Database Reliability Engineering」は、データベース管理の進化としてのDBRE(データベース リライアビリティエンジニアリング)をテーマにしたO'Reilly Media, Inc.からの294ページの重要な書籍です。2017年10月に出版され、データベースの信頼性に対する包括的なアプローチを提示しています。
この書籍は、技術的な側面だけでなく、チームや組織全体の連携や継続的改善サイクルにも言及しています。特に、DBAからDBREへの進化に焦点を当て、多様なDBのプロフェッショナルが、他部門と協力し、システムの信頼性を高めるための自律的なアプローチについて詳述しています。
書籍では、インフラとデータベースの効率的な構築や運用に関する技術的な知見が紹介されています。GitやChefなどを活用して、環境構築の自動化や人的ミスの排除に重点を置いています。メモリ管理、ストレージのチューニング、データベースのアーキテクチャなどに関する具体的な説明も盛り込まれており、データベースの効率的な運用に不可欠な要素として提示されています。
バックアップ、セキュリティ、データベースのアーキテクチャなど、データベース運用のさまざまな側面についても触れられており、実際のDB運用業務での協業観点からも多くを学ぶことができます。また、インフラとDBaaS(Database As A Service)に関する技術的説明も含まれており、現代のデータベース運用における新しいトレンドとチャレンジに対応しています。
全体的に、この書籍は技術的な知識にとどまらず、実際のデータベース運用における現場での協力や継続的な改善に関する洞察を提供するものであり、DBREとして成長したいプロフェッショナルにとって非常に価値のある一冊です。
「Fundamentals of Data Engineering」は、O'Reilly Media, Inc.から2022年6月に出版された447ページの書籍で、データエンジニアリングの急速な成長に対応し、ソフトウェアエンジニア、データサイエンティスト、アナリストに全体的な理解を提供します。著者のJoe ReisとMatt Housleyが、データエンジニアリングのライフサイクルを通じて読者を導き、さまざまなクラウド技術を組み合わせて、組織と顧客のニーズを満たすシステムの計画と構築方法を紹介しています。本書では、データの生成、取り込み、オーケストレーション、変換、ストレージ、ガバナンスの概念を、どのようなデータ環境でも適用する方法を理解できます。また、データエンジニアリングの全体的な風景についての簡潔な概要を得ることができ、データ技術、アーキテクチャ、プロセスを選択する際のマーケティングハイプを切り抜けるためのベストプラクティスのエンドツーエンドフレームワークを使用する方法も提供されています。さらに、データガバナンスとセキュリティをデータエンジニアリングのライフサイクル全体に組み込む方法も学べるため、この本は、データエンジニアリングの基礎を学び、Platform EngineeringやSREなどの関連分野との関連性を理解するのに適した初心者向けのガイドです。
また、RDBに関しての知識はほぼ絶対に腐らないので「達人に学ぶDB設計 徹底指南書」や「達人に学ぶSQL徹底指南書 第2版」は読んでいて絶対に良いと思います。
Observability Engineering
「Observability Engineering」は、O'Reilly Media, Inc.から2022年5月に出版された318ページにわたる書籍で、現代の複雑なシステムにおけるオブザーバビリティの重要性と実践について深く掘り下げています。著者であるCharity Majors, Liz Fong-Jones, およびGeorge Mirandaは、オブザーバビリティがどのようにして開発速度を加速し、不規則な振る舞いの特定、ユーザー体験の理解を深めるかについて説明しています。
この書籍は、オブザーバビリティの定義、クラウドネイティブアプリケーションへの応用、ソフトウェア開発ライフサイクル全体における影響、さらにはサービスレベル目標と共に機能するチームによるオブザーバビリティの利用方法など、多岐にわたるトピックを扱っています。特に、構造化イベントの利用とOpenTelemetryによる計装の重要性が強調されており、オブザーバビリティによってエンジニアがよりプロアクティブなデバッグを行い、迅速なフィードバックサイクルを回すことが可能になると述べられています。
しかし、オブザーバビリティ関連のコストが高くつく可能性も指摘されており、エンジニアと経営者の両方に、そのビジネス価値を正しく理解し伝える必要性が強調されています。オブザーバビリティの導入には「作るか買うか」の選択があり、その機能要件、適切なテレメトリーデータのサンプリング方法、テレメトリーパイプラインを用いたデータ管理についても詳細に議論されています。
さらに、組織全体でのオブザーバビリティの採用には、文化的な変化が伴うとし、その投資対効果や利害関係者との協力の重要性が説明されています。この書籍は、オブザーバビリティが企業の最終損益に与える影響を明確にし、組織におけるオブザーバビリティの成熟度モデルを提供することで、オブザーバビリティを組織に根付かせるための指針を提供しています。
「Learning OpenTelemetry」は、2024年3月にO'Reilly Media, Inc.から出版される、OpenTelemetryの実践的な利用に焦点を当てた250ページの書籍です。著者のAustin ParkerとTed Youngは、OpenTelemetryの各コンポーネントと、これを使ったオブザーバビリティシステムの設定、運用、トラブルシューティング方法を紹介しています。OpenTelemetryにより、複数の高品質なテレメトリーデータソースが一本化され、効率的なオブザーバビリティが実現します。
この書籍は、オブザーバビリティの基本から応用までを網羅し、特にアプリケーション開発者やインフラチームにとって貴重な情報源となるでしょう。また、前著「Observability Engineering」の内容を受け継ぎながら、OpenTelemetryを通じた具体的な実践方法を提供することで、現代の複雑なシステムにおけるオブザーバビリティの理解と活用をさらに深めます。
Chaos Engineering
「Chaos Engineering」は、O'Reilly Media, Inc.から2020年4月に発売された305ページの書籍で、カオスエンジニアリングについての実践的なガイドです。この分野での先駆者であるCasey RosenthalとNora Jonesが共著し、Netflixでの経験を基にしています。本書は、複雑なシステムを理解し、ビジネス目標に最適化しながらナビゲートする方法をエンジニアに示します。
カオスエンジニアリングとは、マイクロサービスや分散技術を採用する企業が増えるにつれて高まるシステムの複雑性に対応する方法論です。 この手法を用いることで、複雑性を取り除くことはできないものの、システムの脆弱性を発見し、顧客への影響を及ぼす前に障害を防ぐことが可能になります。また、Google、Microsoft、Slack、LinkedInなどの業界専門家からの実世界の事例を通じて理論から実践への橋渡しがなされています。
書籍では、カオスエンジニアリングプログラムをゲームデイを中心に設計し、高度にターゲットを絞った自動化された実験に進む方法が紹介されています。このように、システム内の複雑性を理解するための枠組みの設計や、継続的な協力的カオス実験のデザインについても詳述されています。
ただし、本書の内容は非常に有意義である一方で、カオスエンジニアリングはその文化を前提としているため、導入のハードルは高いとされています。 実際、カオスエンジニアリングの成功は組織文化や思考の枠組みに大きく依存しており、組織全体の問題解決への取り組みとして考える必要があります。カオスエンジニアリングを導入するには、単に技術的な側面だけでなく、組織としての成熟度や文化的な準備が必要になります。
「Security Chaos Engineering」は、O'Reilly Media, Inc.から2023年3月に発売された428ページの書籍で、セキュリティカオスエンジニアリングについての包括的なガイドです。著者のKelly ShortridgeとAaron Rinehartは、複雑なソフトウェアシステムの持続可能なレジリエンス(回復力)における挑戦に対処する方法を探求しています。
セキュリティカオスエンジニアリングとは、不利なイベントに備え、それらが革新、迅速な動き、エンジニアリングおよびビジネス目標の達成を妨げないようにする手法です。 この書籍では、セキュリティプログラムの設計方法、ソフトウェア配信の各フェーズでの意思決定、複雑なシステムダイナミクスの理解、システムにおける意思決定を歪める技術的および組織的トレードオフのナビゲート方法について解説しています。
また、カオス実験を通じて、ソフトウェアの品質とセキュリティに関する重要な仮定を検証する方法にも焦点を当てています。 このアプローチにより、組織はセキュリティカオスエンジニアリングを利用して、システムのレジリエンスを高め、広範な攻撃から保護する方法を学ぶことができます。
さらに、本書では大手企業がセキュリティカオスエンジニアリングをどのように活用しているかの事例も紹介しており、読者に現実的な応用の例を提供します。この書籍は、サイバーセキュリティの課題に直面している方にとって、非常に価値のあるリソースとなるでしょう。
Building Microservices, 2nd Edition
新しいものが常に良いわけではありません。見掛けの進捗や成果を得るために、シンプルで高品質なものを手放す必要はありません。シンプルで高品質なモノリスは、価値あるものとして当然のように評価されるべきです。それでも、マイクロサービスへの移行が必要な場合には、「Building Microservices, 2nd Edition」を参照してください、Sam Newman氏による612ページに及ぶ包括的な書籍で、マイクロサービスの構築、管理、そしてスケーリングに関する幅広いトピックを扱っています。この書籍は、モデリング、統合、テスト、デプロイメント、監視などの最新のマイクロサービスソリューションに関して、明快な例と実用的なアドバイスを提供しています。技術の時間の経過とともの進化を追いながら、マイクロサービスに関する理解を深めるのに非常に役立ちます。
「Monolith to Microservices」は、マイクロサービスの理念と移行プロセスに関する実践的な内容に焦点を当てています。具体的なテクノロジーではなく、マイクロサービスへの移行を決定する基準や手順に関する経験に基づく指針を提供しており、読者にとって非常に理解しやすく、実務においても有益な情報が得られるでしょう。これらの書籍は、マイクロサービスアーキテクチャの理解を深め、実際のシステム設計や運用において役立つ貴重なリソースです。
分散システムの信頼性を深めたい方には、『Go言語による分散サービス―信頼性、拡張性、保守性の高いシステムの構築』がおすすめです。この書籍は、データ集約型アプリケーションの設計における核心的な概念と技術を網羅的に解説し、信頼性の高い分散システム構築に必要な知識を詳細に説明しています。マイクロサービスの主軸を担うSREとして立ち回るためには、『データ指向アプリケーションデザイン』は絶対に読んでおくべき書籍です。この書籍は、分散システムの複雑さと信頼性を理解し、それらを適切に管理するための実践的な知識を提供しています。SREとしての能力を高め、システムの効率性と安定性を保つために、この書籍の学びを活用することが重要です。
- 動画
- 発表資料
API Design Patterns
「API Design Patterns」は、ウェブおよび内部APIの設計に関する包括的なガイドで、480ページにわたりAPIパターンの原則、リソースレイアウト、データ型の取り扱い、標準手法、セキュアなAPIのための認証・検証方法などを深く掘り下げています。GoogleのAPI専門家JJ Geewax氏によって執筆されたこの書籍は、一貫性とスケーラビリティを確保するためのAPIデザインパターンを示し、APIの基本から高度な機能、特殊なケースまでを網羅しています。読者は、APIの設計とリファクタリングに必要な知識と技術を学び、APIをより効果的に構築するための実用的なアプローチを得られます。
「Web APIの設計」はArnaud LauretによるAPI設計の実践ガイドです。この書籍では、使いやすく、柔軟で堅牢なAPIを構築する方法について詳しく解説されています。特に、コマースサイトの例を用いてデータの配置方法やAPIの拡張性の維持方法が紹介されており、実装を重視しないアプローチが特徴です。メンテナンス性やドキュメント作成の重要性も強調されています。この書籍を通じて、読者はAPIの設計と構築に必要な基本原則と実用的な手法を学ぶことができます。
現代のSREというか運用では、APIやデータベースに関する知識が不可欠です。これらの技術の理解がなければ、トラブルシューティングやシステムアーキテクトとして効果的に立ち振る舞うことは困難です。APIやDBはシステムの基盤を形成し、その運用と最適化に深く関わっているため、これらの要素を熟知していないと、複雑な問題解決や効率的なシステム設計ができません。したがって、技術者はAPIとDBの知識を身につけ、常に最新のトレンドを追い続けることが重要です。
Systems Performance, 2nd Edition
「Systems Performance, 2nd Edition」は、システムパフォーマンスの専門家であるBrendan Greggによる928ページに及ぶ包括的な書籍です。Linuxベースのオペレーティングシステムを例に取りながら、オペレーティングシステム、ハードウェア、アプリケーションの理論を要約し、最新のツールやテクニックを用いたCPU、メモリ、ファイルシステム、ディスク、ネットワーキングの最適化やパフォーマンス分析の方法論を提供しています。クラウド環境でのパフォーマンス上の課題や、perf、Ftrace、BPF(BCCおよびbpftrace)を用いたプロファイリングとトレーシングなど、実践的な技術にも深く掘り下げています。
さらに、日本語の読者にとっても、この書籍の日本語版が利用可能であることは大きな利点なので感謝しましょう。
Efficient Go
SRE(Site Reliability Engineering)は、信頼性、スケーラビリティ、効率性を最大限に高めるために、システムとソフトウェアの設計、構築、運用に深く関与します。この分野で成功するためには、最新の技術トレンド、プログラミング言語、システム管理のベストプラクティスを継続的に学ぶことが不可欠です。今回紹介する書籍は、技術スタックが微妙に違ったとしてもSREが直面する多様な課題に対応するのに役立つ知識とスキルを提供します。「Efficient Go」は、O'Reilly Media, Inc.から2022年11月に出版された502ページの書籍で、技術の進歩、急速な市場の変化、およびシステムの複雑化に伴い、しばしば避けがちなソフトウェア効率の問題に対処します。戦術的で可観測性に基づくパフォーマンスの最適化は、コスト削減とビジネス成功のためにすべての製品に不可欠です。著者のBartłomiej Płotkaは、システムを高速化し、リソースを少なく消費するために必要なツールと知識を提供し、Go言語を使用して日常的な効率性を向上させる方法をガイドします。また、この書籍は、効率性の目標を明確にし、最適化する方法、CPUやメモリなどの共通リソースを効果的に使用する方法、そして効率性を評価するためのメトリクス、ログ、トレース、(継続的な)プロファイリングを通じて、Prometheus、Jaeger、Parcaなどのオープンソースプロジェクトを使用する方法を含めています。また、Go言語のスライス、ジェネリクス、ゴルーチン、割り当てセマンティクス、ガベージコレクションなどの機能を効率的に使用する方法についても詳しく解説されています。
日本語の読者には嬉しいニュースがあります。これらの書籍は、日本語版も入手可能で、日本語話者が内容をより容易に理解し活用できるようになっています。
「Cloud Native Go, 2nd Edition」は、O'Reilly Media, Inc.から2024年10月に出版される520ページの書籍で、Go開発者がクラウドネイティブなアプリケーションの構成と構築を、低レベルのGo機能から中間レベルのパターン、高レベルのアーキテクチャの考慮事項に至るまで探求する内容が含まれています。初版もとても良い書籍だったので紹介しておきます。本書では、中級から上級の開発者がGoを使用して簡単だが完全に機能する分散型キーバリューストアを構築する方法を段階的に説明し、Goのジェネリクス、信頼性と可用性、メモリリーク、メッセージ指向ミドルウェアについて学ぶことができます。さらに、セキュリティと分散状態に関する新しい章は、安全な分散型クラウドネイティブアプリケーションを開発する上での重要な側面に焦点を当てています。この書籍を通じて、クラウドネイティブソフトウェアを構築するのに理想的な言語としてのGoの機能を理解し、スケーラブルな分散サービスを設計する際の課題の解決方法、チャネルやゴルーチンなどGoの低レベル機能を活用した信頼性の高いクラウドネイティブサービスの設計と実装、複雑な分散システムの効果的な構築と管理のためのパターン、抽象化、ツールの適用、およびGoを使用してクラウドネイティブサービスを構築し管理する際の障害の克服方法を学ぶことができます。
「Mastering Linux Shell Scripting」は、Packt Publishingから2018年4月に出版された284ページの書籍で、Bashシェルスクリプティングの複雑さをマスターし、企業でのシェルの力を解き放つための知識を提供します。この書籍は、Linux管理者やシステム管理者を対象にしており、日常のタスクを自動化し、時間と労力を節約したい方々に最適です。基本的なシェルスクリプティングとコマンドラインの経験が必要で、自動化したいタスクに精通していることが役立ちます。
本書では、最初のBashスクリプトの作成、実行、デバッグ方法やユーザー入力を求めるインタラクティブなスクリプトの作成方法、複雑なウェブ設定ファイルを動的に編集するスクリプトの開発、AWKを使用したログファイルの検索と報告、関数をビルディングブロックとして使用する効果的なスクリプトの作成方法など、シェルスクリプティングのさまざまな側面を学ぶことができます。さらに、PythonなどBASHと異なるスクリプト言語の比較による情報に基づいた選択方法も提供されています。
この本も日本語の書籍が必要があります。嬉しいですね。
Implementing Service Level Objectives
「Implementing Service Level Objectives」は、サービスレベル目標(SLO)の専門家であるAlex Hidalgoによる402ページの詳細なガイドです。この書籍では、SLO文化をゼロから構築する方法について、実践的なアドバイスと詳細な分析を提供しています。読者は、ユーザーの視点からサービスの信頼性を意味深く測定するサービスレベル指標(SLI)を定義する方法、統計的・確率的分析を用いた適切なSLOターゲットの選択、エラーバジェットの利用、SLOに基づくアプローチに必要なツールとリソースの構築、そして組織のリーダーシップやユーザーに対してSLOデータを用いた意味のある報告をする方法を学びます。この書籍は、SLOベースの信頼性アプローチに取り組む組織の文化とツール作成に関心のあるすべての人にとって、理想的な入門書であるとおもいます。
さらに、日本語の読者にとっても、この書籍の日本語版が利用可能であることは大きな利点なので感謝しましょう。
Modern Software Engineering: Doing What Works to Build Better Software Faster
「Modern Software Engineering: Doing What Works to Build Better Software Faster」は、連続的デリバリーの先駆者であるDavid Farleyによって書かれた、効果的なソフトウェア開発の本質を探求する256ページの書籍です。この本では、プログラマー、マネージャー、テックリードを対象に、ソフトウェア開発における「学習と探索」と「複雑性の管理」という二つの主要なテーマに注目し、マインドセットからコードの品質までを改善するための原則を提案しています。Farleyは、目指すべき目標の明確化、合理的な基準に基づくツールの選択、継続的な段階的進歩を促進するための作業とシステムの組織化、繁栄するシステムへの進行状況の評価など、多岐にわたるテーマを取り上げています。さらに、実験と経験主義からの学習、システムの複雑化に対する制御、厳格さと柔軟性のバランス、歴史と経験からの学び、良いソフトウェア開発アイデアと悪いものの区別など、具体的なアプローチを提供しています。この書籍は、より良いソフトウェアをより迅速に、そして楽しみながら作成するための実践的な洞察をソフトウェアプロフェッショナルに提供します。
日本語訳があるので喜んで呼びましょう!嬉しいですね!
「Grokking Continuous Delivery」は、GoogleのエンジニアChristie Wilsonによって書かれた424ページに及ぶ書籍で、ソフトウェアのデリバリープロセスの自動化を解説しています。本書では、新規および既存プロジェクトのための効果的な連続デリバリー(CD)パイプラインの設計、ソフトウェアプロジェクトをリリース準備完了状態に保つ方法、効果的なテストの維持、複数アプリケーションにわたるCDのスケール化、パイプラインが適切なタイミングで正しいシグナルを提供することの確保、バージョンコントロールを信頼の原点として使用、そしてメトリクスを用いたデプロイメントの安全な自動化に焦点を当てています。この書籍は、CDパイプラインの設定と運用に関する実践的なガイドとして、ツールに依存しないアプローチを採用し、イラストや明快な説明、実践的な演習を通じてCDの設計と目的を解説しています。開発者やパイプラインデザイナーに向けたこの書籍は、CDを開発プロセスに追加したいソフトウェアエンジニアにとって理想的なリソースです。
Learning Test-Driven Development
「Learning Test-Driven Development」は、277ページに及ぶSaleem Siddiqui著の書籍で、テスト駆動開発(TDD)をGo、JavaScript、Pythonの3つの言語で使用する方法を解説しています。この書籍は、コードがクリーンでエレガントであり、長期間にわたって機能し続けるためのTDDの活用方法を提供します。
主な焦点は、ドメインの複雑さをユニットテスト駆動のアプローチで制御する方法、言語やテストフレームワーク、ドメイン概念を超えたTDDの機能、TDDが連続インテグレーションを可能にする方法、リファクタリングと再設計をTDDでサポートする方法にあります。加えて、JavaScriptでのシンプルかつ効果的なユニットテストハーネスの書き方、TDD中に生成されたユニットテストを用いた連続インテグレーション環境の設定についても学ぶことができます。この書籍は、Go、JavaScript、Pythonを使用してTDDを実践し、クリーンで整理されたコードを書くための実用的なガイドとなっています。
『Beyond Legacy Code』(邦題:レガシーコードからの脱却 ―ソフトウェアの寿命を延ばし価値を高める9つのプラクティス)は、レガシーコードとウォーターフォールモデルの問題点、アジャイルの導入と技術的卓越性の追求、小さなバッチでの開発の利点、協力し合う文化の重要性、テストファーストのアプローチとテスト駆動開発(TDD)の役割、設計を最後に行う創発的なアプローチ、レガシーコードのリファクタリング手法など、ソフトウェア開発における重要な9つのプラクティスを詳細に説明しています。この本は、ソフトウェア開発の現場で直面する問題に対処し、高品質なコードの作成を目指す開発者にとって貴重なガイドとなります。
『Test Driven Development: By Example』は、テスト駆動開発(TDD)の導入によって、アプリケーション開発における恐怖を取り除くことを目指しています。著者Kent Beckは、TDDを通じてプログラマーが恐怖を克服し、より良いコミュニケーションと建設的な批判の受け入れを学ぶことができると考えています。TDDは、コードを継続的にテストしリファクタリングすることを基本としており、プログラマーが質の高い作業を行うための実践的な例を示しています。
また、日本語版『テスト駆動開発』の翻訳者であるt_wadaさんのアカウントも非常に有益な情報源ですので、フォローすることをお勧めします。
さらに、Kent Beckが最近書いた『Tidy First?』もオススメです。この本では、大規模なリファクタリングや作り直しではなくて雑然としたコードの「整頓」、すなわち読みやすくするためにコードを管理しやすいセクションに分割する方法について具体的なガイダンスを提供します。また、ソフトウェア設計の基本理論についての洞察も含まれており、いつどのようにコードを「整頓」するかについての実践的なアプローチが提案されています。プログラミング経験の向上や、大きな変更を小さく安全なステップで行う方法などについても掘り下げられています。
『Infrastructure as Code, 3rd Edition』は、Kief Morrisによって書かれた包括的な書籍で、Infrastructure as Code(IaC)の進化と主流化を背景にしています。この第三版では、組織の戦略的目標と課題をサポートするためのインフラストラクチャの設計と実装に焦点を当て、持続可能な成長のための成熟した基盤の構築の必要性を強調しています。本書では、宣言的および手続き的インフラストラクチャ言語の探求や、インフラストラクチャコードがプラットフォーム戦略とエンタープライズアーキテクチャにどう適合するか、そしてインフラストラクチャコードのテストと提供方法について探求しています。また、ソフトウェア設計とエンジニアリングからの教訓を活用して、成長を促進しつつ変化するニーズに適応できるようにインフラストラクチャコードベースを構築する方法についても解説されています。さらに、物理ハードウェアから仮想サーバー、クラウドネイティブクラスター、サーバーレスワークロードまで、現実世界のITシステムの複雑な風景をサポートするインフラストラクチャのパターンに焦点を当てています。この書籍は、自動化とクラウドを組み合わせ、アジャイルやDevOpsなどの先進的なアプローチを活用して、コンプライアンス、コスト、セキュリティ、運用品質の厳格なガバナンスを実現するワークフローと運用モデルについても紹介しており、テスト駆動開発(TDD) の観点からも、インフラストラクチャコードの品質と保守性を向上させるための重要な概念と実践を含んでいます。
システム障害対応 実践ガイド
『3カ月で改善!システム障害対応 実践ガイド』は、システム障害対応とプロセス改善の実践的なアプローチを提供する画期的な本です。著者の野村浩司氏と松浦修治氏は、それぞれNTTデータとリクルートでの豊富な経験を基に、実際の業務に即した方法を提供しています。本書の大きな特徴は、障害対応の具体的な手法を「メソッド化」している点です。理論だけでなく、「どうすればいいのか?」という実践的な問いに答えており、情報システム担当者や運用リーダーにとって最適な内容となっています。また、本書は障害対応の本質的価値にも触れています。障害対応の改善は、顧客満足度、従業員満足度、そして財務観点からもプラスの効果をもたらします。この点を丁寧に説明しており、運用担当者のモチベーション向上にも寄与する内容です。大規模な障害対応経験がない方でも、対応のイメージがつかめるように工夫されています。障害対応の難所にも言及し、読者が共感しやすい内容となっています。
システム障害が起こりうるすべての現場の人々に推奨されるこの本は、システム障害対応をどのように捉え、判断し、対応するべきかについてのフローや表を豊富に掲載しています。これらは特にシステム障害マニュアルが整備されていないチームにとって非常に有用です。
1000件以上の事例を分析し生み出されたこのメソッドは、障害対応改善のための役立つ雛形と共に、3カ月での改善を可能にします。インシデント分析から障害訓練まで、各プロセスに役立つ情報が満載です。システム障害対応における課題の特定から改善ステップまで、具体的なガイダンスを提供し、障害対応を改善するための実践的な指針を提供します。
Webエンジニアのための監視システム実装ガイド
Practical Monitoringでも言及しましたし、ここまで読んでいるWebエンジニアにとって、システムの監視は不可欠なのは自明です。どれだけ高度な技術で構築されても、システムは放置すると壊れたり、理解しがたい状態に陥ることがあります。「Webエンジニアのための監視システム実装ガイド」は、監視テクノロジの動向から組織での実装まで、現場目線で解説する実用書です。最新ツールの説明から実装パターンの紹介、組織での実装に向けた態勢づくりまで、監視に必要な情報が網羅されています。
本書は、監視システムの設計から導入、運用に至るまでの全てを包括的に理解するのに役立ちます。特にインシデント対応の実践的な知識や心構え、監視システムのアーキテクチャ例には注目です。また、MSPでの経験から得られた貴重なノウハウが詰まっており、既存の監視システムの知識を現代的なものにアップデートしたい方にも最適でタイパが最高に良い書籍です。
SRE サイトリライアビリティエンジニアリングが”ザックリ”「すっきり」分かる本
この書籍は、SRE(サイトリライアビリティエンジニアリング)の概念を分かりやすく説明しています。特にGoogleの事例を中心に、どのようにして大規模なサービスを安全かつ迅速にリリースし続けるかを示しています。SREがGoogle独自の手法ではなく、広くクラウドを利用する企業やエンジニアにとっても役立つ内容である点が強調されています。
本書は、DevOpsを担当する方々、アプリケーション開発者、さらにはプログラミング未経験者にもSREという考え方を理解しやすくしています。その結果、「ざっくりなんとなくわかる」ような浅い理解を超えて、「すっきり」した理解を得ることができ、タイパを求める読者にとっては「最高」の参考書となります。
さいごに
情報技術の世界は日々進化しており、特にSRE分野では新たな知識と技術の習得が不可欠です。当ブログではSREにおける効率的な学習(タイパ)に役立つ書籍を多数紹介してきました。これらの資料が、読者の皆様のSREに対する理解の深化と実務能力の向上に貢献することを願っています。さらに、紹介した本にとどまらず、他にも多くの優れた書籍が存在しますので、是非探求してみてください。また、優先順位をどうしてもつけてほしいという人がいる場合はDevOps Roadmapがある参考にするといいと思います。
私が所属する株式会社スリーシェイクでは、好奇心が強く手が動くエンジニアを求めています。私たちはSRE分野における多岐にわたる支援を提供しており、興味のある方は是非お問い合わせください。詳細は公式サイトでご覧いただけます。
来年は当ブログでDevOpsやPlatform Engineeringの分野に焦点を当てる予定です。また、特定のベンダーやクラウドの紹介もしておりません。これらの分野は技術進歩が著しく、常に新しいアプローチやベストプラクティスが登場しています。それらをいかに実務に応用するかについて、深く掘り下げていきたいと考えています。私は「現場がさき、プラクティスがあと、原則をだいじに」という考え方を重視しており、適切な専門性と多様な事例に基づく知見を持ちながらも、業界全体での普及が十分でない現状があります。このため、時には根拠の不十分な「最強のDevOps」や「SREに外側だけ準じた独自のアプローチ」のような概念が生まれがちです。これは業界における深い理解と適切なプラクティスの普及に向けた取り組みが必要であることを示しています。
このブログを読んでくださった皆様に心から感謝いたします。私たちは、SREの世界での成長と発展を目指し、皆様と一緒に学び続けることを楽しみにしています。ブログの購読をお願いすることで、私たちのモチベーションにも繋がります。次回の更新を楽しみにしていてください!
2025年版はフォームも用意しているのでご確認お願いします。