业务连续性/灾难恢复 (BC/DR)

on 安全 2023-03-31 16:31:15

愚蠢的死法

每个人都记得那场引人入胜的广告活动，旨在让人们认真对待火车安全问题。我们在保护一个人的数据方面看到了类似的主题：一点点预先计划和一点意识相结合，以避免发现自己处于数据灾难的错误结局。大多数数据灾难是可以避免或预防的，只要稍加思考、计划和执行即可。

Gartner 确定业务停机每分钟会给公司造成超过 5600 美元的损失，这意味着每小时可能造成高达 340,000 美元（或更多）的损失，因此预先计划至关重要。MinIO 的方法是您的业务应该 24x7 全天候运行，任何好的 BC/DR 策略的重点都应该是最大限度地减少停机时间（无论中断的来源如何）和最小的数据丢失（无论危机的性质如何）。继续阅读以了解原因。

数据作为主要业务资产

您的业务依靠数据运行。它是主要资产；你利用的东西可以成为一家企业，因此保护它并花时间思考它的弹性，是你底线的基础。全面考虑数据保护涉及将连续性和恢复视为同一计划的不同方面。

业务连续性 (BC)处理运营方面的问题。它涉及设计和创建政策和程序，以确保基本业务功能和流程在灾难期间和之后可用。
灾难恢复 (DR)主要集中在 IT 方面。它定义了组织的 IT 资产如何从自然或人为灾难中恢复。此阶段中的过程可以包括服务器和网络恢复、复制备份数据以及配置备份系统。

停机成本是您的信誉

在讨论灾难和从中恢复时，仅基于数字通常很难推销。这很不幸，因为停机的第一个受害者是您作为一家公司的信誉。重要的是要清楚备份/复制的成本永远不会高于因 BC/DR 计划不当而导致的业务损失成本。

如上所述，MinIO 的方法是尽量减少停机时间。它从擦除编码开始，以保护数据免遭任何类型的丢失或损坏。然后，与简单的备份相比，专注于复制会创建更强的 BC/DR 位置——无论您的停机时间有多长，您都需要将负载均衡器指向复制的数据。这种基于软件的方法意味着您的恢复时间目标 (RTO) 可以减少到尽可能小的时间增量，而不是整个恢复过程和验证过程，假设一切都在第一次尝试时恢复正常。

RTO 与 RPO：灾难恢复计划是不够的

确定您的企业的特定灾难响应目标和可接受的恢复是一项应该与一系列利益相关者定期进行的练习，就像安全风险容忍度一样，因为它是该练习的一个方面。每个企业不仅对停机时间的容忍度不同，而且对成本的容忍度也不同。这就是为什么 RLO — 恢复级别目标 — 是您的基本指标，通过了解恢复时间目标 (RTO) 和恢复点目标 (RPO) 得到增强。

恢复点目标 (RPO)代表数据完整性；这是您恢复的数据正确和正确运行的程度。这通常取决于您运行备份的频率，以及您的数据在这些时间增量内的变化量。
恢复时间目标 (RTO)是指数据恢复；它是从你跌倒到你再次站起来之间的时间量。或者说得不像 Chumbawamba，RTO 是评估事件发生后检索和恢复数据所需的时间。

不同的业务在这两个维度上有不同的容忍度。例如，Slack 中断会扰乱世界各地的企业，并且对于任何停机时间都只有轻微的容忍度，但是一个小型企业网站出现故障可能对中断有更长的容忍度。

在考虑您的存储选择如何影响这些指标时，您需要考虑诸如

如果在快照之间出现故障，会丢失多少数据，这种丢失是否可以接受？如果不能接受数据丢失，那么复制绝对是适合您情况的正确选择。
如果您的企业存储了超过 1 TB 的数据，那么需要多长时间才能进行备份，这个时间可以接受吗？还是每一分钟的停机时间都在削弱您企业的信誉？

如果您的企业可以接受数据丢失和停机时间，那么备份是一个可以接受的选择。但是，如果数据丢失和停机时间听起来像是问题，那么业务连续性就是您最大的价值指标，而复制绝对是适合您情况的正确选择。

复制 = 正常运行时间

备份是默认的，最低限度的，通常被认为是 BC/DR 的“复选框”。但是，问题是备份很少经过测试，所以您永远不会真正知道，真的知道，您能让它们恢复在线的速度有多快——如果您能让它们恢复在线的话。

复制是复制和备份之间的最佳选择，因为复制从不牺牲数据可用性。这两个部署始终处于运行状态，始终处于就绪状态，并且完全相同。它确实需要更多的硬件空间，但即使在纯备份情况下也是必需的，因为无论如何您都需要空间来测试您的备份。你总是在需要之前测试你的备份，对吧？对吧？

备份策略的限制

总是有比备份的状态和稳健性更重要的事情需要注意，因此您最终会意识到策略的局限性，直到为时已晚而无法补救。

复制副本，即使是被动副本，在任何数据量下都好得多。通过复制，您的停机时间会很长，但您需要多长时间才能重定向您的负载均衡器。否则，您的停机时间就是恢复和验证的时间……并且假定它在第一次拍摄时就正确了。

大多数企业都有越来越多的数据需要处理并包含在他们运行的任何 BC/DR 解决方案中。测试备份并确保可以在您的业务可接受的 RTO 内将它们备份到功能齐全的生产环境中，这一点很重要。但请注意，如果您仍然是一家运行 TB 级数据的小型企业，备份速度相对较快，而 PB 级数据可能需要很长时间才能启动、测试和验证，这会增加灾难和完整之间的周期恢复正常运行时间。此外，在大型、区域分散的企业中，推出解决方案的后勤工作变得更加复杂，进一步影响您的 RTO。

MinIO 有一个客户端以前遭受过勒索软件攻击（阅读更多关于MinIO 如何防范勒索软件的信息）。他们痛苦地发现，恢复正常需要几个月的时间。想想看，几个月。仅仅从安全方面获得“全部清除”以开始恢复的过程就需要数周时间。

客户不得不重新考虑从确定站点优先级到将复制构建到他们的策略中的所有内容。

简而言之，你越需要你的数据来运行，你可能拥有的数据越多，如果你只使用备份模型，你从灾难中恢复过来的时间就越长，而复制模型是一个活动/活动状态，让您立即备份并运行。

只是复制

MinIO 的方法是无论如何您的业务都应该 24x7 全天候运行，并且最短停机时间 (RTO) 和最小损失 (RPO) 是最重要的。确保这一点的方法是通过复制，理想情况下，因为无论您以主动模式还是被动模式拥有它，您不仅需要它以防发生灾难，而且还需要它来测试您的备份能力。

可以这样想

您不会在您的生产环境中进行测试，因为取消您的主要业务根本不是问题。
无论如何，您都需要一个用于测试的复制环境——实际上，它可以就此停止。
如果你想更进一步并进行冷备份，你仍然需要测试它，这需要与你的复制相同的硬件，这意味着备份和复制对组织来说具有相同的成本，但有不同的结果。

因此，无论哪种方式，在硬件到位的情况下，您都可以通过 MinIO 实现满足合规性、法规和 BC/DR 需求的所有标准的备份策略。

连续性 > 恢复

造成灾后问题的一个关键因素是 BC/DR 不被视为主要的预算问题。成本最低的选项，即硬媒体上的静态备份，被认为是足够的是非常普遍的。但这遗漏了恢复过程中的一个重要部分——当您未经测试的备份失败，或者您的恢复时间比您预期的或您的业务可以吸收的时间长时会发生什么？

连续性总是比恢复更好，并且由于对象存储已成为主存储，因此在您的环境中建立一个包括复制作为标准 BC/DR 的拓扑结构变得非常简单，更不用说前瞻性和弹性优先了解决方案。

灾难发生后规划和构建恢复策略总是比灾难发生前更难，但如果没有突发性灾难事件，这可能很难达到最终目的。我们希望这篇博客能为您提供一些工具，让您更有力地反省并提前实施解决方案。

S3 选择人工智能/机器学习现代数据湖 Apache Presto 安全数据库性能 S3 品牌/设计 Golang 编程 Kubernetes SFD 基准开源集成多云云计算微服务 Apache Hadoop Docker AWS Azure GCP 建筑师指南奖项可观察性 Apache Spark 操作指南安全咨询 AGPLv3 子网分析 Splunk 英特尔边缘计算 Veeam Sidekick R 安全设计 H20 开发运维 Apache Hudi Apache Nifi YouTube摘要不变性软件定义的存储 Apache Arrow VMware 混合云云原生红帽OpenShift 可扩展性 Cloud Field Day Apache Kafka EKS 弹性负载均衡器持续集成对象存储遵守 Opentelemetry BC/DR 存储通讯预测最佳实践