Mejores prácticas de recuperación ante desastres del centro de datos

Actualizado el 01 de junio de 2022 por

 346

Aunque las empresas seleccionan los planes de recuperación ante desastres (DR) de sus centros de datos con la esperanza de no tener que usarlos nunca, los desastres generalmente serán abruptos, contundentes y causarán daños a gran escala. La recuperación ante desastres del centro de datos es una solución tecnológicamente intensa y financieramente esencial para que las empresas mantengan sus operaciones sin comprometer la integridad o seguridad de los datos. En este artículo, exploraremos las mejores prácticas para la recuperación ante desastres de centros de datos para afrontar de manera efectiva los desafíos previos y posteriores a los desastres.

Pre-Desastre

Hablando de los mejores planes de recuperación ante desastres de centros de datos, nada debería reemplazar la práctica de mantener seguros sus datos y sus operaciones laborales mientras se anticipa un desastre. Aunque existen varias formas para que los negocios vuelvan a la normalidad en caso de catástrofe, la mejor vía es la de la prevención. Estas son las diversas formas en que puede prevenir daños a gran escala en un desastre.

Pre-Disaster

Contratación de DRaaS

Una de las mejores medidas de seguridad para las empresas es adquirir Disaster Recovery as a Service. La subcontratación de planes de recuperación ante desastres es una alternativa financieramente inteligente y libre de riesgos para las empresas que carecen de experiencia interna en TI. Hay varias empresas de computación en la nube que ofrecen servicios DRaaS a las empresas que garantizan la seguridad de sus aplicaciones y centros de datos después de un desastre. Crean una copia virtual de su sistema, que se activa cuando su sistema en el sitio entra en tiempo de inactividad. Dado que las operaciones de copia virtual se llevan a cabo en la nube, la funcionalidad de su empresa está activa las 24 horas del día, los 7 días de la semana, incluso cuando su arquitectura interna se ve afectada.

La mayoría de los servicios DRaaS son flexibles en sus configuraciones y se ofrecen en múltiples plataformas. Debe realizar una investigación adecuada antes de contratar el mejor DRaaS para su negocio.

Automatización de copias de seguridad e implementación de protección de datos avanzada

Los métodos basados en software que involucran copias en la nube con redundancia geográfica ayudan a almacenar copias de sus archivos en varias ubicaciones externas, conocidas como centros de datos de DR, manteniendo su negocio en funcionamiento con automatización de respaldo independientemente del desastre que ocurra. FS proporciona tres soluciones de interconexión de recuperación ante desastres de centros de datos, para lograr la transmisión de la red con alta confiabilidad y estabilidad cuando ocurre un desastre.

Práctica de recuperación ante desastres del centro de datos remoto

La práctica de recuperación ante desastres de centros de datos remotos se refiere al establecimiento de una relación activa/en espera entre dos centros de datos en dos lugares para implementar la protección de datos mediante respaldo y replicación, que presenta los siguientes beneficios:

Protección de la continuidad del negocio en todas las geografías, incluida la migración de aplicaciones, la prevención y recuperación de desastres
Garantía efectiva de coherencia de los datos y disponibilidad del servicio
Pruebas de recuperación ante desastres sin impacto en la producción

Práctica de centro de datos activo-activo

Activo-activo a nivel de sitio integra recursos informáticos, de almacenamiento y de red de dos centros de datos ubicados relativamente cerca uno del otro para garantizar la continuidad del servicio. La práctica del centro de datos activo-activo tiene las siguientes características:

Permitir la migración de aplicaciones a nivel de ciudad y la prevención y recuperación de desastres
Fácil gestión y alta utilización de recursos
Cero pérdida de datos, ningún punto único de falla, alta confiabilidad y maximización del tiempo de servicio en línea

Práctica de interconexión de dos ubicaciones y tres centros de datos

La práctica de interconexión de dos ubicaciones y tres centros de datos es adecuada para aplicaciones que requieren una alta continuidad del servicio. Al integrar las dos soluciones anteriores, puede lograr cero pérdida de datos y conmutación por error automática y resistir los requisitos de continuidad del servicio cuando ocurre un desastre a nivel regional.

Layer 1 protection: Alta disponibilidad entre dos sitios en la misma ciudad sin pérdida de datos
Layer 2 protection: Recuperación ante desastres entre centros de datos remotos

Tenga en cuenta que la calidad de los dispositivos de respaldo de las empresas puede variar en funcionalidad. Debe realizar una investigación exhaustiva del hardware y software involucrados en la solución de su proveedor antes de optar por una..

Tener un plan DR detalladon

Los dueños de negocios saben los estragos que puede causar un tiempo de inactividad de un solo segundo. La mejor manera de evitar este tipo de tiempo de inactividad es la prevención. Después de crear un plan de recuperación ante desastres detallado, las empresas deben documentarlo y enviar copias a las personas responsables de hacer que los sistemas vuelvan a funcionar. Además, el plan debe enumerar los pasos necesarios para restaurar el sistema en un entorno de trabajo típico. Le resultará útil no depender de las funciones de copia de seguridad en la nube de terceros durante demasiado tiempo.

Después del desastre

Si bien la prevención es la mejor cura, su sistema nunca podrá salir 100% intacto después de un desastre. Esto es lo que debe hacer una vez que se haya producido la interrupción.

Identificar la causa del desastre

Después de que ocurre un desastre, lo primero que hay que hacer es identificar la causa. Generalmente hay cinco causas comunes de desastre o interrupción del sistema.:

Identifying the Disaster Cause

Fallo de hardware

La falla del equipo es una de las causas más comunes de tiempo de inactividad del sistema. Ejemplos destacados son las fallas de los equipos de almacenamiento del centro de datos, como los discos duros. Todo el hardware es propenso a fallar en algún momento. Es por eso que las empresas deben contar con un buen respaldo.

Cortes de energía

Los cortes de energía son otra causa probable de interrupción del sistema. Algunas interrupciones terminan dañando sus sistemas informáticos, lo que hace que los reemplazos sean inevitables. Las empresas sin un plan de recuperación ante desastres pueden sufrir mucho en tal situación.

Desastre naturals

BLas empresas también sufren discontinuidad debido a desastres naturales como terremotos, inundaciones, etc. Si bien es imposible detener un evento sismológico, las empresas que tienen un plan de recuperación ante desastres sólido pueden garantizar la seguridad del centro de datos.

Error humano

Los errores humanos y una formación inadecuada pueden provocar daños importantes. Accidentes simples como eliminar un documento importante o no guardar la versión correcta del archivo pueden tener consecuencias nefastas. Los empleados deben recibir una formación exhaustiva para evitar en la medida de lo posible cometer este tipo de errores.

Malware y virus

Asegúrese de que sus sistemas estén adecuadamente cifrados y a salvo de intenciones maliciosas. Un sistema infectado puede eventualmente contaminar toda la red. Las empresas deben contar con contramedidas adecuadas para protegerse de virus y ransomware.

Priorizar la identificación y recuperación de sistemas de misión crítica

Los sistemas de misión crítica provocan los daños más importantes durante el tiempo de inactividad. Para evitar el pánico, debe preparar una lista de los principales sistemas de misión crítica con anticipación y restaurarles la prioridad. Ayudará a preparar una lista de tareas secuenciales que se pueden realizar en un orden prescrito.

Determinar los costos del tiempo de inactividad

Los desastres son inevitables y, una vez que ocurren, debes aceptar un período de inactividad y pérdidas financieras, aunque el grado de gravedad puede variar según tu nivel de preparación. Enumerar las consecuencias del desastre, el tiempo de inactividad y las pérdidas resultantes puede ayudarle a acelerar la recuperación y tomar las medidas adecuadas para restaurar el sistema. Una vez informado sobre el nivel de interrupción, sus acciones correctivas pueden centrarse más en minimizar los daños.

Prueba y reevaluación de sistemas DR

Con sus sistemas de DR implementados, debe realizar pruebas y evaluaciones del sistema ocasionales para evitar sorpresas desagradables la próxima vez que ocurra una catástrofe.

Tenga en cuenta que su plan de recuperación ante desastres puede contener errores sutiles que los ojos inexpertos pasan desapercibidos. La acción más segura sería ejecutar escenarios que prueben la eficacia del plan de recuperación ante desastres de su centro de datos mediante la introducción de nuevos desafíos. Es incluso mejor si puedes ejecutar los procesos de recuperación y comprobar que no decepcionan.