La Prueba de las 3 AM: Construyendo un Sistema de Gestión de Relaves que Funciona Cuando Nadie Está Mirando

Son las 3:17 AM un domingo. El centro de operaciones está vacío excepto por el supervisor del turno nocturno. Ha estado revisando su teléfono cada diez minutos durante la última hora, observando la aplicación de seguimiento de tormentas. La lluvia comenzó a medianoche. Ya 80mm y sigue cayendo fuerte. El pronóstico del tiempo falló con este — se suponía que sería un sistema rutinario. A las 3:22 AM, su teléfono vibra. Alerta automática: “El piezómetro P-14 excedió el umbral Amarillo. Lectura: 24.3 kPa. Anterior: 19.1 kPa. Tasa de aumento: 5.2 kPa en 90 minutos.” Abre el panel de monitoreo. P-14 está en la zona crítica en la cara sur. El TARP es claro: el umbral Amarillo requiere notificación al RTFE y aumento de la frecuencia de monitoreo. Pero son las 3 AM un domingo. El RTFE está en casa, probablemente dormido. El superintendente no está de turno. El EOR está en otra ciudad. Tiene dos opciones: Opción 1: Despertar a la gente, seguir el TARP, parecer que está exagerando por una tormenta. Opción 2: Monitorearlo él mismo, esperar hasta el turno de la mañana para reportarlo. Quizás se estabilice. No hay necesidad de entrar en pánico. Lo que sucede a continuación revela si tienes un Sistema de Gestión de Relaves o solo documentos de gestión de relaves.

El Requisito 8.2 del GISTM exige: “Establecer un marco de gobernanza de relaves y un TMS basado en el desempeño.” Pero aquí está lo que ese requisito no te dice: La verdadera prueba de tu TMS no es durante operaciones normales, reuniones programadas, o cuando el liderazgo está observando. Es a las 3 AM. Durante cambios de turno. En días festivos. Cuando las personas experimentadas están de vacaciones. Cuando surgen condiciones inusuales. Cuando nadie está mirando. Ahí es cuando descubres si tienes sistemas que funcionan - o sistemas que existen en papel.

Qué Significa “Sistema” Realmente (La Mayoría de las Personas Se Equivocan en Esto)

Lo que un sistema NO es:

Una carpeta llena de procedimientos
Un organigrama
Una plataforma de software
Un conjunto de requisitos
Una lista de verificación de cumplimiento

Lo que un sistema ES:

Componentes interconectados que trabajan juntos
Bucles de retroalimentación que permiten la autocorrección
Redundancia para que fallas individuales no se propaguen en cascada
Funciones de forzado que hacen lo correcto fácil y lo incorrecto difícil
Resiliencia para absorber condiciones inesperadas
Capacidad de aprendizaje que mejora con el tiempo

La diferencia:

Documentos: “En caso de activación del TARP amarillo, se debe notificar al RTFE dentro de 24 horas.”

Sistema: La alerta automática envía SMS al teléfono del RTFE y al teléfono de respaldo, crea un ticket en el sistema de gestión con temporizador, escala automáticamente si no se reconoce en 2 horas, registra la notificación para la pista de auditoría, alertas similares activan el reconocimiento de patrones para ver si múltiples parámetros muestran preocupaciones.

¿Ves la diferencia? El documento te dice qué debería suceder. El sistema hace que suceda.

Las Seis Características de los Sistemas que Funcionan a las 3 AM

Característica 1: Predeterminado a Seguro (No Predeterminado a Conveniente)

Los sistemas que fallan a las 3 AM hacen que la elección incorrecta sea la elección fácil:

Ejemplo:

El TARP requiere notificación inmediata
Pero la notificación requiere encontrar números de teléfono, despertar a la gente, explicar la situación
Elección fácil: Esperar hasta la mañana
Elección segura: Notificar ahora

Los sistemas que funcionan a las 3 AM hacen que la elección segura sea la elección fácil:

Cómo se ve esto:

Botón único: “Activar Respuesta TARP Amarillo”
El botón notifica automáticamente a todas las personas requeridas a través de múltiples canales (SMS, llamada, notificación de aplicación)
Crea registro de incidente con marca de tiempo
Muestra acciones inmediatas recomendadas en pantalla
Proporciona plantilla para informe de situación
Se conecta a datos de monitoreo relevantes automáticamente

Ahora la elección fácil y la elección segura son la misma.

Ejemplo real de mina en Chile:

Antes del rediseño del sistema:

La activación del TARP requería que el operador llamara al RTFE (número de teléfono en carpeta)
Luego llamar al superintendente
Luego documentar en el libro de registro
Luego enviar resumen por correo electrónico
Tiempo promedio para completar notificaciones: 45 minutos (si se hace inmediatamente)
Realidad: A menudo retrasado hasta el cambio de turno o turno diurno

Después del rediseño del sistema:

El sistema de monitoreo detecta automáticamente la activación del TARP
Envía notificaciones sin acción del operador
Pero el operador todavía tiene un papel: Confirmar situación, agregar observaciones, indicar cualquier acción inmediata tomada
El sistema presenta al operador una interfaz simple: ¿Qué ves? ¿Qué has hecho?
Tiempo promedio desde la activación hasta notificaciones completas: 90 segundos

El resultado: El trabajo del operador se volvió más fácil (menos trabajo) mientras que la seguridad mejoró (respuesta más rápida, sin notificaciones perdidas).

Característica 2: Responsabilidad Visible (Todos Saben Quién Hace Qué)

Los sistemas que fallan a las 3 AM tienen responsabilidad ambigua:

Preguntas de ejemplo que los operadores no pueden responder:

“¿A quién llamo primero?”
“¿Qué pasa si el RTFE no contesta?”
“¿Llamo al EOR o lo hace el RTFE?”
“¿Puedo tomar esta decisión o necesito aprobación?”

Cuando la responsabilidad no está clara, las personas dudan o aplazan.

Los sistemas que funcionan a las 3 AM tienen responsabilidad cristalina:

Ejemplo real de matriz de responsabilidad (simplificada):

Situación	Acción Inmediata	Quién Decide	Quién Debe Ser Notificado	Quién Puede Detener Operaciones
TARP Amarillo	Aumentar monitoreo	Supervisor	RTFE (dentro de 2 hrs)	RTFE
TARP Naranja	Implementar restricciones operacionales	RTFE	RTFE + Superintendente + EOR	RTFE o superior
TARP Rojo	Detener operaciones inmediatamente	Cualquiera	Todos + Respuesta de emergencia	Cualquiera
Falla de equipo que afecta monitoreo	Cambiar a respaldo/manual	Supervisor	Mantenimiento + RTFE	N/A (operaciones continúan)
Filtración visible en el pie	Detener deposición, documentar, investigar	Supervisor	RTFE inmediatamente	RTFE

Esta matriz es:

Visible (publicada en sala de control, en dispositivos móviles, en oficinas de campo)
Específica (sin ambigüedad)
Empoderadora (las personas saben que tienen autoridad para actuar)

Y aquí está la clave: La matriz dice explícitamente que “Cualquiera” puede activar el TARP Rojo.

El mensaje: Si crees que es una emergencia, estás empoderado para declararlo. No necesitas permiso para estar preocupado.

Característica 3: Funciones de Forzado (Hacer Difíciles las Elecciones Incorrectas)

Las funciones de forzado son características del sistema que previenen o señalan acciones peligrosas.

Ejemplo de aviación: Las puertas de las aeronaves están diseñadas para que no puedan abrirse durante el vuelo (el diferencial de presión lo hace físicamente imposible). No puedes hacer accidentalmente lo incorrecto.

Equivalente en gestión de relaves:

Escenario: Operaciones de deposición acercándose al francobordo mínimo

Sistema sin función de forzado:

Las operaciones continúan hasta que alguien nota que el francobordo es inadecuado
Depende de la vigilancia humana

Sistema con función de forzado:

El sistema de monitoreo rastrea el francobordo continuamente
A 2.5m de francobordo: Alerta amarilla se muestra en pantallas de operaciones (“Acercándose al francobordo mínimo”)
A 2.0m de francobordo (mínimo): Alerta naranja + notificación automática al RTFE + recomendación de suspender deposición
A 1.5m de francobordo (crítico): Alerta roja + operaciones deben reconocer alerta y documentar justificación para continuar

La función de forzado: El sistema hace difícil continuar operaciones sin reconocer que estás en estado de no cumplimiento.

Ejemplo real de mina de oro en Nevada:

Implementaron funciones de forzado de “Verificación de Intención de Diseño”:

Monitoreo de pendiente de playa:

Pendiente objetivo: 1-2%
Levantamiento con dron calcula pendientes reales semanalmente
Si alguna área excede 3%: El sistema marca, operaciones recibe notificación
Función de forzado: No puede proceder con deposición en esa área hasta que se corrija la pendiente o se obtenga y documente la aprobación de ingeniería

Resultado: Antes de la implementación, las pendientes de playa ocasionalmente alcanzaban 5-6% (preocupante desde perspectiva de estabilidad) antes de ser corregidas. Después de la implementación, nunca excedió 3.5% porque el sistema detectó y forzó la corrección temprano.

Característica 4: Redundancia (Sin Puntos Únicos de Falla)

Los sistemas que fallan a las 3 AM dependen de individuos o componentes únicos:

Escenarios de fallas de punto único:

Solo el RTFE entiende los TARPs (¿qué pasa cuando el RTFE está de vacaciones?)
Solo una persona sabe cómo interpretar datos de monitoreo específicos (¿qué pasa si no está disponible?)
La información crítica existe en una ubicación (¿qué pasa si ese sistema falla?)
Canal de comunicación único (¿qué pasa si está caído?)

Los sistemas que funcionan a las 3 AM tienen redundancia:

Redundancia en personas:

RTFE principal y RTFE de respaldo designado (capacitación cruzada, ambos tienen autoridad)
Múltiples personas capacitadas en TARPs y protocolos de respuesta
Planificación de sucesión para roles clave
Documentación suficiente para que personal calificado pueda intervenir

Redundancia en tecnología:

Sistema de monitoreo principal y respaldo (diferentes plataformas si es posible)
Alertas automatizadas a través de múltiples canales (SMS + correo electrónico + aplicación + llamada telefónica)
Datos almacenados de forma redundante (local + nube, múltiples respaldos)
Respaldo de energía para sistemas críticos (generadores, UPS)

Redundancia en comunicación:

Múltiples métodos de contacto para personal clave (teléfono de trabajo + teléfono personal + correo electrónico + teléfono de casa)
Árboles de comunicación (si la persona principal no responde, el sistema contacta al secundario)
Respaldos físicos (contactos de emergencia impresos en sala de control)

Ejemplo real de mina en Indonesia:

Incidente de 2019: El sistema principal de monitoreo de piezómetros falló durante el fin de semana. El registrador de datos se corrompió. Nadie lo notó hasta el lunes porque no había respaldo.

Rediseño del sistema:

Se instaló monitoreo redundante (dos sistemas independientes leyendo los mismos instrumentos)
Validación automática diaria de datos (compara lecturas entre sistemas, marca si son divergentes)
Verificaciones manuales semanales (personal de campo verifica físicamente que los instrumentos clave estén funcionando)
Sistemas de energía de respaldo con conmutación automática
Sistemas de comunicación redundantes (celular + satélite)

Prueba de 2023: El sistema principal tuvo una falla de hardware el viernes por la noche. El sistema de respaldo continuó operando, la falla fue detectada a través de la validación automatizada, el equipo de mantenimiento fue notificado y lo arregló el sábado por la tarde. Las operaciones continuaron de manera segura durante todo el tiempo.

Sin punto único de falla significó que el sistema se degradó con gracia en lugar de fallar catastróficamente.

Característica 5: Bucles de Retroalimentación (El Sistema se Autocorrige)

Los sistemas que fallan a las 3 AM son de bucle abierto:

Sistema de bucle abierto:

Entrada → Acción → Salida
Sin verificación de que la salida sea correcta
Sin corrección si la salida está mal

Ejemplo: El procedimiento dice “realizar inspección visual diaria.” La persona hace la inspección. Completa la lista de verificación. Listo.

Pero: ¿Qué pasa si se perdieron algo? ¿Qué pasa si las condiciones cambiaron después de la inspección? ¿Qué pasa si la lista de verificación no captura lo que importa hoy?

Los sistemas que funcionan a las 3 AM son de bucle cerrado:

Sistema de bucle cerrado:

Entrada → Acción → Salida → Medición → Comparación con lo Esperado → Corrección si es Necesario

Ejemplo: Inspección visual diaria, pero con retroalimentación:

Inspección realizada, lista de verificación completada
Fotos tomadas en ubicaciones clave
Fotos comparadas automáticamente con días anteriores (IA marca cambios)
Supervisor revisa cambios marcados
Si hay cambio significativo: Activa investigación
Los resultados de la investigación vuelven a alimentar la lista de verificación de inspección (¿qué deberíamos buscar en el futuro?)

El sistema aprende y mejora.

Ejemplo real de bucle de retroalimentación de mina de cobre en Canadá:

Sistema de seguimiento de respuesta TARP:

Evento: Ocurre activación de TARP
Acción: Se implementa el protocolo de respuesta
Medición: El sistema rastrea el tiempo de respuesta, las acciones tomadas, el resultado
Análisis: Revisión mensual de todas las activaciones de TARP:
- ¿Qué tan rápido respondimos?
- ¿Fueron efectivas las respuestas?
- ¿Seguimos los protocolos?
- ¿Fueron apropiados los protocolos?
Corrección: Actualizar TARPs, capacitación, sistemas basados en el análisis
Verificación: Rastrear si los cambios mejoraron el desempeño

Lo que descubrieron a través del análisis de retroalimentación:

Descubrimiento 1: Tiempo promedio desde activación Amarilla hasta notificación al RTFE: 3.2 horas (el objetivo era 2 horas)

Causa raíz: Operadores del turno nocturno dudaban en despertar al RTFE por “tal vez nada”
Corrección: Protocolo cambiado - notificación automatizada más el operador agrega contexto (“lluvia fuerte en curso, tendencia de aumento continúa” vs “lluvia detenida, lectura estabilizándose”). El RTFE puede evaluar la situación sin que el operador se preocupe por falsas alarmas.
Resultado: El tiempo promedio de notificación bajó a 0.3 horas.

Descubrimiento 2: TARPs Naranjas activados tres veces en 6 meses, cada vez durante lluvia fuerte. Los piezómetros aumentaron bruscamente, luego cayeron de nuevo a normal dentro de 48 horas a medida que el agua drenaba.

Pregunta: ¿Son los umbrales demasiado sensibles? ¿O es apropiada la respuesta rápida?
Análisis: EOR revisó. Determinó que los umbrales eran apropiados para detectar problemas potenciales, pero las reversiones rápidas indicaban que el drenaje estaba funcionando bien. No falsas alarmas - sistema funcionando según lo diseñado.
Corrección: Sin cambio de umbral, pero capacitación mejorada para operaciones: “Estos picos durante tormentas son esperados. Respondemos porque es prudente, no porque pensemos que la falla es inminente. Si los piezómetros NO bajan después de que pare la lluvia, esa es la verdadera preocupación.”
Resultado: El personal de operaciones entendió mejor el sistema, menos fatiga de alarmas, mantuvo la vigilancia apropiada.

El bucle de retroalimentación convirtió los datos en aprendizaje.

Característica 6: Resiliencia (El Sistema Funciona Bajo Estrés)

Los sistemas que fallan a las 3 AM son frágiles:

Sistemas frágiles:

Funcionan bien bajo condiciones normales
Fallan cuando están estresados (clima inusual, fallas de equipo, múltiples problemas simultáneos, personal clave ausente)
Modos de falla catastrófica (pequeñas perturbaciones causan grandes fallas)

Los sistemas que funcionan a las 3 AM son resilientes:

Sistemas resilientes:

Funcionan bajo condiciones normales Y anormales
Se degradan con gracia bajo estrés (el desempeño disminuye pero no colapsa)
Se recuperan rápidamente de perturbaciones
Aprenden de eventos estresantes y se vuelven más fuertes

Ejemplo real: Probar la resiliencia a través de simulación:

Mina en Australia realizó “simulaciones de prueba de estrés”:

Simulación 1: “Todo se Rompe el Viernes por la Noche”

Escenario: El sistema de monitoreo principal falla a las 10 PM del viernes. El sistema de respaldo muestra tendencia preocupante del piezómetro. Pronóstico de tormenta para la noche. RTFE de vacaciones. Superintendente en boda (inalcanzable). EOR no contesta el teléfono.
Pregunta: ¿Qué sucede?

Realidad pre-2020: Habría sido caos. Probablemente respuesta retrasada hasta el lunes. Posiblemente peligroso.

Sistema post-2020:

El monitoreo de respaldo continúa
El RTFE de respaldo recibe alerta automatizada
El supervisor de operaciones tiene autoridad para implementar medidas de precaución (reducir deposición, prepararse para emergencia)
El ingeniero de guardia (designado semanalmente) proporciona apoyo técnico
EOR tiene contacto de respaldo (socio en la firma que conoce la instalación)
El sistema se degradó pero no falló

Simulación 2: “Escenario de Cascada”

Lluvia fuerte → Piezómetros en aumento → TARP Amarillo activado → Monitoreo aumentado revela falla de instrumento → Necesidad de evaluar con instrumentación reducida → Mientras tanto, pendiente de playa aumentando detectada → Múltiples problemas simultáneamente
Pregunta: ¿Puede el sistema manejar múltiples problemas concurrentes?

Resultado: Identificaron que su sistema podía manejar 2 problemas simultáneos pero tendría dificultades con 3+. Crearon plan de capacidad de oleada: Contratistas preidentificados en espera, autoridad de presupuesto de emergencia, protocolos de movilización rápida.

El valor de las pruebas de estrés: Revela debilidades del sistema antes de que ocurran emergencias reales.

El Elemento Humano: Los Sistemas Deben Tener en Cuenta Cómo se Comportan Realmente los Humanos

Aquí hay una verdad incómoda: Incluso los procedimientos perfectos fallan si no tienen en cuenta la psicología humana.

Factor Humano 1: Fatiga de Decisión

Realidad: A las 3 AM en un turno de 12 horas, la capacidad de toma de decisiones de las personas está deteriorada.

Respuesta del diseño del sistema:

Minimizar las decisiones requeridas fuera del horario
Automatizar lo que se puede automatizar
Proporcionar orientación clara para las decisiones requeridas
Escalar a personal fresco cuando sea posible

Ejemplo:

Sistema malo: “Si la lectura del piezómetro está elevada, determinar la respuesta apropiada según las condiciones, historial de lluvia, otras lecturas de instrumentos y juicio de ingeniería.”

A las 3 AM después de 9 horas de turno: Eso es demasiada carga cognitiva. La persona probablemente se predeterminará a “esperar hasta el turno diurno.”

Sistema bueno: “Si el piezómetro excede el umbral: (1) Alerta automática enviada. (2) Tú: Verifica la lectura revisando otros instrumentos en la misma zona. (3) El sistema muestra: ¿Otras lecturas también están elevadas? Sí/No. (4) Si Sí: Implementar Protocolo A (mostrado en pantalla). Si No: Posible problema de instrumento - cambiar a respaldo si está disponible, documentar en registro.”

Decisión reducida a verificación simple y seguimiento del protocolo mostrado.

Factor Humano 2: Normalización de la Desviación

Realidad: Cuando nada malo sucede a pesar de desviaciones menores de los procedimientos, las personas gradualmente aceptan desviaciones mayores como normales.

Ejemplo de progresión:

Semana 1: TARP dice notificar dentro de 2 horas. Notificamos dentro de 3 horas. No pasó nada malo.
Semana 4: Notificamos dentro de 6 horas. Todavía bien.
Semana 12: Esperando hasta el siguiente turno para notificar. Se convierte en la norma.
Semana 30: Ocurre evento mayor. Respuesta retrasada porque la práctica real se había desviado mucho del procedimiento.

Respuesta del diseño del sistema:

Pista de auditoría y monitoreo de desempeño:

El sistema rastrea tiempos de respuesta REALES, no solo si ocurrió la respuesta
Informes automatizados marcan desviaciones (informe mensual al Ejecutivo Responsable muestra: Notificación objetivo de 2 horas lograda 73% del tiempo, promedio real 4.1 horas)
Las desviaciones desencadenan revisión: ¿Por qué no estamos cumpliendo objetivos? ¿Son objetivos poco realistas? ¿O no se están siguiendo los procedimientos?

De cualquier manera, la visibilidad previene la deriva.

Ejemplo real de mina que detectó la normalización temprano:

La auditoría mensual de TARP reveló: Las activaciones Naranjas deberían detener la deposición inmediatamente pendiente de evaluación. Práctica real: La deposición continuó mientras ocurría la evaluación (promedio 4 horas). Sucedió 5 veces en 6 meses.

La investigación reveló: Las operaciones sintieron que detener inmediatamente era “exagerar” porque las evaluaciones siempre concluían que la deposición podía reanudarse. Así que continuaron mientras esperaban la evaluación.

Respuesta:

Corto plazo: Recordatorio de que el protocolo debe seguirse como está escrito
Largo plazo: Protocolo actualizado - la activación Naranja permite deposición continua durante hasta 2 horas SI la evaluación está en curso Y el RTFE autoriza explícitamente. Después de 2 horas, debe detenerse hasta que se complete la evaluación.

Resultado: Protocolo modificado para coincidir con la realidad mientras se mantiene la seguridad. Pero el protocolo original se hizo cumplir hasta que ocurrió el cambio formal - previniendo que la normalización continuara sin control.

Factor Humano 3: Efecto Espectador y Difusión de Responsabilidad

Realidad: Cuando múltiples personas están presentes (o podrían estar involucradas), los individuos tienen menos probabilidades de tomar acción, asumiendo que alguien más lo hará.

Ejemplo: Múltiples supervisores de turno ven tendencia de monitoreo preocupante. Cada uno asume que otro supervisor lo reportará. Nadie lo reporta.

Respuesta del diseño del sistema:

Asignación individual clara:

No “alguien debería revisar los piezómetros”
Sino “Charlie: Estás asignado a la verificación de piezómetros hoy, resultados debidos para las 14:00, el sistema alertará si no se completa”

Forzar reconocimiento:

Las alertas críticas requieren reconocimiento: “Haz clic aquí para confirmar que TÚ has recibido esta alerta y estás asumiendo la responsabilidad de la respuesta”
Sin ambigüedad sobre quién es responsable

Escalación por inacción:

Si la alerta no se reconoce dentro del plazo, escala al supervisor
Crea responsabilidad

Factor Humano 4: Sesgo de Retrospección (El Problema del “Debería Haber Sabido”)

Realidad: Después de un incidente, es fácil decir “deberían haber sabido que esto era serio.” Pero en el momento, sin retrospección, las señales son ambiguas.

Respuesta del diseño del sistema:

Diseñar para la ambigüedad:

Aceptar que las personas enfrentarán situaciones ambiguas
Errar del lado de la precaución
Hacer que “escalar cuando no estás seguro” sea el comportamiento alentado
No castigar a las personas por “falsas alarmas”

Ejemplo real de manejo bien de la ambigüedad:

Mina en Perú, 2 AM, supervisor nocturno observa:

La lectura del piezómetro P-7 aumentó 8% en 6 horas
Todavía muy por debajo del umbral Amarillo
Lluvia fuerte antes (detenida hace 3 horas)
La lectura podría ser solo respuesta a lluvia
O podría ser el comienzo de una tendencia

Lo que hizo: Llamó al RTFE de respaldo (persona de guardia designada). Explicó la situación: “Probablemente nada, pero quería que estuvieras al tanto. Lo estoy vigilando.”

Respuesta del RTFE de respaldo: “Buena decisión. Sigue monitoreando cada hora. Si continúa aumentando o si otros instrumentos muestran cambios, llámame de inmediato. Si se estabiliza, lo revisaremos en la mañana.”

Resultado: La lectura se estabilizó dentro de 2 horas. Fue respuesta a lluvia.

Pero aquí está la parte importante:

La semana siguiente, en la reunión de operaciones:

El supervisor mencionó la llamada
Algunos colegas: “¿Despertaste al RTFE por nada?”
RTFE (que estaba allí): “No - eso fue exactamente correcto. Prefiero recibir diez llamadas sobre tendencias que resultan ser nada que perderme una que sea realmente importante. Hiciste el juicio correcto.”

El mensaje cultural: Errar del lado de la precaución es alentado, no burlado.

Eso es un sistema que funciona.

Construyendo Sistemas, No Solo Procedimientos: Un Marco Práctico

Si estás convencido de que tu TMS necesita ser un sistema en lugar de documentos, pero no sabes cómo llegar allí:

Paso 1: Mapear el Estado Actual (Dónde se Rompen los Sistemas)

Ejercicio para tu equipo:

Presenta escenarios y pregunta: “¿Qué sucedería realmente?”

Ejemplos de escenarios:

“3 AM sábado. Alerta automática muestra umbral Amarillo del piezómetro. ¿Qué sucede en los próximos 30 minutos?”
“Turno diurno. Múltiples instrumentos mostrando lecturas inusuales (no activaciones de TARP pero raras). ¿Quién investiga? ¿Cuánto tiempo toma?”
“RTFE de vacaciones, superintendente en conferencia. TARP Naranja activado. ¿Quién toma las decisiones?”

Mapea el proceso real:

¿Quién es notificado (realmente, no teóricamente)?
¿Cuánto tiempo toma (realmente, no según el procedimiento)?
¿Qué decisiones se toman y por quién?
¿Dónde se rompe el proceso?
¿Qué información no está disponible cuando se necesita?

Identifica brechas:

Responsabilidades ambiguas
Flujos de información faltantes
Tecnología que no apoya el flujo de trabajo
Procedimientos que nadie sigue realmente
Puntos únicos de falla

Paso 2: Diseñar Componentes del Sistema (Tecnología + Personas + Procesos)

Para cada función clave, diseña un sistema integrado:

Ejemplo: Sistema de Respuesta TARP

Componentes necesarios:

Tecnología:

Detección automática de umbrales
Sistema de notificación multicanal
Herramientas de apoyo a la decisión (¿qué datos debo mirar?)
Herramientas de documentación (capturar lo que sucedió)
Temporizadores de escalación (alerta si no hay respuesta)

Personas:

Asignaciones de roles claras
Personal principal y de respaldo
Capacitación sobre uso del sistema
Niveles de autoridad definidos

Procesos:

Umbrales TARP y respuestas
Protocolos de comunicación
Marcos de toma de decisiones
Proceso de revisión posterior a la acción

Integración:

La tecnología apoya a las personas ejecutando procesos
Los procesos aprovechan las capacidades de la tecnología
Las personas entienden por qué el sistema está diseñado de esta manera

Paso 3: Construir Retroalimentación y Mejora

Cada componente del sistema necesita mecanismo de retroalimentación:

Ejemplos:

Sistema TARP:

Rastrear cada activación: Tiempo de respuesta, acciones tomadas, resultado, si fue efectivo
Análisis mensual: ¿Son apropiados los umbrales? ¿Funcionan las respuestas? ¿Siguen los protocolos las personas?
Revisión trimestral: Mejoras del sistema basadas en el análisis

Sistema de capacitación:

Rastrear finalización de capacitación
Probar retención de conocimiento
Medir desempeño de personal capacitado vs no capacitado
Actualizar capacitación basada en errores reales cometidos en campo

Sistema de monitoreo:

Rastrear confiabilidad de instrumentos
Medir calidad de datos
Identificar instrumentos que frecuentemente fallan o dan lecturas cuestionables
Optimizar red de monitoreo basada en el valor de diferentes instrumentos

Paso 4: Probar Bajo Condiciones Realistas

No solo asumas que el sistema funcionará - pruébalo:

Tipos de pruebas:

Prueba funcional: ¿Funciona cada componente? (Prueba técnica de software, instrumentos, comunicaciones)

Prueba de integración: ¿Funcionan los componentes juntos? (Pruebas de flujo de trabajo completo)

Prueba de estrés: ¿Funciona el sistema bajo condiciones anormales? (Simulaciones de fallas múltiples, escenarios fuera de horario, personal clave ausente)

Prueba de usuario: ¿Pueden los usuarios reales usar el sistema efectivamente? (Observar usuarios reales, identificar dónde tienen dificultades)

Ejemplo real de prueba que revela problemas:

Mina probó su sistema de respuesta de emergencia:

Simuló TARP Naranja a las 2 AM del viernes
Probó si el sistema de notificación funcionaba, si el personal respondía apropiadamente, si la información estaba disponible

Lo que descubrieron:

La tecnología funcionó: Alertas enviadas, recibidas, reconocidas
Brecha de información: El personal necesitaba revisar datos recientes del clima y operaciones para evaluar la situación. Esos datos no eran fácilmente accesibles a las 2 AM (requería iniciar sesión en múltiples sistemas)
Brecha de apoyo a decisiones: RTFE recibió alerta pero sin orientación sobre qué información revisar o a quién consultar

Resultado: El rediseño del sistema incluyó panel integrado accesible vía teléfono mostrando clima reciente, operaciones y todos los datos de monitoreo relevantes en un solo lugar.

La prueba reveló que el sistema funcionaba técnicamente pero no apoyaba efectivamente la toma de decisiones.

Paso 5: Incorporar Mejora Continua

Los sistemas deben evolucionar:

Cómo se ve esto:

Revisión trimestral del sistema:

¿Qué incidentes ocurrieron?
¿Cómo se desempeñó el sistema?
¿Qué casi accidentes ocurrieron?
¿Qué aprendizajes externos son relevantes? (incidentes en otras instalaciones, nuevas tecnologías, cambios regulatorios)
¿Qué mejoras deberíamos hacer?

Auditoría anual del sistema:

¿El sistema todavía es adecuado para el propósito?
¿Han cambiado los riesgos requiriendo actualizaciones del sistema?
¿Las tecnologías están obsoletas?
¿El personal tiene las habilidades y conocimientos necesarios?
¿Todavía se siguen y son efectivos los procedimientos?

Captura continua de aprendizaje:

Revisiones posteriores a la acción para cada evento significativo
Aprendizaje documentado y compartido
Sistema actualizado basado en aprendizajes
Tendencias analizadas para problemas sistémicos

Ejemplo real de mina con mejora continua madura:

Mantienen “Registro de Evolución del Sistema”:

Cada cambio del sistema documentado con justificación
Enlaces a incidentes o aprendizajes que impulsaron el cambio
Efectividad de los cambios rastreada con el tiempo

Entrada de ejemplo:

Fecha: Marzo 2023
Cambio: Agregada comunicación redundante celular y satelital para sistema de monitoreo
Justificación: Incidente de noviembre de 2022 - red celular caída durante tormenta, datos de monitoreo no disponibles remotamente
Seguimiento de efectividad: Tiempo de actividad de comunicación 99.97% desde el cambio (vs 97.3% antes). Sin brechas de comunicación durante 8 eventos climáticos significativos desde la implementación.

El registro muestra que el sistema está aprendiendo y mejorando continuamente.

El Papel del Sistema de Cumplimiento: Habilitando el Pensamiento de Sistemas

Tu plataforma de cumplimiento GISTM debería apoyar sistemas, no solo documentar requisitos:

Lo que Habilitan las Plataformas de Cumplimiento con Pensamiento de Sistemas:

1. Integración de Flujo de Trabajo

Conectar datos de monitoreo → Evaluación TARP → Acciones de respuesta → Documentación → Revisión
Enrutamiento automatizado de información a las personas correctas en el momento correcto
Capturar actividad completa del sistema, no solo puntos finales

2. Análisis de Desempeño

Rastrear desempeño del sistema (tiempos de respuesta, efectividad, tasas de cumplimiento)
Identificar tendencias y patrones
Marcar degradación antes de la falla

3. Apoyo a Bucle de Retroalimentación

Plantillas de revisión posterior a la acción y seguimiento
Captura y compartición de aprendizaje
Seguimiento de mejora del sistema

4. Prueba de Escenarios

Simular eventos y probar respuesta del sistema
Documentar ejercicios y aprendizajes
Rastrear preparación con el tiempo

5. Integración con Sistemas Operacionales

Conectar a sistemas de monitoreo (datos fluyen automáticamente)
Conectar a operaciones (registros de deposición, mantenimiento, clima)
Vista única del estado de la instalación habilitando mejores decisiones

6. Acceso Móvil

Sistema accesible desde cualquier lugar (crítico para escenarios de 3 AM)
Funciona en teléfonos, tabletas, portátiles
Capacidad sin conexión para ubicaciones remotas

El objetivo: El sistema de cumplimiento se convierte en la infraestructura que permite que tu TMS funcione como un sistema integrado, no un repositorio de documentación.

La Pregunta que Solo Tú Puedes Responder

Como Ejecutivo Responsable, imagina esto:

Son las 3 AM. Estás dormido. Condiciones inusuales se desarrollan en tu instalación - no catastróficas, pero requieren juicios y respuesta coordinada.

Tu supervisor del turno nocturno está enfrentando esta situación sin ti.

Pregunta: ¿Confías en tu sistema?

No: ¿Confías en ese individuo? (El personal cambia)

Sino: ¿Confías en que tu TMS:

Detectará la situación
Notificará a las personas correctas
Proporcionará la información necesaria
Apoyará decisiones apropiadas
Documentará lo que sucede
Escalará si es necesario
Mantendrá a las personas seguras

Si tu respuesta honesta es “espero que sí” o “probablemente” o “no estoy seguro” - tienes trabajo que hacer.

Porque el GISTM no solo requiere que tengas un TMS.

Requiere que tu TMS realmente funcione - todo el día, todos los días, incluso a las 3 AM cuando nadie está mirando.

Esa es la prueba que importa.

¿Tu TMS la está superando?

¿Tu sistema de cumplimiento GISTM habilita un TMS integrado, o solo documenta procedimientos aislados? [Descubre plataformas que apoyan el pensamiento de sistemas y operaciones resilientes]

La Prueba de las 3 AM: Construyendo un Sistema de Gestión de Relaves que Funciona Cuando Nadie Está Mirando

Qué Significa “Sistema” Realmente (La Mayoría de las Personas Se Equivocan en Esto)

Las Seis Características de los Sistemas que Funcionan a las 3 AM

Característica 1: Predeterminado a Seguro (No Predeterminado a Conveniente)

Característica 2: Responsabilidad Visible (Todos Saben Quién Hace Qué)

Característica 3: Funciones de Forzado (Hacer Difíciles las Elecciones Incorrectas)

Característica 4: Redundancia (Sin Puntos Únicos de Falla)

Característica 5: Bucles de Retroalimentación (El Sistema se Autocorrige)

Característica 6: Resiliencia (El Sistema Funciona Bajo Estrés)

El Elemento Humano: Los Sistemas Deben Tener en Cuenta Cómo se Comportan Realmente los Humanos

Factor Humano 1: Fatiga de Decisión

Factor Humano 2: Normalización de la Desviación

Factor Humano 3: Efecto Espectador y Difusión de Responsabilidad

Factor Humano 4: Sesgo de Retrospección (El Problema del “Debería Haber Sabido”)

Construyendo Sistemas, No Solo Procedimientos: Un Marco Práctico

Paso 1: Mapear el Estado Actual (Dónde se Rompen los Sistemas)

Paso 2: Diseñar Componentes del Sistema (Tecnología + Personas + Procesos)

Paso 3: Construir Retroalimentación y Mejora

Paso 4: Probar Bajo Condiciones Realistas

Paso 5: Incorporar Mejora Continua

El Papel del Sistema de Cumplimiento: Habilitando el Pensamiento de Sistemas

Lo que Habilitan las Plataformas de Cumplimiento con Pensamiento de Sistemas:

La Pregunta que Solo Tú Puedes Responder

Share this article