Gobierno de datos sin parálisis: el péndulo que nadie calibra

La mayoría de las iniciativas de gobierno de datos en organizaciones latinoamericanas oscilan entre dos extremos igualmente disfuncionales. En un extremo, la ausencia total de governance: los datos viven en silos departamentales, cada área tiene su propia versión de la verdad, nadie sabe quién es responsable de la calidad de un campo crítico, y cuando dos reportes muestran números diferentes para la misma métrica, la discusión se resuelve por jerarquía política, no por evidencia. En el otro extremo, la sobre-regulación: un comité de gobierno de datos que se reúne mensualmente, un catálogo de datos que nadie consulta, políticas de 40 páginas que nadie lee, y un proceso de solicitud de acceso tan engorroso que los usuarios prefieren mantener sus propias copias en Excel. Ambos extremos producen el mismo resultado: las decisiones de negocio se toman con datos de calidad desconocida.

El problema fundamental que el gobierno de datos intenta resolver es simple de enunciar y difícil de implementar: que la organización pueda confiar en sus datos para tomar decisiones. DAMA International (2017), en el DMBOK2 — el cuerpo de conocimiento más referenciado en la disciplina — define gobierno de datos como el ejercicio de autoridad, control y toma de decisiones compartida sobre la gestión de activos de datos. La definición es técnicamente correcta pero operativamente vacía: no dice quién ejerce esa autoridad, sobre qué datos específicos, con qué mecanismos, ni cómo se resuelven los conflictos inevitables entre áreas que tienen intereses diferentes sobre los mismos datos.

La pregunta operativa que las organizaciones necesitan responder no es “¿tenemos gobierno de datos?” sino “¿quién decide qué cuando dos áreas discrepan sobre un dato?” Si un banco tiene dos cifras diferentes de clientes activos — una del área comercial y otra del área de riesgo — porque usan definiciones diferentes de “activo,” la solución no es un comité de governance que se reúna en tres semanas para debatir la definición. La solución es un mecanismo de decisión que resuelva esa discrepancia en horas, con una persona que tenga la autoridad y el contexto para decidir cuál definición prevalece para qué propósito.

Ladley (2019), en “Data Governance: How to Design, Deploy, and Sustain an Effective Data Governance Program,” identificó un patrón que es particularmente prevalente en organizaciones de la región: la confusión entre governance y control. Governance es decidir quién decide. Control es verificar que las decisiones se cumplan. Las organizaciones que implementan governance como control — auditorías de calidad, validaciones automatizadas, restricciones de acceso — sin haber resuelto primero la capa de decisión, terminan con sistemas que detectan problemas pero no tienen mecanismo para resolverlos. El dashboard de calidad de datos muestra 847 registros con errores, el reporte se envía mensualmente, y los errores persisten porque nadie tiene la responsabilidad ni la autoridad para corregirlos.

El concepto de “data owner” — ampliamente promovido en la literatura de governance — merece un examen crítico en el contexto de organizaciones reales. La idea es que cada activo de datos tiene un dueño de negocio que es responsable de su calidad, definición y uso adecuado. En la práctica, asignar ownership de datos produce tres resultados típicos. Primero, el owner designado acepta el título pero no la responsabilidad porque tiene un trabajo de tiempo completo que no incluye gestionar datos. Segundo, el ownership se asigna al área de TI por default, lo cual es técnicamente conveniente pero semánticamente incorrecto — TI puede gestionar la infraestructura donde viven los datos pero no puede decidir qué significa “cliente activo” para el negocio. Tercero, el ownership se asigna pero no se operacionaliza — no hay cadencia de revisión, no hay métricas de calidad asociadas, no hay consecuencias cuando la calidad se degrada.

La alternativa funcional al modelo de ownership puro es lo que algunas organizaciones maduras implementan como “stewardship operativo”: personas que no son dueños de los datos sino custodios con mandato específico. El custodio no decide la definición de negocio de un campo — eso lo decide el área de negocio correspondiente. El custodio verifica que la definición se cumpla, detecta anomalías, escala problemas y facilita la resolución. La diferencia es sutil pero operativamente significativa: el custodio no necesita autoridad jerárquica sobre las fuentes de datos, necesita mandato para señalar problemas y un mecanismo de escalamiento que funcione cuando el problema no se resuelve en primera instancia.

En sectores regulados, el gobierno de datos tiene una dimensión adicional que la literatura general no siempre aborda: las obligaciones regulatorias definen requerimientos de datos que no son negociables. Un banco no puede decidir que la calidad del campo “identificación del cliente” es “aceptable” con un 95% de completitud — el regulador exige 100%, y el incumplimiento tiene consecuencias legales. Esto crea una jerarquía natural de prioridades para governance: los datos que están bajo obligación regulatoria reciben governance estricta con controles automatizados y tolerancia cero a errores; los datos que informan decisiones de negocio reciben governance proporcional a la importancia de la decisión; los datos operativos que no afectan ni regulación ni decisiones estratégicas reciben governance mínima o ninguna.

Esta priorización — que parece obvia una vez enunciada — rara vez se implementa. La tendencia natural es aplicar governance uniforme a todos los datos, lo cual produce dos problemas simultáneos: governance insuficiente para los datos críticos (porque los recursos se dispersan) y governance excesiva para los datos triviales (porque el framework no discrimina). El resultado es una función de governance que consume recursos sin producir confianza proporcional.

La implementación de governance de datos en una organización que no tiene ninguna debe comenzar por el inventario de decisiones críticas — no por el catálogo de datos. La pregunta es: ¿qué decisiones de negocio están siendo afectadas por problemas de datos? Si el área comercial no confía en las cifras de pipeline porque los datos del CRM tienen duplicados, esa es una decisión específica afectada por un problema específico de datos. Resolver ese problema — definir la regla de deduplicación, asignar a alguien la responsabilidad de mantenerla, automatizar la detección de duplicados nuevos — es governance funcional. No requiere un catálogo de 3,000 campos ni un comité de 12 personas. Requiere una decisión, un responsable y un mecanismo de verificación.

Eckerson (2021), en su trabajo sobre madurez de datos, propuso un modelo de evolución que es pragmáticamente útil: las organizaciones no pasan de caos a governance madura en un paso. Pasan por etapas donde governance se aplica primero a los datos más dolorosos (los que causan problemas visibles), luego se extiende a los más valiosos (los que informan decisiones estratégicas), y finalmente — si la inversión lo justifica — a los operativos. Intentar implementar governance comprehensiva desde el inicio es la forma más segura de producir un framework bonito que no se usa.

La tecnología de governance — catálogos de datos, herramientas de linaje, plataformas de calidad — merece una nota de precaución. El mercado de herramientas de data governance ha crecido significativamente, y los vendors promueven la idea de que la herramienta resuelve el problema. No lo hace. Una herramienta de catálogo de datos que nadie actualiza es un catálogo desactualizado con interfaz moderna. Una herramienta de linaje que mapea el flujo de datos pero no identifica quién es responsable de cada punto del flujo produce mapas bonitos sin accountability. La herramienta es útil solo cuando las decisiones de governance ya están tomadas — quién decide qué, con qué estándares, con qué frecuencia de revisión. Sin esas decisiones, la herramienta automatiza el vacío.

Hay un test que cualquier organización puede aplicar para evaluar si su gobierno de datos funciona o es teatro: toma una métrica que se reporta en la reunión ejecutiva mensual y pregunta tres cosas. ¿Quién es responsable de la calidad de los datos que alimentan esa métrica? ¿Cuándo fue la última vez que se validó que la definición del campo coincide con lo que el negocio entiende? ¿Qué pasa cuando la calidad del dato se degrada? Si las respuestas son “no sé,” “nunca” y “nada,” el gobierno de datos no existe — independientemente de cuántos documentos de política, comités y herramientas se hayan implementado.

El costo de no tener governance funcional es difícil de cuantificar pero fácil de observar: reuniones ejecutivas donde el primer 30% del tiempo se gasta debatiendo si los números son correctos, decisiones postergadas porque “necesitamos validar los datos primero,” análisis duplicados porque cada área produce sus propias cifras, y una erosión gradual de la confianza en cualquier dato que se presente. Gartner estimó que las organizaciones pierden un promedio de 12.9 millones de dólares anuales debido a la baja calidad de datos — pero esta cifra, útil para reportes, oculta la verdadera pérdida: el costo de oportunidad de las decisiones que no se toman, o que se toman tarde, porque los datos no son confiables.

La governance de datos efectiva no se parece a un framework comprehensivo con 47 procesos documentados. Se parece a un conjunto reducido de decisiones claras: estos son los datos que importan, estas son las personas responsables, estos son los estándares mínimos, este es el mecanismo cuando algo falla. Todo lo demás es overhead que compite con el trabajo real del negocio y que, acumulado, termina produciendo la misma parálisis que la ausencia de governance — solo que con más documentación. Para las organizaciones que están evaluando implementar IA, el punto de partida es aún más concreto: arreglar los datos desordenados antes de pensar en IA — porque la IA no corrige datos malos, los amplifica.

Referencias

DAMA International. (2017). DAMA-DMBOK: Data Management Body of Knowledge (2nd ed.). Technics Publications.
Eckerson, W. W. (2021). The data maturity model. Eckerson Group Research Report.
Gartner. (2020). How to measure the cost of poor data quality. Gartner Research.
Ladley, J. (2019). Data Governance: How to Design, Deploy, and Sustain an Effective Data Governance Program (2nd ed.). Academic Press.