¿Por qué las encuestas de clima organizacional mienten (y qué hacer al respecto)?

La mayoría de las organizaciones que miden clima organizacional confían en instrumentos diseñados para contextos que no se parecen al suyo. Esto no es un problema menor ni una cuestión académica: las decisiones de intervención, los presupuestos de desarrollo organizacional y las prioridades de recursos humanos se construyen sobre esos datos. Si los datos están mal fundamentados, las decisiones que se derivan de ellos heredan ese error — y nadie lo nota porque el proceso parece riguroso.

El problema comienza con una suposición que rara vez se examina. Los instrumentos de clima organizacional más utilizados en América Latina — adaptaciones de Likert, Litwin y Stringer, o variantes comerciales de Hay Group y Great Place to Work — fueron diseñados y validados en poblaciones grandes. Sus propiedades psicométricas se establecieron con muestras de cientos o miles de respondientes. Cuando una organización de 40 personas aplica uno de estos instrumentos, asume que la validez del instrumento se transfiere automáticamente a su contexto. Esa suposición es, en el mejor de los casos, optimista.

La Teoría Clásica de los Tests (TCT), que subyace a la mayoría de estos instrumentos, depende de la estabilidad estadística que solo emerge con muestras suficientes. Indicadores como el coeficiente alfa de Cronbach — probablemente el estadístico más citado y menos comprendido en la gestión de personas — requieren varianza suficiente entre respondientes para producir estimaciones confiables. Cronbach y Shavelson (2004) dedicaron uno de sus últimos trabajos conjuntos a señalar los malentendidos persistentes sobre el coeficiente, incluyendo su uso inadecuado en muestras pequeñas y su confusión con la validez del instrumento. Un alfa de 0.85 en una muestra de 500 personas no significa lo mismo que un alfa de 0.85 en una muestra de 25, pero pocas plataformas de clima hacen esa distinción visible para el usuario.

El problema se agrava cuando se intenta medir acuerdo intragrupo. El índice rwg, propuesto originalmente por James, Demaree y Wolf (1984) para evaluar el consenso dentro de grupos de trabajo, es una herramienta estadísticamente útil — pero su interpretación correcta requiere atención a supuestos que frecuentemente se ignoran. El rwg compara la varianza observada contra una distribución teórica de respuestas aleatorias (distribución uniforme). Si un equipo de 8 personas puntúa un ítem de forma similar, el rwg será alto, sugiriendo consenso. Pero con 8 respondientes, la diferencia entre consenso real y coincidencia estadística es delgada. LeBreton y Senter (2008) documentaron extensamente los problemas de interpretación del rwg, incluyendo su sensibilidad al número de opciones de respuesta y la elección de la distribución nula.

Esto lleva a una pregunta incómoda que las organizaciones pequeñas y medianas rara vez se hacen: ¿es estadísticamente posible medir clima organizacional de forma confiable con menos de 50 respondientes? La respuesta técnica es “depende” — de la estructura del instrumento, el número de dimensiones, la homogeneidad del grupo y el propósito de la medición. Pero la respuesta práctica es que la mayoría de las herramientas comerciales disponibles no están diseñadas para funcionar bien en ese rango, y no lo advierten.

Bliese (2000) estableció que los análisis multinivel — como el Modelo Lineal Jerárquico (HLM) que muchos estudios académicos de clima utilizan — requieren un mínimo de 30 grupos con al menos 10 individuos cada uno para producir estimaciones estables de los componentes de varianza entre niveles. Esto significa que una organización individual, sin importar su tamaño, no puede aplicar HLM de forma significativa a sus propios datos. Necesitaría datos comparativos de múltiples organizaciones similares, algo que las plataformas comerciales ofrecen parcialmente a través de benchmarks, pero que introduce sus propios problemas de comparabilidad.

El benchmarking de clima organizacional merece un examen separado. Cuando una plataforma le dice a una empresa panameña de logística que su “dimensión de liderazgo” está en el percentil 60 respecto a “la industria”, la pregunta relevante es: ¿qué industria, en qué país, medida con qué instrumento, en qué momento? Las bases de datos de benchmarking rara vez son transparentes sobre su composición. Un estudio de Schneider, Ehrhart y Macey (2013) mostró que las puntuaciones de clima varían significativamente por sector, tamaño organizacional y contexto cultural, lo que hace que los benchmarks genéricos sean, en el mejor de los casos, orientativos y, en el peor, engañosos.

Existe además un problema que casi nadie discute abiertamente: la privacidad en equipos pequeños. Cuando una organización de 30 personas segmenta sus resultados por departamento, antigüedad y nivel jerárquico, las combinaciones demográficas pueden identificar individuos. Un departamento de 4 personas donde solo una tiene más de 10 años de antigüedad no es anónimo sin importar lo que diga la política de privacidad. Esto no solo es un problema ético — afecta directamente la calidad de los datos. Cuando las personas saben o sospechan que pueden ser identificadas, ajustan sus respuestas. El fenómeno está documentado en la literatura de encuestas organizacionales (Rogelberg y Stanton, 2007), pero las plataformas comerciales rara vez implementan controles técnicos que lo mitiguen. Una regla mínima de k-anonimato — no reportar resultados para subgrupos menores a un umbral, típicamente 5 — es técnicamente simple de implementar pero comercialmente inconveniente, porque reduce la granularidad del reporte que se puede vender.

La Teoría de Respuesta al Ítem (TRI) ofrece una alternativa metodológica que resuelve algunos de estos problemas. A diferencia de la TCT, la TRI modela la relación entre el atributo latente (por ejemplo, percepción de clima) y la probabilidad de cada respuesta a nivel de ítem individual, no de test completo. Esto permite, en principio, estimaciones más precisas con menos respondientes y la posibilidad de adaptar el instrumento al contexto. Embretson y Reise (2000) documentaron las ventajas teóricas de la TRI sobre la TCT para evaluaciones en contextos con muestras limitadas. Sin embargo, la implementación de TRI requiere calibración previa de los ítems con muestras grandes, lo que devuelve el problema al punto de partida para organizaciones que operan de forma aislada.

¿Qué alternativas existen entonces para organizaciones que necesitan medir clima pero no tienen la escala estadística para hacerlo con los métodos convencionales?

Una dirección es complementar las métricas de percepción con datos de comportamiento observable. El Análisis de Redes Organizacionales (ONA) permite mapear patrones reales de comunicación, colaboración y flujo de información sin depender de autoreportes. Cross y Parker (2004) demostraron que las redes informales de comunicación predicen resultados organizacionales con mayor consistencia que las estructuras formales. El ONA no reemplaza la medición de clima — mide algo diferente — pero proporciona una capa de evidencia que no está sujeta a los mismos sesgos de deseabilidad social y tamaño muestral.

Otra dirección es la aplicación de análisis de estabilidad a los resultados. En lugar de reportar una estructura de factores como si fuera definitiva, se puede evaluar cuán estable es esa estructura mediante técnicas como bootstrapping o análisis de sensibilidad. Si al remover aleatoriamente un 10% de los respondientes la estructura factorial cambia sustancialmente, el resultado no es confiable para tomar decisiones — y eso es información valiosa en sí misma. En el campo de detección de comunidades en redes, el Normalized Mutual Information (NMI) propuesto por Danon et al. (2005) permite cuantificar exactamente cuánto cambia una estructura detectada bajo perturbaciones. Adaptaciones de este principio al análisis de clima permitirían a las organizaciones saber no solo “qué dice la encuesta” sino “cuánto puedo confiar en lo que dice la encuesta.”

Una tercera dirección, menos explorada, es la medición longitudinal con instrumentos breves. En lugar de una encuesta extensa aplicada una vez al año, pulsos cortos (5-8 ítems) aplicados con frecuencia quincenal o mensual permiten construir series temporales que compensan con observaciones repetidas lo que pierden en amplitud. Fisher y To (2012) documentaron las ventajas de los diseños de muestreo de experiencias para capturar variabilidad intraindividual en estados afectivos y percepciones organizacionales. El desafío aquí es la fatiga del respondiente, que requiere rotación inteligente de ítems y diseño cuidadoso de la experiencia de usuario.

Ninguna de estas alternativas es perfecta. Cada una introduce sus propios supuestos, limitaciones y costos de implementación. Pero todas comparten una virtud: hacen explícitas sus limitaciones en lugar de ocultarlas detrás de una interfaz pulida y un reporte en PDF con gráficos de barras.

La pregunta de fondo no es si las encuestas de clima organizacional son útiles — pueden serlo, bajo las condiciones correctas. La pregunta es si las organizaciones que las aplican entienden las condiciones bajo las cuales sus resultados son interpretables. En la experiencia de trabajo con organizaciones de 20 a 500 personas en sectores regulados de Centroamérica y el Caribe, la respuesta es consistente: no lo entienden, no porque carezcan de inteligencia o interés, sino porque las plataformas y proveedores que les venden el servicio no tienen incentivos para explicárselo.

Esto no es un argumento contra la medición. Es un argumento a favor de la honestidad metodológica. Medir clima con 30 personas es posible, pero requiere instrumentos diseñados para ese contexto, controles de privacidad que protejan la calidad de los datos, y reportes que incluyan intervalos de confianza en lugar de cifras absolutas. Requiere, sobre todo, que quien interpreta los resultados entienda qué está mirando — y qué no.

Referencias

Bliese, P. D. (2000). Within-group agreement, non-independence, and reliability: Implications for data aggregation and analysis. In K. J. Klein & S. W. J. Kozlowski (Eds.), Multilevel theory, research, and methods in organizations (pp. 349-381). Jossey-Bass.
Cronbach, L. J., & Shavelson, R. J. (2004). My current thoughts on coefficient alpha and successor procedures. Educational and Psychological Measurement, 64(3), 391-418.
Cross, R., & Parker, A. (2004). The Hidden Power of Social Networks: Understanding How Work Really Gets Done in Organizations. Harvard Business School Press.
Danon, L., Díaz-Guilera, A., Duch, J., & Arenas, A. (2005). Comparing community structure identification. Journal of Statistical Mechanics: Theory and Experiment, P09008.
Embretson, S. E., & Reise, S. P. (2000). Item Response Theory for Psychologists. Lawrence Erlbaum Associates.
Fisher, C. D., & To, M. L. (2012). Using experience sampling methodology in organizational behavior. Journal of Organizational Behavior, 33(7), 917-933.
James, L. R., Demaree, R. G., & Wolf, G. (1984). Estimating within-group interrater reliability with and without response bias. Journal of Applied Psychology, 69(1), 85-98.
LeBreton, J. M., & Senter, J. L. (2008). Answers to 20 questions about interrater reliability and interrater agreement. Organizational Research Methods, 11(4), 815-852.
Rogelberg, S. G., & Stanton, J. M. (2007). Introduction: Understanding and dealing with organizational survey nonresponse. Organizational Research Methods, 10(2), 195-209.
Schneider, B., Ehrhart, M. G., & Macey, W. H. (2013). Organizational climate and culture. Annual Review of Psychology, 64, 361-388.