En febrero de 2026, investigadores de la Universidad de Stanford y la Universidad de Princeton publicaron uno de los análisis comparativos más rigurosos jamás realizados sobre modelos de lenguaje de gran escala. El objetivo era directo y sin rodeos: medir si los sistemas de inteligencia artificial desarrollados en China responden de manera diferente a preguntas sensibles desde el punto de vista político en comparación con sus equivalentes occidentales.
La respuesta fue contundente. **Los modelos de IA de origen chino eludieron, distorsionaron o rechazaron responder preguntas políticamente sensibles hasta en un 63% más de las veces que modelos equivalentes desarrollados en Estados Unidos o Europa.** Este no es un dato menor. Es una señal de alerta estratégica para cualquier organización que esté evaluando qué sistema de inteligencia artificial integrar en sus procesos de toma de decisiones.
Para los directivos que están construyendo arquitecturas de datos o implementando agentes autónomos en sus operaciones, conocer el origen y las restricciones implícitas de sus herramientas de IA ya no es opcional. Es parte del análisis de riesgo.
Qué Midieron los Investigadores y Cómo lo Hicieron
El equipo de investigación diseñó un banco de preguntas estructurado en tres categorías: temas políticamente neutros, temas geopolíticamente sensibles a nivel global y temas específicamente sensibles dentro del contexto del gobierno chino (como Tiananmen, Taiwán, Xinjiang o la figura de Xi Jinping). Los modelos fueron evaluados tanto en su versión en chino mandarín como en inglés.
Los hallazgos revelaron un patrón sistemático y no accidental. Los modelos entrenados en China no simplemente se negaban a responder: con frecuencia ofrecían respuestas que parecían completas pero que omitían información crítica, redirigían la conversación hacia narrativas oficiales o generaban datos históricamente inexactos alineados con la postura del gobierno. Este comportamiento fue denominado por los investigadores como “autocensura activa” para distinguirlo de la simple negativa a responder.
Los Modelos Evaluados: Nombres y Comportamientos
El estudio incluyó evaluaciones de sistemas ampliamente utilizados como DeepSeek, Ernie Bot de Baidu, Qwen de Alibaba y otros modelos de menor perfil público. En todos los casos se observó el mismo patrón de autocensura ante preguntas políticamente delicadas para el gobierno de la República Popular China.
Comparativamente, modelos como los de OpenAI, Anthropic y Google mostraron una tasa significativamente menor de evasión, aunque los investigadores fueron cuidadosos en señalar que ningún modelo occidental es completamente neutral: también exhiben sesgos, pero de naturaleza distinta y con mecanismos de transparencia más documentados. La diferencia clave radica en que los sesgos occidentales son debatidos públicamente, mientras que los sesgos en los modelos chinos parecen estar institucionalizados a nivel de entrenamiento.