La próxima vez que veas una respuesta extraordinariamente educada en redes sociales, podría valer la pena echar un segundo vistazo. Podría ser un modelo de inteligencia artificial intentando, aunque sin éxito, integrarse.
El miércoles, un estudio publicado por investigadores de la Universidad de Zúrich, la Universidad de Ámsterdam, la Universidad de Duke y la Universidad de Nueva York destacó que los modelos de IA todavía se distinguen notablemente de los humanos durante las interacciones en redes sociales. El indicador más común de contenido generado por IA es un tono emocional excesivamente amigable. Probaron nueve modelos de peso abierto en plataformas como Twitter/X, Bluesky y Reddit, y encontraron que sus clasificadores podían identificar respuestas de IA con una precisión del 70 al 80 por ciento.
El estudio introduce una dprueba de Turing computacional diseñada para evaluar qué tan de cerca pueden los modelos de IA replicar el lenguaje humano. A diferencia de los métodos que dependen del juicio humano para evaluar la autenticidad, este marco utiliza clasificadores automáticos y análisis lingüístico para aislar características específicas que diferencian el contenido generado por máquinas del texto elaborado por humanos.
6cIncluso después de la calibración, las salidas de las LLM siguen siendo claramente distinguibles del texto humano, particularmente en el tono afectivo y la expresión emocional, escribió el equipo de investigación, liderado por Nicolò Pagan en la Universidad de Zúrich. Exploraron diversos métodos de optimización, que van desde simples indicaciones hasta ajustes finos, y descubrieron que las señales emocionales más profundas continúan indicando que una interacción digital fue creada por un chatbot de IA en lugar de un humano.
La Señal de Toxicidad
Como parte de la investigación, se probaron nueve modelos de lenguaje grande: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B y Apertus-8B-2509.
Cuando se encargó a estos modelos generar respuestas a publicaciones reales en redes sociales de usuarios auténticos, tuvieron dificultades para replicar la negatividad casual y la expresión emocional espontánea típica de las publicaciones humanas. En las tres plataformas, las respuestas generadas por IA tenían puntajes de toxicidad consistentemente más bajos en comparación con las respuestas genuinas de humanos.
Para abordar esta deficiencia, los investigadores intentaron técnicas de optimización, incluidas la provisión de ejemplos de escritura y la recuperación de contexto, para minimizar diferencias estructurales como la longitud de las oraciones o el conteo de palabras. No obstante, las variaciones en el tono emocional permanecieron evidentes. 6cNuestras pruebas de calibración exhaustivas desafían la suposición de que una optimización más sofisticada necesariamente produce una salida más parecida a la humana, concluyeron los investigadores.