Modelos de IA en Redes Sociales: La Cortesía Revela su Presencia

La próxima vez que te encuentres con una respuesta excepcionalmente cortés en las redes sociales, observa más de cerca. Podría ser un algoritmo de IA esforzándose por encajar.

El miércoles, investigadores de la Universidad de Zúrich, la Universidad de Ámsterdam, la Universidad de Duke y la Universidad de Nueva York publicaron un estudio que indica que los modelos de IA todavía son claramente identificables en las conversaciones en línea. La principal señal es su tono consistentemente amistoso. Al probar nueve modelos de IA diferentes en plataformas como Twitter/X, Bluesky y Reddit, los investigadores descubrieron que sus clasificadores de IA identificaron correctamente las respuestas generadas por IA con una precisión del 70 al 80 por ciento.

El estudio introdujo un "test de Turing computacional" que evalúa qué tan bien la IA imita el lenguaje humano. En lugar de depender de la opinión humana sobre la autenticidad del texto, este marco utiliza clasificadores automatizados y análisis lingüístico para identificar características que diferencian el contenido generado por máquinas del aporte humano.

"Incluso después de la calibración, las salidas de los modelos de lenguaje siguen siendo claramente distinguibles del texto humano, particularmente en el tono afectivo y la expresión emocional," señalaron los investigadores, liderados por Nicolò Pagan de la Universidad de Zúrich. A pesar de intentar varias estrategias de optimización, incluidas sencillas indicaciones y ajuste fino, las señales emocionales siguieron siendo fuertes indicadores de que una IA, en lugar de un humano, había escrito una interacción textual.

La Señal de Toxicidad

Durante el estudio, se probaron nueve modelos de lenguaje grandes, incluyendo Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B, y Apertus-8B-2509.

Encargados de generar respuestas a publicaciones reales en redes sociales, estos modelos tuvieron dificultades para replicar la negatividad casual típica y las expresiones emocionales espontáneas observadas en publicaciones escritas por humanos, puntuando consistentemente más bajo en toxicidad en las tres plataformas examinadas.

Para abordar estas deficiencias, los investigadores experimentaron con estrategias de optimización, como proporcionar ejemplos de escritura y recuperación de contexto, lo que ayudó a reducir las diferencias estructurales como la longitud de las oraciones o el recuento de palabras. Sin embargo, las variaciones en el tono emocional permanecieron. Los investigadores concluyeron: "Nuestras pruebas de calibración exhaustivas desafían la suposición de que una optimización más sofisticada necesariamente produce un resultado más parecido al humano."

← Volver a Noticias