OpenAI enfrenta escrutinio por conjuntos de datos eliminados en disputa legal con autores

OpenAI pronto podría tener que aclarar su justificación para eliminar dos conjuntos de datos polémicos compuestos por libros pirateados, ya que las apuestas de una demanda colectiva en curso son altas.

Central en una batalla legal iniciada por autores, quienes afirman que ChatGPT fue entrenado ilegalmente con sus obras, está la decisión de OpenAI de eliminar los conjuntos de datos, un movimiento que podría inclinar potencialmente el caso a favor de los autores.

Es un hecho establecido que los conjuntos de datos, conocidos como “Books 1” y “Books 2,” fueron eliminados antes del lanzamiento de ChatGPT en 2022. Estos conjuntos de datos fueron creados por empleados anteriores de OpenAI en 2021, principalmente al recopilar datos de una biblioteca en la sombra conocida como Library Genesis (LibGen).

OpenAI sostiene que los conjuntos de datos ya no se utilizaron ese mismo año, lo que provocó su eliminación internamente.

Sin embargo, los autores sospechan que puede haber más razones subyacentes. Señalaron las contradicciones de OpenAI, ya que la compañía inicialmente retractó su afirmación de que “no uso” justificaba la eliminación, afirmando posteriormente que todas las razones, incluido “no uso,” deberían estar protegidas por el privilegio abogado-cliente.

Esta percibida inconsistencia, tras una solicitud de descubrimiento ordenada por el tribunal, ha aumentado el interés de los autores en descubrir cómo detalló OpenAI el “no uso.”

Recientemente, la Jueza del Distrito de los EE.UU., Ona Wang, ordenó a OpenAI revelar todas las comunicaciones con su equipo legal interno sobre la eliminación de los conjuntos de datos, junto con cualquier referencia interna a LibGen que OpenAI haya mantenido bajo el privilegio abogado-cliente.

La Jueza Wang destacó el error de OpenAI al negar simultáneamente “no uso” como razón de eliminación mientras afirmaba que era privilegiado.