Dificultades para probar la infracción a derechos de autor en modelos de IA: el caso de OpenAI y Raw Story Media
Con el surgimiento de la IA, diferentes empresas han demandado a desarrolladores de IA, como a OpenIA creadora de ChatGPT, acusándolos de usar en sus entrenamientos material protegido por derechos de autor, lo cual constituye, según estas empresas, una violación de sus derechos patrimoniales. Estas demandas han suscitado diferentes debates sobre los límites del uso de datos en el contexto del aprendizaje automático, haciendo de cada resolución judicial un precedente importante.
El caso que les comparto fue presentado por Raw Story Media, Inc. y Alternet Media, Inc, empresas dedicadas al periodismo digital y a la publicación de noticias y análisis, contra varias empresas relacionadas con OpenAI. Los demandantes alegan que OpenAI violó la la Ley de Derechos de Autor al usar sus obras periodísticas en los conjuntos de entrenamiento de ChatGPT. Los demandantes solicitaron que les pagaran los daños y perjuicios, así como se impusieran medidas cautelares para prevenir la reproducción futura de su contenido sin el debido reconocimiento.
La jueza McMahon, magistrada federal que sirve en el Tribunal de Distrito de los Estados Unidos para el Distrito Sur de Nueva York por medio de la sentencia que les comparto desestimó la demanda en su totalidad. Los puntos clave de la decisión fueron los siguientes:
Falta de legitimación: La jueza determinó que los demandantes no lograron demostrar una lesión concreta y real.
Recomendado por LinkedIn
Ausencia de riesgo inminente para una medida cautelar: La jueza concluyó que los demandantes no demostraron un riesgo inminente y sustancial de que el contenido protegido fuese reproducido de forma concreta y específica.
En mi parecer esta resolución tiene implicaciones importantes para futuros litigios relacionados con inteligencia artificial y derechos de autor. Primero, subraya la dificultad de establecer una legitimación en casos donde el daño se basa en el uso de datos para entrenamiento de modelos de IA sin una clara difusión posterior del contenido protegido y segundo, refuerza la necesidad de que los demandantes muestren un riesgo concreto y real para obtener medidas cautelares.
La resolución de este caso pone en evidencia, como he dicho, la gran dificultad que enfrentan los demandantes para demostrar que el contenido generado por una inteligencia artificial deriva directamente de un material protegido por derechos de autor. Esto se debe, en parte, a la naturaleza misma del entrenamiento de los modelos de IA, que se basa en la síntesis de grandes volúmenes de datos provenientes de múltiples fuentes. En este contexto, resulta complejo vincular una salida o respuesta específica del modelo con una obra original protegida, ya que el modelo no guarda una copia directa de los textos, sino que aprende patrones y estructuras del lenguaje. Además, la falta de pruebas claras de que el contenido generado provenga exclusivamente de obras protegidas y la imposibilidad de identificar una infracción específica dificultan que los tribunales consideren que existe una lesión concreta y real. La decisión de la jueza McMahon refuerza la necesidad de que los demandantes aporten evidencia concreta y específica sobre cómo se produce el supuesto daño, lo cual seguirá siendo un desafío significativo en futuros litigios de derechos de autor contra desarrolladores de IA.