La Travesía de los Gigantes Tecnológicos: Estrategias en la Recolección de Datos para la IA
Desde la aparición del chatGPT por parte de la empresa OpenAI en 2020, la carrera por el liderato en la industria de la inteligencia artificial viene reflejando las distintas caras de la moneda que trajo esta innovación una de ella la relacionada con la recolección de los datos para alimentar los modelos de IA.
La principal dificultad radica en la cantidad de información que los modelos necesitan para poder desarrollar sus actividades generativas lo cual ha llevado a los gigantes tecnológicos a buscar maneras de obtener nuevas fuentes de datos, por ello se han desarrollado herramientas como Whisper cuyo objetivo es transcribir el audio de videos de YouTube y podcast que generen textos con los cuales poder alimentar sistemas de IA.
Si bien la plataforma YouTube no permite ser usada en aplicaciones independientes, se conoció que OpenAI lo hizo para poder obtener datos suficientes para su modelo de GPT-4.
Esta guerra por el liderazgo de la industria de la IA ha llevado a empresas como Google y Meta a desarrollar las mismas prácticas de OpenAI llegándose incluso a desarrollar «contenido sintético» es decir contenido generado por los mismos sistemas de inteligencia artificial.
Por ello, dichas empresas han pensado en comprar empresas editoriales a fin de obtener grandes cantidades de datos de obras escritas, pero ello representaría una demora sustancial, debido al tiempo que se debe invertir en poder llegar a acuerdos con los titulares de las obras, de ahí que han venido optando por la captación de datos sin autorización de sus titulares desmeritando los posibles conflictos legales en materia de propiedad intelectual.
De donde están extrayendo datos
Esta guerra sin cuartel está llevando a que las empresas obtengan datos para alimentar sus sistemas de IA a partir de videos de YouTube, Podcast, foros, Wikipedia y hasta de fragmentos de películas y es que se estima que la cantidad de datos útiles disponibles en internet solo esté disponible hasta el 2026 puesto es mayor el consumo de datos que los generados en la web.
y es que una muestra de las cantidades de datos utilizados para el desarrollo de este tipo de sistema fue el llevado a cabo en GPT-3 donde se utilizaron cerca de 300.000 millones de tókenes, es decir palabras o fragmentos de palabras con los cuales este bot generó respuestas con un tono natural a las conversaciones humanas, componiendo canciones, redactando artículos de blog, resolviendo problemas matemáticos o incluso escribiendo líneas de código.
Sin embargo, empresas como Google poniendo en marcha una estrategia de competencia para desarrollar una mejor herramienta, decide utilizar más 1.4 billones de tókenes en uno de sus modelos desarrollados, situación que fue superada posteriormente por un modelo chino llamado Skyword entrenada con 3.2 billones de tókenes tanto en inglés como en chino situación que se supera con el sistema PaLM 2 de Google que superó los 3.6 billones de tókenes.
En el caso de Meta, propietaria de Facebook, WhatsApp e Instagram, al ver que estaban quedando rezagados, pensaron en pagar 10 dólares por los derechos de autor de libros nuevos, sin embargo esto tomaría mucho tiempo, por lo cual Zuckenberg junto con accionistas hablaron de utilizar las fotos y videos de Facebook e Instagram para dichos propósitos pues representa una gran cantidad de datos para alimentar sus propios sistemas de IA, tanto que según afirma, superan los recopilados por Common Crawl (Una plataforma que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público) cuya cantidad consta de petabytes (Equivale a 10 a la 15 bytes).
El debate en materia legal
Finalmente, desde la perspectiva legal, se puede estar infringiendo normas en materia de propiedad intelectual en la medida que dichas gigantes tecnológicas estén haciendo uso del material alojado en plataformas como YouTube para transcribir los videos y utilizarlos sin autorización con fines de entrenamiento de sistemas de inteligencia artificial, obteniendo rendimientos económicos sin hacer partícipes de los mismos a los titulares.
Recomendado por LinkedIn
En Colombia, tenemos la Ley 23 de 1982 donde en su artículo 1 establece:
Artículo 1°. Los autores de obras literarias, científicas y artísticas gozarán de protección para sus obras en la forma prescrita por la presente Ley y, en cuanto fuere compatible con ella, por el derecho común. También protege esta Ley a los intérpretes o ejecutantes, a los productores de fonogramas y a los organismos de radiodifusión, en sus derechos conexos a los del autor.
Así mismo los artículos 9 y 10 de la misma Ley establece que:
Artículo 9°. La protección que esta Ley otorga al autor, tiene como título originario la creación intelectual, sin que se requiera registro alguno. Las formalidades que en ella se establecen son para la mayor seguridad jurídica de los titulares de los derechos que se protegen.
Artículo 10. Se tendrá como autor de una obra, salvo prueba en contrario, la persona cuyo nombre, seudónimo, iniciales, o cualquier otra marca o signos convencionales que sean notoriamente conocidos como equivalentes al mismo nombre, aparezcan impresos en dicha obra o en sus reproducciones, o se enuncien en la declamación, ejecución, representación, interpretación, o cualquiera otra forma de difusión pública de dicha obra.
Parágrafo. En todo proceso relativo al derecho de autor, y ante cualquier jurisdicción nacional se presumirá, salvo prueba en contrario, que la persona bajo cuyo nombre, seudónimo o su equivalente se haya divulgado la obra, será el titular de los derechos de autor. También se presumirá, salvo prueba en contrario, que la obra se encuentra protegida.
Incluso en materia penal, Colombia tiene tipificado como ciberdelito la obtención sin autorización de los datos personales según el artículo 269 F:
Artículo 269F: Violación de datos personales. El que, sin estar facultado para ello, con provecho propio o de un tercero, obtenga, compile, sustraiga, ofrezca, venda, intercambie, envíe, compre, intercepte, divulgue, modifique o emplee códigos personales, datos personales contenidos en ficheros, archivos, bases de datos o medios semejantes, incurrirá en pena de prisión de cuarenta y ocho (48) a noventa y seis (96) meses y en multa de 100 a 1000 salarios mínimos legales mensuales vigentes.
Finalmente, tenemos el artículo 15 de la Constitución Nacional, convertido en ley mediante la Ley 1581 de 2012 la cual protege el uso de los datos personales, así como el Decreto 1377/2013 que reglamenta la Ley 1581 de 2012 que en el artículo 4 del mencionado Decreto establece:
Artículo 4°. Recolección de los datos personales. En desarrollo de los principios de finalidad y libertad, la recolección de datos deberá limitarse a aquellos datos personales que son pertinentes y adecuados para la finalidad para la cual son recolectados o requeridos conforme a la normatividad vigente. Salvo en los casos expresamente previstos en la ley, no se podrán recolectar datos personales sin autorización del Titular.