La Travesía de los Gigantes Tecnológicos: Estrategias en la Recolección de Datos para la IA

Dany Aristizabal

Abogado Mg. en Derecho Digital y Legaltech | Speaker en Inteligencia Artificial & Derecho | Especialista en Derecho Constitucional | Docente Universitario con funciones de Coordinador Académico de Posgrado.

Fecha de publicación: 15 abr 2024

Desde la aparición del chatGPT por parte de la empresa OpenAI en 2020, la carrera por el liderato en la industria de la inteligencia artificial viene reflejando las distintas caras de la moneda que trajo esta innovación una de ella la relacionada con la recolección de los datos para alimentar los modelos de IA.

La principal dificultad radica en la cantidad de información que los modelos necesitan para poder desarrollar sus actividades generativas lo cual ha llevado a los gigantes tecnológicos a buscar maneras de obtener nuevas fuentes de datos, por ello se han desarrollado herramientas como Whisper cuyo objetivo es transcribir el audio de videos de YouTube y podcast que generen textos con los cuales poder alimentar sistemas de IA.

Si bien la plataforma YouTube no permite ser usada en aplicaciones independientes, se conoció que OpenAI lo hizo para poder obtener datos suficientes para su modelo de GPT-4.

Esta guerra por el liderazgo de la industria de la IA ha llevado a empresas como Google y Meta a desarrollar las mismas prácticas de OpenAI llegándose incluso a desarrollar «contenido sintético» es decir contenido generado por los mismos sistemas de inteligencia artificial.

Por ello, dichas empresas han pensado en comprar empresas editoriales a fin de obtener grandes cantidades de datos de obras escritas, pero ello representaría una demora sustancial, debido al tiempo que se debe invertir en poder llegar a acuerdos con los titulares de las obras, de ahí que han venido optando por la captación de datos sin autorización de sus titulares desmeritando los posibles conflictos legales en materia de propiedad intelectual.

De donde están extrayendo datos

Esta guerra sin cuartel está llevando a que las empresas obtengan datos para alimentar sus sistemas de IA a partir de videos de YouTube, Podcast, foros, Wikipedia y hasta de fragmentos de películas y es que se estima que la cantidad de datos útiles disponibles en internet solo esté disponible hasta el 2026 puesto es mayor el consumo de datos que los generados en la web.

y es que una muestra de las cantidades de datos utilizados para el desarrollo de este tipo de sistema fue el llevado a cabo en GPT-3 donde se utilizaron cerca de 300.000 millones de tókenes, es decir palabras o fragmentos de palabras con los cuales este bot generó respuestas con un tono natural a las conversaciones humanas, componiendo canciones, redactando artículos de blog, resolviendo problemas matemáticos o incluso escribiendo líneas de código.

Sin embargo, empresas como Google poniendo en marcha una estrategia de competencia para desarrollar una mejor herramienta, decide utilizar más 1.4 billones de tókenes en uno de sus modelos desarrollados, situación que fue superada posteriormente por un modelo chino llamado Skyword entrenada con 3.2 billones de tókenes tanto en inglés como en chino situación que se supera con el sistema PaLM 2 de Google que superó los 3.6 billones de tókenes.

En el caso de Meta, propietaria de Facebook, WhatsApp e Instagram, al ver que estaban quedando rezagados, pensaron en pagar 10 dólares por los derechos de autor de libros nuevos, sin embargo esto tomaría mucho tiempo, por lo cual Zuckenberg junto con accionistas hablaron de utilizar las fotos y videos de Facebook e Instagram para dichos propósitos pues representa una gran cantidad de datos para alimentar sus propios sistemas de IA, tanto que según afirma, superan los recopilados por Common Crawl (Una plataforma que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público) cuya cantidad consta de petabytes (Equivale a 10 a la 15 bytes).

El debate en materia legal

Finalmente, desde la perspectiva legal, se puede estar infringiendo normas en materia de propiedad intelectual en la medida que dichas gigantes tecnológicas estén haciendo uso del material alojado en plataformas como YouTube para transcribir los videos y utilizarlos sin autorización con fines de entrenamiento de sistemas de inteligencia artificial, obteniendo rendimientos económicos sin hacer partícipes de los mismos a los titulares.

La Travesía de los Gigantes Tecnológicos: Estrategias en la Recolección de Datos para la IA

Dany Aristizabal

Abogado Mg. en Derecho Digital y Legaltech | Speaker en Inteligencia Artificial & Derecho | Especialista en Derecho Constitucional | Docente Universitario con funciones de Coordinador Académico de Posgrado.

De donde están extrayendo datos

El debate en materia legal

Recomendado por LinkedIn

Referencias utilizadas

Derecho y Tecnología

157 seguidores

Más artículos de este autor

Otros usuarios han visto

La importancia de los casos de uso para la implantación de la Inteligencia Artificial - 4a parte: Anthropic

Humanizando la Inteligencia Artificial con una Guía Centrada en las Personas

No son todas las que están.

Explorando el auge de la Inteligencia Artificial en América Latina

¿Hay que tenerle miedo a la inteligencia artificial?

Lo que la IA no dice

¿Cuánto sabemos sobre la Inteligencia Artificial?

Opciones de Implementación de IA Generativa: LLMs, SLMs y Agentes para Transformar tu Negocio

Cómo los datos web públicos impulsarán el futuro de la IA

Abrir la caja negra de la IA: de los principios, a los hechos

Ver temas

De donde están extrayendo datos

El debate en materia legal

Recomendado por LinkedIn

Referencias utilizadas

Derecho y Tecnología

157 seguidores

Estrategias de Marketing Digital para Abogados: Cómo Destacar en Línea

16 dic 2024

La Revolución Digital para Abogados: Descubre Notebook LM y su Potencial en el Mundo Legal

8 dic 2024

Colombia contra las redes sociales: Análisis del Proyecto de Ley 261 de 2024 para Regular Redes Sociales en Menores de 14 Años

4 dic 2024

Demandan a TikTok por daño a la salud mental de niños y adolescentes

19 oct 2024

El primer Smart Contract legalmente vinculante con la Blockchain de Cardano

14 oct 2024

Cybercab, el vehículo autónomo de Elon Musk, que amenaza el sector de taxistas

12 oct 2024

Google demanda al Estado Colombiano por Ley de manejo de datos personales

16 jul 2024

Entre la Protección de datos y la innovación tecnológica: La Guerra entre la UE y las Bigtech

1 jul 2024

Navegando la Justicia Digital: El Protocolo de las audiencias en Colombia

9 jun 2024

Usan redes sociales para ingresar sustancias ilícitas en Reino Unido

20 may 2024

Otros usuarios han visto

La importancia de los casos de uso para la implantación de la Inteligencia Artificial - 4a parte: Anthropic

Humanizando la Inteligencia Artificial con una Guía Centrada en las Personas

No son todas las que están.

Explorando el auge de la Inteligencia Artificial en América Latina

¿Hay que tenerle miedo a la inteligencia artificial?

Lo que la IA no dice

¿Cuánto sabemos sobre la Inteligencia Artificial?

Opciones de Implementación de IA Generativa: LLMs, SLMs y Agentes para Transformar tu Negocio

Cómo los datos web públicos impulsarán el futuro de la IA

Abrir la caja negra de la IA: de los principios, a los hechos

Ver temas