Scapa Flow y los grandes modelos de lenguaje
El armisticio de la primera guerra mundial fue firmado el 11 de noviembre de 1918, poniendo punto final a cuatro años de conflicto. Dentro de este acuerdo se incluyeron unas cláusulas en las que se obligaba a Alemania a una desmilitarización dramática. Algunos historiadores consideran que humillante y que desencadenó un malestar que mas tarde nos llevó a otros cataclismos…. Pero esto es para otro artículo...
Pues bien, dentro de este tratado se incluyó el traspaso de la flota alemana a las fuerzas aliadas, pero el Almirante Ludwig von Reuter, no quisó ‘regalar’ su flota a Royal Navy y ordenó el auto-hundimiento de la todos los barcos alemanes, en lo que en Alemania se denomina “die Selbstversenkung der deutschen Flotte”. Esto ocasionó que más de cincuenta barcos de guerra alemanes se fueran al fondo de la bahía de Scapa Flow en las islas Orcadas, en el norte de Escocia.
¿Por qué es esto relevante para los modelos de Lenguaje?, bueno, esperad un poco. Sigamos.
El acero de estos barcos lleva 100 años bajo el agua. Es acero que se obtuvo por un proceso denominado Bessemer, en el que se utiliza aire para el refinamiento del acero. El acero actual se hace con procesos más elaborados como el BOS, que también utilizan componentes atmosféricos, en este caso oxígeno puro.
Claro, nuestra atmósfera hoy es distinta a la de principios del siglo XX, ya que hay un suceso que la transformó para siempre, la energía atómica. Las numerosas explosiones atómicas que han ocurrido desde el 6 de Agosto de 1945 han ocasionado contaminación radioactiva antropogénica, es decir, hemos contaminado nuestro aire con partículas radioactivas, de una forma imperceptible, con lo que cualquier acero obtenido tras la primera explosión atómica está contaminado con partículas radioactivas.
La NASA en su proyecto APOLO tuvo la necesidad de disponer de acero ‘libre de contaminación radioactiva’ por lo que compró cantidades importantes del acero de la flota alemana que reposaba bajo el agua en las islas Orcadas, ya que es una fuente de acero libre de impurezas radioactivas, lo que les permitió construir los sistemas de gran precisión necesarios para la exploración espacial. Esta necesidad de acero libre de radiación también explica la búsqueda salvaje y pirata de barcos hundidos durante la segunda guerra mundial en el Pacífico para extraer este acero libre de radioactividad.
Recomendado por LinkedIn
Volvamos a los Modelos de Lenguaje. El parecido entre el acero hundido y la IA generativa posiblemente ya lo habréis adivinado, se encuentra en las fuentes de datos de entrenamiento no contaminadas. El Dataset Common Crawl (www.commoncrawl.org), que es el mayor dataset open source para el entrenamiento de LLM’s , tiene 3.35 billones de páginas, y en este momento es irrepetible, es nuestro acero de Scapa Flow. Es irrepetible porque hoy, si hacemos esta extracción de internet tendremos nuestros datos contaminados por contenido generado por LLM’s, es decir, contenido que no tiene el mismo valor y que inicia un bucle infinito de datos sintéticos que entrenan modelos de lenguaje que a su vez generan datos sintéticos.
Este problema se extiende a las imágenes y videos que alimentan los modelos de difusión y que inyectan otras problemáticas como la propiedad intelectual. ¿Una imagen sintética pero generada a partir de imágenes propiedad de alguien de quien es? ¿Una imagen generada por imágenes sintéticas de segunda, tercera o cuarta generación, que tipo de propiedad tienen?
No sólo es un obstáculo la propiedad intelectual sino también su veracidad, impactando en problemas éticos ya que descubrimos que carecemos claras definiciones de lo que es real o imaginario, de lo que es cierto o de lo que es producido sintéticamente para conseguir un fin. La crisis de información que estamos viviendo en los conflictos bélicos de 2023 demuestra que estas herramientas están funcionando a toda máquina y que no disponemos de medios para corroborar información y discriminar opinión de hechos (bueno, pero esto da para otro artículo).
Los grandes datasets recopilados antes de 2022 son nuestro acero de Scapa Flow y debemos preservarlos, especialmente aquellos repositorios como el mencionado Common Crawl, que están accesibles como open source. Son clave para la evolución de la inteligencia artificial generativa, porque 2022 fue el año que todo cambió. El año en que pasamos de un internet más o menos real a un internet plagado de información generada por modelos de lenguaje o difusión, a un internet que tiene porcentajes relevantes de información sintética, y en consecuencia, menos apropiada para entrenar la IA del futuro.
Todo ha cambiado, y nosotros en medio. Años fascinantes estos que nos toca vivir.
SAP HCM consultant and "IA((ML(DL))) lover"
1 añoUau Jaume quant aprenem amb tu! 😉