Las matemáticas de la comunicación basada en inteligencias artificiales
Hace un par de semanas dedicaba un artículo a analizar en profundidad el impacto que tienen los sesgos en las bibliotecas de incrustaciones de palabras a la hora de definir el cómo una inteligencia artificial entiende el mundo que le rodea, y por ello, en cómo ese sistema de IA realiza su cometido.
Hablábamos entonces de que un elemento tan básico como a priori puede resultar una relación de “hombre” con “programador”, y de “mujer” con “ama de casa” podría, conforme esa IA aprende de dicha base de datos, dar como resultado un sistema de elección de candidatos para un puesto en el que por ejemplo diera más prioridad al hombre que a la mujer, habida cuenta de que en su aprendizaje, indirectamente, ha extrapolado que el hombre es quien tiene que traer el dinero a casa. O que frente a una biblioteca que relaciona con un índice ligeramente superior nombres de personas africanas con criminales, pudiera el día de mañana sesgar por aspectos puramente raciales quien puede acceder a una hipoteca y quien no.
El contexto del lenguaje
El contexto del lenguaje, sea hablado o escrito, sigue siendo a día de hoy el principal elemento de discordia a la hora de diseñar inteligencias artificiales, y así lo dejaba claro Zuckerberg en un extenso artículo en el que explica cómo ha construido a Jarvis (EN), el asistente del hogar que tiene en su casa, claramente inspirado en el que tenía Tony Stark (Iron Man) en el comic.
Para ello, hace uso de una arquitectura bastante sencilla para poner en comunicación el usuario (inputs) con Jarvis mediante los bots de Messenger, el reconocimiento de voz y las cámaras, y Jarvis con el resto de elementos de acción (outputs) de la casa (luces, música, puerta, seguridad…).
Una vez solucionado el handicap de la comunicación de Jarvis con el resto de sistemas de la casa (cada uno de su padre y de su madre, con diferentes APIs y sin una estandarización común), se centró en hacer uso de los bots de Messenger para definir algunas acciones específicas.
Messenger, como Telegram, ofrecen chatbots con APIs capaces de integrarse en múltiples sistemas de inteligencia artificial. A fin de cuentas, es un canal más de comunicación hombre-máquina, como explican en este artículo (ES), y se postula como el acercamiento más inmediato a la interacción con inteligencias artificiales.
Palabras como “luces” y “encender” son relativamente sencillas de relacionar con acciones, pero cuando nos pasamos a un lenguaje natural, y sacamos al sistema a un entorno no controlado, se requiere definir el contexto de una petición:
Por ejemplo, cuando tu pides que encienda las luces o ponga una canción sin especificar la habitación, el asistente necesita saber dónde estás o podría acabar poniendo la música o encendiendo las luces en toda la casa, o en la habitación de Max (su hijo pequeño), que es justo lo que no querrías que ocurriese.
Zuckerberg también habla de la importancia del contexto a la hora de pedir música a Jarvis. No es lo mismo decir “pon algo de este tipo” que “pon algo del tipo Adele”, que “pon algo de Adele”. Aunque semánticamente suena parecido, cada petición es completamente diferente. En la primera estamos pidiendo un tipo específico de canciones, mientras que en la segunda estamos pidiendo una recomendación de un artista parecido a Adele, y en la tercera realmente estamos pidiendo una playlist de Adele.
Tampoco es lo mismo que una persona diga “pon algo que me gusta” a que lo diga otra persona. Zuck pone el ejemplo de las diferencias que deberían existir entre que esta petición la haga él o la haga su mujer Priscilla. Lo que requiere, de facto, que la interfaz sea capaz de identificar ya no solo factores puramente exógenos (desde dónde se realiza la petición, qué contexto hay…), sino también endógenos (quién la realiza, que historial tenemos de esa persona…).