De la necesidad de una Sociología Cognitiva para la IA - Volumen 1 de 2; Tomo 2 de 6

De la necesidad de una Sociología Cognitiva para la IA - Volumen 1 de 2; Tomo 2 de 6

De la necesidad de una Sociología para la IA

Esta es la segunda entrada de una serie de seis que la que hacemos un ejercicio histórico-sociológico del desarrollo no lineal de la filosofia, teoria e implementacion de la IA. esta reflexion llega hasta Watson, la inteligencia artificial desarrollada por IBM.

En una segunda serie desarrollaremos la necesidad de una Sociología Cognitiva para la IA.

En la entrada anterior nos hemos quedado con el excesivo optimismo de Newell and Simon que predecía que era cuestión de unos cuantos años para que los cerebros digitales superarán a los analógicos en el procesamiento de información y toma de decisiones. De no ser por el salto a diseños probabilísticos, el primer cerebro artificial, aún hoy estaría resolviendo ecuaciones para llegar a tomar su primera decisión. 

Terminemos de ver cómo se impuso la visión atomista sobre la holista y se le cerró el paso al Perceptrón que, por poco, lo perdemos para siempre.

Perceptron adelantado a su tiempo

Rosenblatt puso a trabajar sus ideas en un tipo de dispositivo que llamó Perceptrón[19]. En 1956 Rosenblatt pudo entrenar un perceptrón para clasificar ciertos tipos de patrones como patrones similares, separándolos de otros patrones diferentes[20]. 

Ya a inicios de la década de 1960 ambas estrategias parecían igual de promisorias y se hicieron por igual vulnerables al efectuar afirmaciones exageradas. Pero los resultados de la puja entre los dos programas de investigación eran tremendamente asimétricos. En 1970 la investigación de simulación del cerebro, que poseía su paradigma en el perceptrón, se redujo a unos pocos esfuerzos aislados y subfinanciados, mientras que los que proponían usar las computadoras digitales como manipuladoras de símbolos poseían el control indiscutido de los recursos, programas de estudio, revistas y simposios en lo que constituía un programa de investigación floreciente[21].

Cada postura tenía sus detractores, y lo que decían era básicamente lo mismo: ambas estrategias han demostrado que pueden resolver ciertos problemas fáciles, pero no hay razón para creer que alguno de los dos grupos pueda extrapolar sus métodos a la complejidad del mundo real y menos al mundo de la vida cotidiana[22, 23, 24].

Tal como lo expusieron sucintamente David Rumelhart y David Zipser, «La explosión combinatoria te atrapa tarde o temprano, aunque a veces en forma diferente en paralelo que en modo serial». Ambos bandos, como lo expresó James Fodor, habían caído en un juego de ajedrez tridimensional, pensando que se trataba de ta-te-ti (triqui o tres en línea segun el país). Para comprender por qué entonces, apenas iniciado el juego, siendo tan poco lo que se conocía y habiendo tanto por aprender, un grupo de investigadores triunfó a expensas del otro y por qué, en esta encrucijada crucial, el proyecto de la representación simbólica se convirtió en el único, tenemos que remitirnos al trabajo de Minsky y Papert[26].

Su ataque escaló hasta convertirse prácticamente en una cruzada filosófica[27]. Afirman con razón que la tradicional confianza en la reducción a primitivos lógicos había sido desafiada por un nuevo holismo[28].

Estos temores tempranos se encontraban bien fundados, aunque no de manera consciente, y no por ellos perceptrón era un error más bien todo lo contrario. Las redes neuronales pueden permitir, aunque no necesariamente, una interpretación de sus nodos ocultos[29] en términos de rasgos que un ser humano reconocería y usaría para resolver el problema[30]. Los holistas como Rosenblatt alegremente suponían que los nodos individuales o los patrones de nodos no señalan rasgos fijos del dominio.

Se impone la tradición racionalista-atomista

Minsky y Papert estaban así tan empeñados en eliminar toda la competencia y tan seguros de la tradición atomística que va de Descartes al primer Wittgenstein, que su libro sugiere mucho más de lo que demuestra.

Se abocan a analizar la capacidad de un perceptrón de una sola capa[31], ignorando por completo en la parte matemática de su libro los capítulos de Rosenblatt sobre las máquinas de múltiples capas y su prueba de la convergencia de un algoritmo de aprendizaje probabilístico basada en la propagación hacia atrás (back propagation) de los errores[32, 33]. 

De acuerdo con Rumelhart y McCIelland, Minsky y Papert se abocaron a mostrar qué funciones pueden o no pueden ser computadas por máquinas de una sola capa[34]. 

Pero las implicancias del análisis son muy limitadas, prosiguen Rumelhart y McCIelland, aunque Minsky y Papert acertaron en sus análisis del perceptrón de una sola capa, los teoremas no se aplican a sistemas que sean apenas un poco más complejos. En particular, no se aplican a los sistemas de capas múltiples ni a sistemas que admiten bucles de retroalimentación[35].

Sin embargo, en la conclusión de Perceptrons, cuando Minsky y Papert se hacen la pregunta: ¿Han considerado los perceptrones con múltiples capas?, dan la impresión, mientras retóricamente dejan la pregunta abierta, de haberlos considerado[36].

Su ataque contra el pensamiento gestáltico en IA triunfó. Sólo unos pocos no apreciados, entre ellos, Stephen Grossberg, James A. Anderson y Teuvo Kohonen, asumieron el «importante problema de investigación». Ciertamente, casi todos en IA supusieron que las redes neuronales se habían mandado a descansar para siempre[37]. 

Era prematuro cerrar las cuentas en cualquiera de las dos estrategias. Ambas estrategias habían producido algunos trabajos promisorios y algunas promesas infundadas[38]. Pero algo había en el libro de Minsky y Papert que golpeó una cuerda resonante. Parecía que los estudiosos de la IA compartían el prejuicio casi religioso contra el holismo que motivaba ese ataque[39]. 

El holismo no podía competir con convicciones filosóficas tan intensas[40]. En su historia de la IA, Newell dice que la cuestión de los símbolos versus los números «ciertamente no está viva ahora y no lo ha estado por mucho tiempo»[41]. Rosenblatt no es siquiera mencionado en las historias de la IA de John Haugeland o de Margaret Boden[42].

Pero achacar la derrota de los conexionistas a un prejuicio antiholístico es demasiado simple. Se daban formas más profundas en que los supuestos filosóficos influyen sobre la intuición y llevaban a una sobreestimación de la importancia de los resultados del procesamiento simbólico. En aquel entonces daba la impresión de que la gente del perceptrón tenía que habérselas con una cantidad inmensa de análisis matemático y de cálculo para resolver aunque más no fuera el problema más simple de reconocimiento de patrones, tal como discriminar entre líneas horizontales y verticales en el campo perceptual, mientras que la estrategia de la manipulación simbólica había resuelto sin dificultades problemas duros del conocimiento, tales como la prueba de teoremas lógicos y la resolución de enigmas combinatorios[43]. 

Detrás de esta forma de ponderar la situación yacía el supuesto de que el pensamiento y el reconocimiento de patrones eran dos dominios distintos y que el pensamiento era el más importante de los dos[44].

La concepción del ser humano se difunde a la concepción de la máquina

Para esta misma época, y muy cerca del lugar donde se daban estas tensiones, se estaba fraguando una noción del homo oeconomicus basada en el individualismo y la racionalidad egoísta y maximizadora del propio interés.

Resulta irónico que Herbert Simon que en el desarrollo de la IA cerraba filas con los atomistas, fuese el que puso en cuestión la racionalidad maximizadora con su racionalidad limitada o satisfaciente (que, por cierto, es por ello que se le otorga el Nobel de Economía). Pero estos aportes de Simon los tomaremos más adelante, cuando nos adentremos en el momento que los teóricos de la IA descubran que el contexto importa.

Hasta la próxima.

Notas y citas bibliográficas

19 David E. Rumelhart, James L. McCIelland y el PDP Research Group. en su compilación de ensayos Parallel Distríbuted Processing: Explorations in the Microstructure of Cognition, vol. 1. Cambridge: MIT Press. 1986, describen el perceptrón como sigue:

“Tales máquinas consisten en lo que se llama generalmente una retina, un patrón de insumos binarios que a veces se disponen en un espacio bidimenslonal, un conjunto de predicados, un conjunto de unidades de umbral binario con conexiones fijas a un conjunto de unidades en la retina tal que cada predicado computa alguna función local sobre el conjunto de unidades al que está conectado y una o más unidades de decisión, con conexiones modificables a los predicados”. (P.111)

Los autores contrastan la forma en que un modelo de procesamiento distribuido (PDP) como el perceptrón almacena información con la forma en que se almacena la información en la representación simbólica: "En la mayoría de los modelos, el conocimiento se almacena como la copia estática de un patrón. La recuperación consiste en encontrar el patrón en la memoria a largo plazo y copiarla a un buffer en la memoria de trabajo. No hay diferencia real entre la información almacenada en la memoria a largo plazo y la representación activa en la memoria de trabajo. En los modelos PDP, sin embargo, éste no es el caso. En estos modelos, los patrones mismos no se almacenan. Más bien lo que se almacena son las fuerzas de conexión entre las unidades, que permiten recrear esos patrones." (p. 31)

"[E]l conocimiento sobre un patrón individual no se almacena en las conexiones de una unidad especial reservada para ese patrón, sino que se distribuye sobre las conexiones de un número grande de unidades de procesamiento." (p. 33)

Esta nueva noción de representación llevaba directamente a la idea de Rosenblatt de que tales máquinas serían capaces de adquirir sus habilidades mediante el aprendizaje en lugar de ser programadas con rasgos y reglas:

"[S]i el conocimiento yace [en] las fuerzas de las conexiones, el aprendizaje debe ser cuestión de encontrar las fuerzas de conexión correctas, tal que se produzcan los patrones correctos de activación en las circunstancias adecuadas. Esta es una propiedad extremadamente importante de esta clase de modelos, puesto que abre la posibilidad de que un mecanismo de procesamiento pueda aprender como resultado del afinamiento de sus conexiones, capturar las interdependencias entre las activaciones que se exponen en el curso del procesamiento." (p. 32)

20 En 1959 sentía que su estrategia había sido vindicada:

Me parece claro que el perceptrón nos presenta un nuevo tipo de autómata de procesamiento de información: por primera vez, tenemos una máquina que es capaz de tener ideas originales. Como un análogo del cerebro biológico, el perceptrón o, más precisamente, la teoría de la separabilidad estadística, parece más próxima a satisfacer los requerimientos de una explicación estadística del sistema nervioso que ningún otro sistema propuesto con anterioridad. Como concepto, parecería que el perceptrón ha establecido, más allá de toda duda, la practicabilidad y el principio de los sistemas no humanos capaces de encarnar funciones cognitivas humanas. El futuro de los dispositivos de procesamiento de información que opera sobre principios estadísticos, más que lógicos, me parece ahora claramente establecido. Frank Rosenblatt, Mechanisation of Thought Processes: Proceedings of a Symposium held at the National Physical Laboratory. Londres: Her Majesty's Stationery Office, 1959. vol. 1. pág. 449.

21 Reconstruir como se suscitó este cambio es complicado, debido al mito del destino manifiesto que genera todo programa de investigación en marcha. Por ejemplo, contemplaríamos a los vencedores como si el procesamiento simbólico de información hubiese ganado debido a que se hallaba en el camino correcto, mientras que la estrategia de la red neuronal o conexionista hubiese perdido porque sencillamente no funcionaba. Pero esta versión de la historia es una ilusión retrospectiva. Ambos programas de investigación poseían ideas dignas de explorarse y ambos enfrentaban problemas profundos y no reconocidos.

22 Había evidencias de que a medida que los problemas se tornaban mas complejos, la computación requerida por ambas estrategias crecía exponencialmente y pronto devenía intratable. Las maquinas basadas en procesamiento simbólico resolvían ecuaciones de forma lineal mientras que las que se producían, por el procesamiento, se incrementaban exponencialmente.

23 En 1969 Marvín Minsky y Seymour Papert decían de los perceptrones de Rosenblatt:

Los esquemas de Rosenblatt pronto se afianzaron, y muy pronto había tal vez cien grupos, grandes y pequeños, experimentando con el modelo.

Los resultados de estos cientos de proyectos y experimentos eran en general frustrantes y sus explicaciones inconcluyentes. Habitualmente las máquinas trabajaban muy bien en problemas muy simples pero se deterioraban muy rápido a medida que las tareas que se les asignaban se volvían mas duras. Marvin Minsky y Seymour Papert, Perceptrons: An Introduction to Computational Geometry. Cambridge: MIT Press, 1969. pág. 19.

24 Tres años después, Sir James Lighthill, tras comentar el trabajo de los programas heurísticos como los de Simón y Minsky, llegó a una conclusión negativa sorprendentemente parecida:

La mayoría de quienes trabajan en IA y en campos relacionados confiesan un acentuado sentimiento de frustración en lo que se ha logrado en los últimos veinticinco años. Los estudiosos ingresaron al campo hacia 1950, y aun hacia 1960, con grandes esperanzas que están muy lejos de haberse realizado en 1972. En ningún área de ese campo los descubrimientos hechos hasta ahora produjeron el gran impacto que se había prometido [...]

[H]ay una causa general para las frustraciones que se han experimentado: no se han reconocido las implicancias de la «explosión combinatoria». Este es un obstáculo general que impide la construcción de un sistema sobre una base de conocimientos grande, que resulta del crecimiento explosivo de cualquier expresión combinatoria, correlativa a otras tantas formas de agrupar los elementos de la base de conocimiento de acuerdo con reglas particulares, a medida que el tamaño de la base se incrementa. Sir James Lighthill, «Artificial Intelligence: A General Survey», en Artificial Intelligence: A Paper Symposium. Londres: Science Research Council. 1973.

25 Rumelhart y McCIelland, Parallel Distributed Processing, pág. 158.

26 Hacia 1965, Minsky y Papert, que dirigían un laboratorio del MIT dedicado a la estrategia de manipulación de símbolos y por lo tanto en competencia con los proyectos del perceptrón, comenzaron a hacer circular borradores de un libro que atacaba la idea del perceptrón. En el libro ellos hacían clara su postura científica:

Los perceptrones se han publicitado ampliamente como máquinas de «reconocimiento de patrones» o de «aprendizaje», y como tales se han discutido en gran número de libros, artículos de revista y «reportes» voluminosos. La mayor parte de estos escritos carece de valor científico. Minsky y Papert, Perceptrons, 4.

27 Seymour Papert posteriormente hizo declaraciones al respecto de esta contienda. Es sorprendente e igualmente justificable como se percibía en aquellos momentos la idea y todo lo que implicaba perceptrons. Nosotros tenemos la ventaja de observar en retrospectiva.

28 Estos dos autores (primero independientemente y luego juntos) quedaron envueltos en algo así como una compulsión terapéutica:

[...]disipar lo que temíamos que fueran las primeras sombras de un error «holístico» o «gestáltico» que nos amenazaba con enredar los campos de la ingeniería y la IA tal como antes había enredado el de la biología y la psicología. Minsky y Papert, Perceptrons, 4.

29 Los nodos ocultos son nodos que no detectan en forma directa el insumo a la red ni constituyen su salida. Están, sin embargo, directa o indirectamente vinculados por conexiones de fuerza ajustable a los nodos que detectan los inputs y a los que constituyen sus outputs. Martín del Brío, Bonifacio y Alfredo Sanz Molina. Redes Neuronales y Sistemas Difusos. México: Alfaomega. 2006.

30 Pese a que la modelización con redes neuronales no está comprometida con ninguna perspectiva, se puede demostrar que la asociación no requiere que los nodos ocultos sean interpretables.

31 Un perceptrón de una sola capa no tiene nodos ocultos, mientras que las redes de varios niveles sí.

32 La propagación de los errores hacia atrás requiere una computación recursiva, comenzando por los nodos de salida, a los efectos de cambiar las fuerzas de las conexiones basándose en la diferencia entre la salida deseada y la salida efectivamente producida por los insumos. Durante el aprendizaje se ajustan entonces los pesos para reducir esa diferencia. Esto guarda una similitud con la idea del individuo racional.

33 Rosenblatt, Frank. Principles of Neurodynamícs, Perceptrons and the Theory of Brain Mechanisms. Washington, D.C.: Spartan Books, 1962. pág. 292. En el mismo texto: "La adición de un cuarto nivel de unidades de trasmisión de señales, o el acoplamiento cruzado de las unidades de un perceptrón de tres capas, permite la solución de problemas de generalización sobre grupos de transformación arbitrarios." (p. 576)

"En perceptrones acoplados hacia atrás, puede manifestarse una atención selectiva hacia objetos familiares en un campo complejo. También le es posible al perceptrón fijarse selectivamente en objetos que se mueven diferencialmente con respecto a su entorno." (p. 576).

34 Demostraron, en particular, que esos perceptrones son incapaces de calcular funciones matemáticas tales como la paridad (con número par o impar de nodos en la retina) o la función topológica de conexidad (si todos los puntos positivos están conectados a otros que también lo están, ya sea directamente o por medio de otros puntos también positivos) sin hacer uso de un número absurdamente grande de predicados. El análisis demuestra la importancia de una estrategia matemática para analizar los sistemas computacionales. Rumelhart y McCIelland, Parallel Dístributed Processing, 111.

35 Ibid., 112.

36 Ellos mismos responden a la pregunta: bien, hemos considerado las máquinas de Gamba, que pueden ser descritas como «dos capas de perceptrón». No hemos encontrado (por haberlo pensado o por haber estudiado la literatura) ninguna otra clase interesante de máquina de capas múltiples, al menos ninguna cuyos principios estén en apariencia relacionados significativamente con los del perceptrón. [C]onsideramos que es un problema de investigación importante elucidar (o rechazar) nuestro juicio intuitivo de que la extensión es estéril. 'Minsky y Papert, Perceptrons, 231-32.

37 Rumelhart y McCIelland señalan:

El análisis de Minsky y Papert sobre las limitaciones de los perceptrones de un nivel, añadido a algunos de los éxitos iniciales de la estrategia del procesamiento simbólico en IA, fue suficiente para sugerir a gran número de estudiosos en el campo que no había futuro en dispositivos análogos al perceptrón para la IA y la psicología cognitiva. Rumelhart y McCIelland, Parallel Distríbuted Processing. 112.

38 Para una evaluación de los éxitos concretos de la estrategia de la representación simbólica hasta 1978, véase Hubert Dreyfus, What Computers Can't Do. Nueva York: Harper and Row, 1979.

39 Se puede observar la fuerza de la tradición, por ejemplo, en el artículo de Newell y Simón sobre los sistemas físicos de símbolos. El artículo comienza con la hipótesis científica de que la mente y el computador son inteligentes por virtud de la manipulación de símbolos discretos, pero finaliza con una revelación: «El estudio de la lógica y las computadoras nos ha revelado que la inteligencia reside en sistemas físicos de símbolos». Newell y Simón, «Computer Science and Empirical Inquiry». Pág. 197.

40 Rosenblatt quedó desacreditado junto con centenares de grupos de investigación en redes menos responsables que su obra había impulsado. Sus fondos de financiación se agotaron y tuvo problemas para publicar sus trabajos. Para 1970, en lo que concierne a la IA, las redes neuronales estaban muertas.

41 Newell, «Intellectual Issues», 10.

42 John Haugeland, Artificial lntelligence: The Very Idea. Cambridge: MIT Press, 1985 y Margaret Boden. Inteligencia artificial y hombre natural. Madrid: Tecnos, 1984. El trabajo sobre redes neuronales continuó marginalmente en psicología y en neurociencia. James Anderson, en la Brown University, siguió defendiendo un modelo de red en psicología, aunque él mismo tenía que vivir de los subsidios de otros investigadores; Stephen Grossberg elaboró una elegante implementación matemática de las capacidades cognitivas elementales.

Sobre la postura de Anderson, véase «Neural Models with Cognitive Implications», en Basíc Processing in Reading, Hillsdale, N. J.: Lawrence Eribaum Associates. 1978. Para ejemplos del trabajo de Grossberg en los años oscuros, véase el libro Studies of Mind and Brain: Neural Principies of Leaming, Perception, Development. Cognition and Motor Control. Boston: Reidel Press. 1982. El trabajo inicial de Kohonen se describe en Associatíve Memory - A System Theoretical Approach. Berlín: Springer-Verlag. 1977.

En el MIT Minsky siguió dictando cátedra sobre redes neuronales y asignando tesis para investigar sus propiedades lógicas. Pero, de acuerdo con Papert, Minsky sólo lo hacia porque las redes tenían propiedades matemáticas interesantes, mientras que nada de interés puede probarse respecto de las propiedades de los sistemas de símbolos. Más aún, muchos investigadores en IA asumían que dado que las máquinas de Turing eran manipuladoras de símbolos, y dado que Turing había demostrado que las máquinas de Turing podían demostrar cualquier cosa, él había demostrado que mediante la lógica se podía capturar cualquier cosa inteligible. Según esta perspectiva, una perspectiva holística (y en aquellos días, estadística) necesita justificación, mientras que la estrategia simbólica de la IA no la requiere. Esta confianza, sin embargo, se basaba en una confusión entre los símbolos no interpretados de una máquina de Turing (ceros y unos) con los símbolos semánticamente interpretados de la IA.

43 Aun más importante, parecía que en función del poder computacional de que se disponía en la época, los investigadores de redes neuronales sólo podrían hacer neurociencia y psicología especulativa, mientras que los programas simples de los representacionistas simbólicos encontraban la forma de ser útiles.

44 Ver las cosas de esta forma es ignorar el papel preeminente de la discriminación de patrones en la experiencia humana y también el trasfondo de comprensión de sentido común que está presupuesto en el pensamiento cotidiano del mundo real. Tener en cuenta este trasfondo bien puede requerir del reconocimiento de patrones fundamental para desenvolvernos con soltura en el mundo de la vida cotidiana.

Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas