Historia de la IA

1. INTRODUCCIÓN
2. LOS PRIMEROS AUTÓMATAS Y EL ENGAÑO DEL “TURCO”
3. LOS PIONEROS DE LA LÓGICA Y LA COMPUTACIÓN
- 3.1. Turing
- 3.2. El nacimiento de la Inteligencia Artificial
- 3.3. Dartmouth (1956)
4. DÉCADAS DE 1960 Y 1970: LA IA SIMBÓLICA Y EL AUGE DE LOS PRIMEROS SISTEMAS
- 4.1. IA simbólica: Definición y principios
- 4.2. Primeros sistemas y avances clave
- 4.3. Eliza (1966)
- 4.4. El auge de los sistemas expertos (1970s)
  - 4.4.1. MYCIN (1972)
- 4.5. Los desafíos de la IA simbólica
- 4.6. Transición hacia nuevos enfoques
- 4.7. DÉCADAS DE 1980: REDES NEURONALES Y EL “INVIERNO DE LA IA”
  - 4.7.1. El contexto a finales de los años 70 y el desencanto con la IA simbólica
  - 4.7.2. La reaparición de las redes neuronales
5. DÉCADA DE 1990: EL REGRESO DE LA IA
6. DÉCADA DE 2000: EL AUGE DEL APRENDIZAJE AUTOMÁTICO
- 6.1. 2006: El renacimiento del aprendizaje profundo
- 6.2. 2008: Google y la revolución de los datos
7. DÉCADA DE 2010: LA ERA DE LA IA APLICADA
- 7.1. Las competiciones de ImageNet
  - 7.1.1. ImageNet: El gran conjunto de datos
  - 7.1.2. AlexNet: La revolución del aprendizaje profundo
  - 7.1.3. Importancia de ImageNet y AlexNet
- 7.2. Jeopardy! Watson de IBM va a la TV
  - 7.2.1. El sueño de IBM: Crear un competidor para Jeopardy!
  - 7.2.2. La construcción de Watson: Tecnología y cerebro digital
  - 7.2.3. La competencia: Watson contra los humanos
  - 7.2.4. La victoria de Watson: Un momento histórico
  - 7.2.5. ¿Y después de Jeopardy!? El legado de Watson
  - 7.2.6. Conclusiones: El impacto de Watson en la IA
- 7.3. AlphaGo (2016)
8. 2020 y MÁS ALLÁ: IA GENERATIVA Y APLICACIONES ÉTICAS
- 8.1. El futuro
9. ANEXOS
- 9.1. Inteligencia artificial general
- 9.2. Test de Turing
- 9.3. Solucionador General de Problemas (GPS)
- 9.4. Perceptrón
- 9.5. Reconocimiento de objetos en el cerebro y en las ConvNet
10. REFERENCIAS

1. INTRODUCCIÓN

La historia de la Inteligencia Artificial (IA) es un relato fascinante que entrelaza hitos tecnológicos, científicos y filosóficos a lo largo de los siglos. Aunque el término “inteligencia artificial” (1956 Darmouth) es relativamente moderno, el sueño de crear máquinas que piensen y actúen como los humanos ha estado presente durante siglos. Vamos a recorrer cronológicamente los principales eventos, empezando desde los primeros intentos de emular el pensamiento humano hasta la revolución tecnológica actual.

2. LOS PRIMEROS AUTÓMATAS Y EL ENGAÑO DEL “TURCO”

Uno de los primeros hitos relacionados con la IA (aunque no verdadera inteligencia) fue la creación del “Turco”, una máquina de ajedrez autómata presentada en 1770 por Wolfgang von Kempelen. Aunque fue un fraude (en realidad, un maestro de ajedrez humano oculto manejaba la máquina) dicen que jugo contra el mismísimo Napoleón Bonaparte, capturó la imaginación del público y alimentó la idea de que las máquinas algún día podrían pensar por sí mismas. Este evento inspiró futuros intentos de crear autómatas que pudieran realizar tareas complejas (Amazon Mechanical Turk debe su nombre a este curioso ingenio).

3. LOS PIONEROS DE LA LÓGICA Y LA COMPUTACIÓN

Con el avance de las matemáticas y la lógica en el siglo XIX, especialmente gracias a George Boole y su álgebra booleana (el álgebra de Boole ha sido fundamental en el desarrollo de la electrónica digital y está incluida en todos los lenguajes de programación modernos), comenzaron a sentarse las bases teóricas para la computación. Sin embargo, el verdadero despegue llegaría en el siglo XX con las contribuciones de grandes figuras como Alan Turing y John von Neumann.

3.1. Turing

Alan Turing en 1936 en la Universidad de Princeton.

Alan Mathison Turing (1912-1954) fue un genial matemático británico que hizo muchas contribuciones científicas durante su corta vida, pues se suicidó(previsiblemente) pocos días antes de cumplir 42 años (era homosexual y eso, era demasiado revolucionario para su época ya que como todos sabemos, era mal visto, a tal nivel que la reina de Inglaterra lo juzgó, acusándolo de ultraje a la moral pública y condenado a la castración química, se cree que eso lo llevo a una inmensa depresión).

A Turing se le considera el padre de la informática por su famosa Máquina de Turing, un mecanismo teórico para modelar cualquier operación de computación. Este elemento ha sido tomado como la base teórica de los ordenadores y como tal se enseña en todas las universidades del mundo. Turing describió dicha máquina en un artículo científico en 1936, cuando había terminado sus estudios superiores de Matemáticas en Cambridge (Reino Unido), pero aún no había comenzado sus estudios de doctorado en Princeton (Estados Unidos) bajo la dirección de Alonzo Church.

¿Qué es una máquina de Turing?

Turing trabajó para la inteligencia británica durante la Segunda Guerra Mundial, rompiendo el código secreto que utilizaba el ejército alemán para encriptar sus comunicaciones mediante la famosa máquina Enigma. Se cree que sus contribuciones fueron decisivas para decidir el curso de la guerra.

Máquina Enigma en el Museo Nacional de la Ciencia y la Tecnología Leonardo da Vinci, Milán

Con respecto a la IA, Turing fue un precursor y un visionario. Fue la primera persona en diseñar un programa de ordenador para jugar al ajedrez, a finales de la década de 1940 (y buena parte de las ideas que usaba en su programa se siguen utilizando en los programas de ajedrez por ordenador). En el artículo “Computing machinery and intelligence”, publicado en 1950 en la revista Mind. Turing defendía la idea de que los ordenadores podían tener comportamientos inteligentes; y proponía su famoso Test de Turing para determinar si un computador exhibía inteligencia, mediante lo que llamaba “el juego de imitación”: un evaluador humano interaccionaba mediante un teletipo con un ente inteligente (ordenador u otro humano) que estaba en otra habitación. Al cabo de un tiempo limitado, si el evaluador era incapaz de diferenciar un ordenador de otro humano, Turing consideraba que el ordenador exhibía un comportamiento inteligente.

La importancia del Test de Turing

Actualmente, este test se considera demasiado superficial y se han propuesto diversas versiones complementarias del mismo (leer “The Turing Test and our shifting conceptions of intelligence” de Melanie Mitchell). Turing se alineaba con lo que después se ha dado en llamar la IA fuerte (aunque en aquellos años iniciales, cuando nadie se atrevía a adscribir la posibilidad de comportamiento inteligente a un ordenador, este detalle no era muy relevante). Turing anticipó muchos de los temas que la IA ha estudiado posteriormente. Además de los juegos por ordenador como el ajedrez, él propuso el aprendizaje como un mecanismo básico para máquinas inteligentes, consideró la importancia de interfaces humanizadas, concibió la idea de creatividad computacional y propuso las ideas que hoy están en la base de la robótica del desarrollo.

The Imitation Game, película sobre el matemático, criptoanalista y pionero científico de la computación británico Alan Turing,

3.2. El nacimiento de la Inteligencia Artificial

Poco tiempo después de que Turing publicara sus primeras ideas sobre máquinas inteligentes, al otro lado del Atlántico varios investigadores tenían inquietudes similares. En 1955, hubo una sesión dedicada a máquinas que aprenden (learning machines) en la Western Joint Computer Conference, en Los Ángeles (Introduction to session on learning machines).

En dicha sesión se presentaron cuatro trabajos, tres sobre reconocimiento de patrones y el cuarto acerca de máquinas para jugar al ajedrez.

En uno de los trabajos sobre reconocimiento de patrones, Clark y Farley describían distintas formas de ajustar los pesos de las conexiones entre las neuronas de una red neuronal artificial para que pudiera aprender a reconocer patrones. Este trabajo se inspiraba en el modelo de reforzamiento de las sinapsis entre neuronas biológicas propuesto por el neuropsicólogo Donald Hebb (Ver anexos Perceptrón).

En otro trabajo, también inspirado en el funcionamiento del sistema nervioso humano, Gerald Dinneen presentó una aproximación al reconocimiento de patrones consistente en detectar los bordes de los objetos, asignando valores numéricos a los distintos niveles de gris, aunque Dinneen se limitó a la fase de detección de los bordes sin llegar realmente a la fase de reconocer los objetos.

El tercer trabajo sobre reconocimiento de patrones lo presentó Oliver Selfridge y, en cierto modo, fue complementario al de Dinneen, ya que clasificaba imágenes identificando características salientes contenidas en ellas —por ejemplo, distinguir entre triángulos y rectángulos detectando las esquinas y contando cuántas hay—. Es interesante señalar que las ideas de Dinneen y Selfridge siguen siendo relevantes para el procesamiento de imágenes.

Otro trabajo, el de Allen Newell, esbozaba la posibilidad de programar ordenadores de forma que jugaran al ajedrez al estilo humano, es decir, incorporando conceptos como la descomposición de un objetivo en subobjetivos más simples, criterios para detener el proceso de búsqueda del siguiente movimiento a efectuar y el uso de funciones heurísticas de evaluación de los movimientos para seleccionar un movimiento suficientemente bueno de acuerdo con el concepto de satisficing solution propuesto por Herbert Simón (1956). Este concepto es una estrategia heurística de toma de decisiones: cuando la decisión óptima es prácticamente imposible de determinar debido a que existe un número demasiado elevado de posibilidades a tener en cuenta, entonces se toma una decisión suficientemente satisfactoria aunque no sea óptima. En su trabajo, Newell daba a entender que estas técnicas, basadas en procesamiento simbólico, podrían servir no solamente para jugar al ajedrez, sino también para tratar otros problemas de alta complejidad. La idea de la satisficing solution está muy presente en la búsqueda heurística, una técnica fundamental en IA.

3.3. Dartmouth (1956)

Un año después, John McCarthy organizó un encuentro en el Dartmouth College en New Hampshire con la idea de que cualquier aspecto del aprendizaje o cualquier otro rasgo de la inteligencia podía, en principio, ser descrito con un nivel de detalle suficiente para ser simulado en una máquina.

McCarthy convenció a Claude Shannon, de los laboratorios Bell, y a Marvin Minsky, entonces en Harvard, para redactar una propuesta a partir de esta idea. Se tituló “Summer Research Project in Artificial Intelligence” y solicitaron financiación a la Fundación Rockefeller. Fue financiada y el encuentro, que duró seis semanas, tuvo lugar en verano de 1956.

“Proponemos que durante el verano de 1956 tenga lugar en el Dartmouth College en Hanover, Nuevo Hampshire un estudio que dure 2 meses, para 10 personas. El estudio es para proceder sobre la base de la conjetura de que cada aspecto del aprendizaje o cualquier otra característica de la inteligencia puede, en principio, ser descrito con tanta precisión que puede fabricarse una máquina para simularlo. Se intentará averiguar cómo fabricar máquinas que utilicen el lenguaje, formen abstracciones y conceptos, resuelvan las clases de problemas ahora reservados para los seres humanos, y mejoren por sí mismas. Creemos que puede llevarse a cabo un avance significativo en uno o más de estos problemas si un grupo de científicos cuidadosamente seleccionados trabajan en ello conjuntamente durante un verano” (McCarthy et al. 1955).

En la propuesta se afirmaba que, en solamente unos pocos meses, un grupo de científicos cuidadosamente seleccionados podrían conseguir avances significativos en aspectos tales como la comprensión del lenguaje, la abstracción de conceptos mediante aprendizaje o la resolución de problemas que hasta entonces solo habían sido resueltos por seres humanos. Era una predicción exageradamente optimista, ya que fueron necesarias varias décadas para poder hablar efectivamente de progresos significativos en dichos temas. Una de las constantes de los pioneros de la IA era precisamente su excesivo optimismo, consecuencia de subestimar la complejidad del problema de modelar los procesos cognitivos. De hecho, en 2006, durante la celebración, también en Dartmouth, del 50 aniversario de la famosa reunión, McCarthy, Minsky, Selfridge y Solomonoff reconocieron que la IA era un objetivo mucho más difícil de lo que nunca llegaron a imaginar.

Además de los tres proponentes, estuvieron también en Dartmouth los siguientes investigadores: Nathaniel Rochester, Arthur Samuel y Alex Bernstein, de IBM; Oliver Selfridge y Ray Solomonoff, del MIT; Allen Newell, de Rand Corporation; y Herbert Simón, de la Universidad de Carnegie Mellon. Rochester estaba interesado en la aproximación conexionista a la IA; Samuel había diseñado un programa que jugaba a los checkers —un juego muy similar a las damas españolas—, de forma que jugando contra una copia de sí mismo era capaz de aprender a mejorar su juego mediante una técnica de actualización de una función matemática que evaluaba las jugadas. Bernstein también estaba interesado en los juegos y había trabajado en un programa para jugar al ajedrez.

Selfridge, que, como hemos dicho, también participó en la sesión sobre learning machines un año antes en Los Ángeles, seguía interesado en el problema del reconocimiento de patrones, y Ray Solomonoff trabajaba en una teoría general de la inferencia y sus posibles implicaciones para modelizar inteligencia artificial general. Newell (que también había participado en la sesión de Los Ángeles) y Simón llevaron a Dartmouth algo más tangible: un programa capaz de demostrar teoremas de lógica proposicional del que hablaremos en el próximo apartado. Obviamente, los tres proponentes también expusieron sus ideas e intereses. McCarthy, además de proponer con éxito que el nuevo campo de estudio se llamara inteligencia artificial, estaba interesado en diseñar un lenguaje artificial con el que programar aspectos tales como la auto-rreferencia, lo que dio lugar años después al lenguaje de programación LISP. Shannon estaba interesado en la aplicabilidad de su teoría de la información para modelizar el cerebro, pero después de la reunión de Dartmouth dejó de interesarse por la IA. Por último, Minsky planteó una máquina capaz de construir un modelo abstracto de su entorno, de forma que a la hora de resolver cualquier problema primero intentara solucionarlo usando dicho modelo abstracto interno y, si eso no resultaba, intentara planificar experimentos externos para resolverlo.

4. DÉCADAS DE 1960 Y 1970: LA IA SIMBÓLICA Y EL AUGE DE LOS PRIMEROS SISTEMAS

Durante las décadas de 1960 y 1970, la Inteligencia Artificial simbólica fue el enfoque predominante en la investigación del campo. Este período se caracteriza por el desarrollo de sistemas que intentaban emular el razonamiento humano mediante la manipulación de símbolos y reglas lógicas predefinidas. Los científicos creían que, al descomponer el pensamiento humano en una serie de reglas explícitas, podrían programar máquinas para resolver problemas complejos.

4.1. IA simbólica: Definición y principios

La IA simbólica, también conocida como IA basada en reglas o IA simbólica tradicional, se basaba en la idea de que la inteligencia humana podía ser replicada a través de la manipulación de símbolos que representaban conceptos o hechos del mundo. Este enfoque tomaba inspiración directa de los avances en lógica y matemáticas, especialmente la lógica proposicional y la lógica de predicados, herramientas que permitían realizar deducciones a partir de afirmaciones lógicas.

El enfoque simbólico era fundamentalmente determinista. Es decir, para que una máquina pudiera tomar decisiones, debía seguir una serie de reglas definidas previamente por programadores humanos. La tarea de la IA consistía en procesar esas reglas y llegar a una conclusión válida o resolver un problema específico.

Principales características de la IA simbólica:

Uso de reglas explícitas: La máquina se basaba en un conjunto de reglas lógicas que modelaban el comportamiento humano en situaciones específicas.
Lógica formal: Las deducciones se realizaban utilizando lógica formal para manipular los símbolos que representaban el conocimiento.
Sistemas expertos: Durante este período, se desarrollaron sistemas expertos que emulaban a los humanos en campos específicos, como la medicina o la química.

4.2. Primeros sistemas y avances clave

Durante estas dos décadas, se produjeron varios avances importantes que demostraron el potencial del enfoque simbólico. Algunos de los hitos más significativos incluyeron programas que simulaban el comportamiento humano en dominios cerrados, como juegos o diagnósticos médicos.

4.3. Eliza (1966)

Uno de los ejemplos más conocidos de IA simbólica es Eliza, un programa desarrollado por Joseph Weizenbaum en 1966 en el MIT. Eliza simulaba una conversación con un psicoterapeuta, utilizando reglas simples de procesamiento de lenguaje natural. Aunque no era una verdadera inteligencia, Eliza fue revolucionaria en su capacidad para generar una interacción convincente con los usuarios a través de un diálogo sencillo .

Actividad: Demo Eliza http://deixilabs.com/eliza.html

Eliza no comprendía realmente el lenguaje, sino que respondía a ciertos patrones en las oraciones del usuario. Por ejemplo, si el usuario decía “Estoy triste”, Eliza podría responder “¿Por qué estás triste?”. La clave estaba en el uso de respuestas predefinidas que imitaban una interacción humana. Aunque simple, Eliza sentó las bases para el futuro del procesamiento de lenguaje natural (NLP).

4.4. El auge de los sistemas expertos (1970s)

El éxito de programas como DENDRAL llevó a una explosión de interés en los sistemas expertos durante la década de 1970. Estos sistemas utilizaban grandes bases de conocimiento en un área específica y aplicaban reglas para hacer inferencias y resolver problemas. El enfoque era proporcionar a la máquina una cantidad masiva de conocimiento humano en un campo concreto, como la medicina o la ingeniería, y luego usar reglas lógicas para procesar esa información.

4.4.1. MYCIN (1972)

Uno de los sistemas expertos más famosos fue MYCIN, desarrollado también en Stanford en 1972. MYCIN fue diseñado para ayudar a los médicos a diagnosticar infecciones bacterianas y recomendar tratamientos basados en las reglas programadas en el sistema. Aunque nunca se utilizó en la práctica debido a cuestiones legales y éticas, fue un gran éxito técnico y demostró el potencial de los sistemas expertos en la toma de decisiones complejas.

4.5. Los desafíos de la IA simbólica

A pesar del éxito inicial, la IA simbólica pronto enfrentó serias limitaciones. El enfoque basado en reglas funcionaba bien en dominios estrechos y bien definidos, como el ajedrez o la medicina, donde era posible predefinir todas las reglas necesarias. Sin embargo, en el mundo real, las situaciones eran demasiado complejas y ambiguas para ser descritas por reglas fijas.

El problema era la explosión combinatoria: a medida que los problemas se volvían más complicados, la cantidad de reglas necesarias para resolverlos crecía exponencialmente. Además, estos sistemas no eran capaces de aprender por sí mismos. Tenían que ser alimentados continuamente con nuevas reglas para manejar nuevas situaciones, lo que los hacía poco prácticos para tareas más abiertas y dinámicas.

4.6. Transición hacia nuevos enfoques

A finales de los 70, quedó claro que la IA simbólica no podía cumplir muchas de las promesas originales. Aunque los sistemas expertos seguían siendo útiles en dominios específicos, la comunidad científica comenzó a explorar otros enfoques, como el aprendizaje automático y las redes neuronales, que se basaban en principios distintos, como la capacidad de aprendizaje y adaptación a partir de datos.

Este período marcó el comienzo de lo que sería el primer “invierno de la IA”, un periodo en el que la investigación en IA sufrió un declive significativo debido a las expectativas no cumplidas y los desafíos técnicos.

El Lighthill Report (“Artificial Intelligence: A General Survey”), publicado en 1973 por el matemático británico Sir James Lighthill, fue un informe encargado por el gobierno del Reino Unido para evaluar el estado y el progreso de la investigación en inteligencia artificial (IA) en ese momento. Este informe resultó ser extremadamente crítico con la IA. Esto generó una importante disminución de la financiación para la investigación en IA en Reino Unido y tuvo un impacto global en la percepción de la IA.

Sin embargo, los logros alcanzados durante las décadas de 1960 y 1970, especialmente en IA simbólica, sentaron las bases para muchas de las tecnologías modernas, desde el procesamiento del lenguaje natural hasta la robótica y los sistemas expertos utilizados en la actualidad.

4.7. DÉCADAS DE 1980: REDES NEURONALES Y EL “INVIERNO DE LA IA”

La década de 1980 fue un período crucial para la historia de la inteligencia artificial (IA), marcado tanto por el resurgimiento de las redes neuronales como por el primer “invierno de la IA” (Hubo dos grandes inviernos entre 1974-1980 y luego en 1987-1993 y varios episodios mas pequeños).

Estos años reflejan una etapa de transición en la que el enfoque dominante de la IA simbólica comenzó a ser desafiado por nuevas ideas sobre el aprendizaje automático, pero también una época de frustración y decepción, ya que los avances en IA no lograron cumplir con las expectativas desmesuradas de los años anteriores. En este contexto, la reaparición de las redes neuronales jugó un papel importante, mientras que el “invierno de la IA” reflejó una crisis de confianza en el campo.

4.7.1. El contexto a finales de los años 70 y el desencanto con la IA simbólica

En las décadas de 1960 y 1970, la IA simbólica —basada en reglas lógicas y sistemas expertos— había dominado la investigación en IA. Sin embargo, este enfoque mostraba sus limitaciones. A medida que los sistemas simbólicos trataban de abordar problemas más complejos, surgieron obstáculos insuperables debido a la explosión combinatoria: la cantidad de reglas necesarias para describir cualquier situación real crecía de manera exponencial, lo que hacía a estos sistemas ineficaces y difíciles de mantener.

El fracaso de los sistemas expertos para abordar problemas complejos y generales, junto con la incapacidad de estos sistemas para aprender y adaptarse a nuevas situaciones, llevó a una creciente insatisfacción en la comunidad de la IA. Además, los sistemas basados en reglas requerían la intervención constante de programadores humanos para agregar nuevas reglas a medida que surgían nuevos datos o escenarios, lo que hacía que fueran ineficaces para tareas no controladas o impredecibles.

4.7.2. La reaparición de las redes neuronales

En este escenario de creciente insatisfacción con la IA simbólica, la década de 1980 vio el resurgimiento de las redes neuronales, un enfoque que había sido prácticamente abandonado desde la década de 1960. La idea de las redes neuronales artificiales estaba inspirada en el funcionamiento del cerebro humano, donde se pensaba que las neuronas —unidades básicas del sistema nervioso— se conectaban entre sí para procesar información de manera eficiente. Sin embargo, a pesar de los primeros intentos, las redes neuronales no habían sido particularmente útiles hasta ese momento debido a limitaciones matemáticas y técnicas.

Una red neuronal artificial es un grupo interconectado de nodos similar a la vasta red de neuronas en un cerebro biológico. Cada nodo circular representa una neurona artificial y cada flecha representa una conexión desde la salida de una neurona a la entrada de otra.

Primeros antecedentes de las redes neuronales

El concepto de redes neuronales había sido introducido décadas antes, en los años 40 y 50, con el trabajo de Warren McCulloch y Walter Pitts, quienes en 1943 propusieron un modelo de neurona artificial que podría realizar cálculos lógicos simples. Sin embargo, el verdadero precursor fue el Perceptrón, desarrollado por Frank Rosenblatt en 1958. El perceptrón era un modelo simplificado de red neuronal que podía aprender a clasificar entradas mediante un proceso de ajuste de pesos. Aunque generó cierto entusiasmo en sus primeros días, el libro de Marvin Minsky y Seymour Papert titulado Perceptrons (1969) destacó sus limitaciones y esencialmente desacreditó el enfoque para tareas complejas, contribuyendo al primer declive en la investigación de redes neuronales.

El redescubrimiento de la retropropagación (1986)

El gran avance que permitió el renacimiento de las redes neuronales llegó en 1986, cuando Geoffrey Hinton, David Rumelhart y Ronald J. Williams reintrodujeron el concepto de retropropagación del error (backpropagation), un algoritmo que permite a las redes neuronales ajustar sus pesos internos de manera más eficiente y aprender de los errores. El algoritmo de retropropagación era una técnica para entrenar redes neuronales multicapa (también conocidas como redes neuronales profundas), permitiendo que las neuronas en capas ocultas pudieran contribuir de manera significativa al aprendizaje.

Este avance fue revolucionario porque superó las limitaciones de los modelos de una sola capa, como el perceptrón, y permitió que las redes neuronales resolvieran problemas más complejos, como el reconocimiento de patrones y la clasificación de datos más sofisticados. Aunque las redes neuronales aún no eran lo suficientemente poderosas como para superar a los sistemas simbólicos en muchas áreas, el redescubrimiento de la retropropagación plantó las semillas para los futuros avances en el campo del aprendizaje profundo.

5. DÉCADA DE 1990: EL REGRESO DE LA IA

La década de 1990 marcó el regreso triunfal de la inteligencia artificial (IA) tras el llamado “invierno de la IA” de los años 70 y 80, cuando las expectativas desmesuradas sobre la IA llevaron a una desaceleración de la investigación y una reducción drástica de la financiación. Sin embargo, en los 90, el panorama cambió de forma significativa, con avances que revitalizaron el campo y sentaron las bases para la explosión de la IA en el siglo XXI. Este período vio el desarrollo de nuevas tecnologías, aplicaciones prácticas y, sobre todo, el regreso de enfoques como las redes neuronales, que jugarían un papel clave en el futuro del aprendizaje automático.

5.1. El auge de la IA práctica

Una de las principales diferencias en la IA de los 90 en comparación con décadas anteriores fue el enfoque más pragmático. Los investigadores se apartaron de las grandes promesas de una inteligencia artificial general (AGI) (Ver anexo Inteligencia artificial general), es decir, máquinas que pudieran pensar y razonar como seres humanos, y se centraron en soluciones específicas y prácticas. Este cambio de mentalidad permitió a la IA hacer avances notables en áreas más limitadas, como el reconocimiento de voz, la visión por computadora, el análisis de datos y los sistemas de recomendación.

Este enfoque más enfocado condujo al desarrollo de sistemas que, aunque no eran “inteligentes” en el sentido amplio de la palabra, podían resolver problemas muy específicos de manera mucho más eficiente que los humanos. En lugar de tratar de construir máquinas que lo hicieran todo, los investigadores de IA se concentraron en crear sistemas que pudieran realizar bien una tarea particular.

5.2. Las redes neuronales y su resurgimiento

Uno de los hitos clave de la década de 1990 fue el resurgimiento de las redes neuronales. Tras haber sido relegadas durante el invierno de la IA, las redes neuronales comenzaron a demostrar su verdadero potencial gracias a mejoras en el algoritmo de retropropagación, introducido en 1986. Durante la década de los 90, el hardware también experimentó mejoras significativas, lo que permitió a los investigadores entrenar redes neuronales más grandes y complejas.

5.2.1. Aplicaciones de las redes neuronales

En esta década, las redes neuronales se empezaron a aplicar con éxito en una variedad de áreas. Un ejemplo notable fue el reconocimiento óptico de caracteres (OCR), una tecnología que permitía a las máquinas reconocer y leer texto impreso de manera automática.

También se hicieron avances en el reconocimiento de voz, lo que llevó a la creación de sistemas que podían entender el lenguaje hablado con precisión creciente. Estos avances fueron el resultado directo de las redes neuronales, que mejoraron la capacidad de las máquinas para identificar patrones complejos en grandes cantidades de datos.

Otro ejemplo fue el reconocimiento de patrones en imágenes. Aunque las redes neuronales de los 90 no eran tan avanzadas como las redes profundas que dominarían la década siguiente, ya mostraban una notable capacidad para identificar formas y patrones en imágenes, lo que allanó el camino para los futuros avances en visión artificial y reconocimiento facial

5.2.2. Aprendizaje automático (machine learning): Un enfoque más flexible

A la par del resurgimiento de las redes neuronales, la década de 1990 fue testigo de un avance fundamental en el campo del aprendizaje automático o machine learning (ML). A diferencia de la IA simbólica, que dependía de reglas explícitamente programadas por humanos, el aprendizaje automático se basaba en la capacidad de las máquinas para aprender a partir de datos. Esto significa que, en lugar de darle a la máquina una serie de reglas predefinidas, los investigadores comenzaron a darle grandes cantidades de datos para que “aprendiera” de ellos y extrajera patrones.

Métodos populares de aprendizaje automático

Uno de los métodos más exitosos en esta época fue el algoritmo de máquinas de vectores de soporte (SVM), desarrollado por Vladimir Vapnik. Las SVM se destacaban por su capacidad para clasificar datos en diferentes categorías, encontrando el margen más grande entre los datos en un espacio multidimensional. Este método se convirtió rápidamente en una de las técnicas más poderosas para el reconocimiento de patrones y fue adoptado en una amplia variedad de aplicaciones, desde la clasificación de imágenes hasta la detección de fraudes.

Otro enfoque que cobró fuerza fue el árbol de decisión y su versión más avanzada, el algoritmo de random forest (bosques aleatorios). Estos métodos se usaban ampliamente para la clasificación y la predicción en campos como la medicina, la biología y las finanzas. Estos algoritmos eran capaces de tomar decisiones complejas basándose en una serie de preguntas o bifurcaciones, lo que permitía a las máquinas tomar decisiones más cercanas a las humanas en tareas específicas.

Las primeras aplicaciones del “data mining”

A medida que se acumulaban cantidades masivas de datos en empresas, gobiernos y otros sectores, se hizo cada vez más evidente la necesidad de herramientas para analizar y extraer información útil de estos conjuntos de datos. Esto condujo al desarrollo del data mining, un campo del aprendizaje automático que se centraba en encontrar patrones y relaciones ocultas en grandes bases de datos (es la etapa de análisis de «knowledge discovery in databases» o KDD).

Por ejemplo, las empresas comenzaron a utilizar técnicas de data mining para mejorar sus estrategias de marketing. Las grandes cadenas de supermercados, como Walmart, utilizaban estos métodos para analizar los hábitos de compra de sus clientes y ajustar el inventario en función de las tendencias de consumo. Estas aplicaciones prácticas mostraron que la IA no solo tenía potencial en laboratorios y experimentos, sino que podía transformar la forma en que las empresas operaban en la vida cotidiana.

5.3. Sistemas expertos en áreas prácticas

Aunque la IA simbólica perdió parte de su protagonismo, los sistemas expertos seguían siendo una herramienta valiosa en la década de los 90, especialmente en dominios específicos. Los sistemas expertos aplicados en la medicina, por ejemplo, demostraron su utilidad al ayudar a los médicos a diagnosticar enfermedades o recomendar tratamientos basados en una base de conocimientos vasta y precisa. Estos sistemas, aunque limitados, pudieron resolver problemas en contextos bien definidos donde los datos y reglas podían ser estructurados con precisión.

Un ejemplo significativo fue el sistema MYCIN, que se utilizó para diagnosticar infecciones bacterianas y recomendar tratamientos. Aunque fue desarrollado en los 70, sistemas similares continuaron evolucionando en los 90, demostrando que, con suficiente conocimiento experto codificado, estas herramientas podían hacer recomendaciones precisas en ámbitos donde los errores humanos eran comunes.

5.4. Deep Blue vs. Garry Kasparov: La IA derrota al campeón mundial de ajedrez

Uno de los hitos más icónicos de la década de 1990 fue la histórica partida entre el campeón mundial de ajedrez Garry Kasparov y la supercomputadora Deep Blue de IBM en 1997. Este evento fue considerado por muchos como un momento decisivo para la IA, ya que una máquina vencía por primera vez a un campeón mundial en un juego que requería un alto nivel de pensamiento estratégico.

Deep Blue no era una IA tradicional basada en aprendizaje automático, sino un sistema basado en la fuerza bruta y en la capacidad de realizar millones de cálculos por segundo para evaluar todas las posibles jugadas. Sin embargo, la victoria de la máquina sobre Kasparov fue un símbolo del avance de la IA y demostró que, en algunos aspectos, las computadoras podían superar las capacidades humanas. Aunque Deep Blue no “pensaba” como un ser humano, su capacidad para procesar información a una velocidad sin precedentes le permitió dominar el ajedrez de una manera que ningún humano podría igualar.

EL HOMBRE VS LA MAQUINA

5.5. El nacimiento de la IA en internet: Agentes inteligentes y sistemas de recomendación

Con la llegada de internet y su expansión masiva en los años 90, comenzaron a surgir nuevas aplicaciones de la IA en el mundo digital. Uno de los desarrollos más importantes fue la creación de sistemas de recomendación, que utilizaban algoritmos de IA para sugerir productos, servicios o contenido a los usuarios en función de sus preferencias.

El ejemplo más temprano y destacado de esto fue el sistema de recomendaciones de Amazon, que se lanzó en la década de 1990. Amazon utilizaba algoritmos para analizar el comportamiento de compra de los usuarios y sugerir productos que podrían interesarles en función de lo que otros usuarios habían comprado. Esta tecnología, que parecía innovadora en ese momento, se convirtió en la base de muchas de las recomendaciones personalizadas que hoy en día se ven en plataformas de streaming, redes sociales y tiendas en línea.

Además, los agentes inteligentes comenzaron a ganar terreno en internet. Estos agentes eran programas de software que podían realizar tareas de forma autónoma, como navegar por la web, recopilar información o automatizar procesos simples. Uno de los primeros ejemplos populares fue el clásico agente inteligente “Clippy” de Microsoft, el asistente de Office, que aunque fue criticado por su simplicidad, representaba el primer intento de IA popular en productos de software masivos.

5.6. El nacimiento del aprendizaje profundo (Deep Learning)

A finales de la década de 1990, la investigación sobre redes neuronales multicapa y su potencial para resolver problemas más complejos continuó. Aunque el concepto de aprendizaje profundo no explotaría hasta la década de 2010, los avances en la investigación sentaron las bases para el futuro. Investigadores como Geoffrey Hinton y Yann LeCun seguían explorando cómo las redes neuronales profundas, con muchas capas ocultas, podían aprender representaciones jerárquicas.

6. DÉCADA DE 2000: EL AUGE DEL APRENDIZAJE AUTOMÁTICO

A medida que el poder computacional crecía exponencialmente y la cantidad de datos disponibles aumentaba, el aprendizaje automático (Machine Learning, ML) se convirtió en el enfoque dominante en la IA. En lugar de programar explícitamente cada paso, las máquinas podían aprender patrones a partir de grandes conjuntos de datos.

6.1. 2006: El renacimiento del aprendizaje profundo

En 2006, Geoffrey Hinton popularizó el concepto de aprendizaje profundo (Deep Learning), una técnica que utiliza redes neuronales profundas para aprender representaciones complejas de datos. Esto permitió avances significativos en áreas como el reconocimiento de imágenes, la visión por computadora y el procesamiento del lenguaje natural (PLN o NLP por sus siglas en inglés).

6.2. 2008: Google y la revolución de los datos

Con la explosión de internet y grandes cantidades de datos disponibles, empresas como Google comenzaron a aprovechar los datos masivos (Big Data) para mejorar sus algoritmos de IA. Los motores de búsqueda, la publicidad personalizada y los sistemas de recomendación comenzaron a basarse en técnicas de ML para ofrecer resultados más precisos y personalizados.

7. DÉCADA DE 2010: LA ERA DE LA IA APLICADA

En la década de 2010, la IA comenzó a integrarse en productos y servicios cotidianos. El aprendizaje profundo permitió avances masivos en la precisión de sistemas de reconocimiento de voz, visión por computadora y traducción automática.

7.1. Las competiciones de ImageNet

ImageNet y AlexNet son hitos clave en la historia reciente de la inteligencia artificial, particularmente en el campo del aprendizaje profundo y el reconocimiento de imágenes. Su impacto ha sido monumental, revolucionando la forma en que las máquinas entienden y procesan imágenes.

7.1.1. ImageNet: El gran conjunto de datos

ImageNet, creado por Fei-Fei Li en 2009, es un gigantesco conjunto de datos de imágenes etiquetadas que contiene millones de imágenes organizadas en más de 20,000 categorías. Antes de ImageNet, los sistemas de visión por computadora carecían de suficientes datos para entrenar modelos robustos. La creación de este vasto repositorio permitió que los investigadores de IA entrenaran redes neuronales profundas con una riqueza de datos nunca antes vista. El concurso ImageNet Large Scale Visual Recognition Challenge (ILSVRC) se convirtió en un referente anual para evaluar el progreso de los modelos de reconocimiento de imágenes.

Amazon Mechanical Turk (MTurk) debe su nombre al automáta del Turco

Una de las mayores limitaciones en la IA es la falta de datos etiquetados. MTurk ha permitido a empresas y laboratorios de investigación crear conjuntos de datos etiquetados de forma manual a una escala sin precedentes. Por ejemplo, plataformas como ImageNet utilizaron MTurk para etiquetar millones de imágenes, lo que permitió entrenar modelos de redes neuronales profundas.

7.1.2. AlexNet: La revolución del aprendizaje profundo

En 2012, AlexNet, una red neuronal convolucional desarrollada por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton, participó en la competición ILSVRC y logró un avance impresionante. AlexNet, entrenado con los datos de ImageNet, redujo drásticamente la tasa de error en la clasificación de imágenes, superando por un amplio margen a los métodos tradicionales. Esto marcó el inicio de la era del aprendizaje profundo, ya que la red utilizaba varias capas convolucionales (red neuronal convolucional) y técnicas como la regularización (dropout) y el uso de GPUs para acelerar el entrenamiento.

7.1.3. Importancia de ImageNet y AlexNet

Cambio de paradigma: AlexNet y su éxito en ImageNet demostraron que las redes neuronales profundas podían superar significativamente a los algoritmos tradicionales en tareas de reconocimiento de imágenes. Esto catapultó el uso de aprendizaje profundo en múltiples áreas.
Popularización del uso de GPUs: AlexNet mostró que entrenar redes profundas con grandes conjuntos de datos era viable gracias al uso de unidades de procesamiento gráfico (GPUs), lo que abrió la puerta al desarrollo de modelos más complejos y potentes.
Avances en la visión por computadora: ImageNet y AlexNet impulsaron drásticamente el progreso en la visión artificial, lo que llevó a avances en áreas como la conducción autónoma, la medicina (diagnóstico por imágenes), y la robótica.
Impulso a la investigación en IA: Este momento impulsó una nueva ola de investigaciones en aprendizaje profundo y el desarrollo de redes neuronales más sofisticadas como ResNet o Inception.

En resumen, la combinación de ImageNet y AlexNet transformó el campo de la inteligencia artificial, consolidando al aprendizaje profundo como el enfoque dominante en problemas de reconocimiento de patrones y procesamiento de datos visuales.

7.2. Jeopardy! Watson de IBM va a la TV

Watson de IBM y su victoria en Jeopardy! es una de las historias más emocionantes en la evolución de la inteligencia artificial (IA). Fue un momento en que la tecnología, que hasta entonces parecía más propia de la ciencia ficción, demostró su potencial en un entorno muy humano: un concurso de preguntas y respuestas.

IBM Watson: Final Jeopardy! and the Future of Watson

7.2.1. El sueño de IBM: Crear un competidor para Jeopardy!

A mediados de la década de 2000, los ingenieros de IBM se embarcaron en un proyecto audaz: construir una inteligencia artificial capaz de competir y ganar en Jeopardy!, el famoso programa de televisión donde los concursantes deben responder preguntas de manera rápida y precisa. Pero esto no era solo un desafío trivial. Jeopardy! es un juego donde se ponen a prueba los conocimientos sobre una amplia variedad de temas, desde cultura general hasta historia, ciencia y entretenimiento. Además, las preguntas no son directas, muchas veces incluyen juegos de palabras, referencias culturales y pistas ambiguas. ¿Podría una máquina, que hasta entonces solo había destacado en cálculos numéricos y procesamiento de datos, enfrentarse a este tipo de desafío?

Así nació Watson, un proyecto que durante años buscó la forma de hacer que una IA comprendiera el lenguaje natural, es decir, la forma en que hablamos y escribimos los humanos. No era suficiente que Watson encontrara una respuesta en una base de datos; tenía que entender la pregunta, interpretarla y decidir si su respuesta era lo suficientemente confiable como para arriesgarse a darla.

7.2.2. La construcción de Watson: Tecnología y cerebro digital

Watson no es una computadora cualquiera. En su construcción, los ingenieros de IBM combinaron varias tecnologías innovadoras para crear una máquina que pudiera procesar grandes cantidades de información en muy poco tiempo. Lo que hacía especial a Watson no era solo su velocidad, sino su capacidad para generar hipótesis, es decir, adivinar la respuesta más probable entre muchas posibles, y luego elegir la más adecuada según el contexto.

El equipo de IBM alimentó a Watson con millones de páginas de enciclopedias, libros, artículos de noticias y todo tipo de textos que le permitieran aprender sobre una gran diversidad de temas. Sin embargo, Watson no tenía acceso a Internet durante la competencia, todo lo que sabía estaba almacenado en su base de datos.

7.2.3. La competencia: Watson contra los humanos

En febrero de 2011, Watson se enfrentó a Ken Jennings y Brad Rutter, dos concursantes legendarios de Jeopardy!. Jennings ostentaba el récord de victorias consecutivas, con 74, y Rutter era el concursante que más dinero había ganado en la historia del programa. La competición prometía ser épica.

Durante el juego, Watson debía no solo responder correctamente, sino hacerlo más rápido que sus oponentes humanos. Para ello, calculaba la probabilidad de que su respuesta fuera correcta antes de arriesgarse a darla. A veces, su razonamiento era impecable y dejaba a todos sorprendidos. En otras ocasiones, Watson cometía errores curiosos, como cuando respondió “Toronto” a una pregunta sobre una ciudad estadounidense. Pero en conjunto, su precisión y rapidez fueron asombrosas.

7.2.4. La victoria de Watson: Un momento histórico

Al final de la competencia de tres días, Watson ganó de manera aplastante, acumulando $77,147, mientras que Jennings se quedó con $24,000 y Rutter con $21,600. Esta victoria fue un momento histórico no solo para la televisión, sino para el mundo de la tecnología. Watson había demostrado que las máquinas podían competir a un alto nivel en un juego de lenguaje natural, algo que se consideraba uno de los mayores desafíos para la IA.

Jennings, mostrando buen humor, escribió en su pantalla: “Yo, por mi parte, doy la bienvenida a nuestros nuevos amos computacionales”, una broma que reflejaba el asombro ante lo que acababa de suceder.

7.2.5. ¿Y después de Jeopardy!? El legado de Watson

Después de su victoria en Jeopardy!, Watson no se quedó en el mundo del entretenimiento. IBM rápidamente vio el potencial de esta tecnología en áreas más serias. Watson fue adaptado para ayudar a médicos en la toma de decisiones clínicas, analizando investigaciones médicas y ayudando a encontrar tratamientos. También se ha utilizado en el mundo de los negocios, la educación y hasta en la atención al cliente, proporcionando respuestas precisas a preguntas complejas en tiempo real.

Lo que Watson logró en Jeopardy! fue más que un truco publicitario. Demostró que las máquinas podían procesar información compleja, comprender el lenguaje humano y tomar decisiones acertadas, algo que antes parecía exclusivo de las personas.

7.2.6. Conclusiones: El impacto de Watson en la IA

Watson y su participación en Jeopardy! cambiaron la forma en que percibimos la inteligencia artificial. Aunque la IA aún no podía competir con el sentido común humano o comprender los matices más sutiles del lenguaje, Watson demostró que las máquinas podían igualar, e incluso superar, a los humanos en tareas específicas que requerían rapidez, conocimiento y procesamiento de datos.

Este evento marcó el comienzo de una nueva era en la IA, donde los avances en procesamiento de lenguaje natural y aprendizaje automático comenzaron a transformar industrias enteras. Y aunque Watson no tiene la respuesta a todas las preguntas de la humanidad, su éxito en Jeopardy! fue una prueba de que la IA estaba lista para salir de los laboratorios y comenzar a influir en la vida cotidiana de las personas.

7.3. AlphaGo (2016)

Uno de los hitos más impresionantes fue el triunfo de AlphaGo, un sistema de IA desarrollado por DeepMind (una filial de Google), que derrotó al campeón mundial de Go. Go es un juego milenario mucho más complejo que el ajedrez, y la victoria de AlphaGo demostró el poder del aprendizaje profundo combinado con algoritmos avanzados de planificación.

Documental AlphaGo (subtítulos en español)

8. 2020 y MÁS ALLÁ: IA GENERATIVA Y APLICACIONES ÉTICAS

En la década de 2020, la IA generativa, como los modelos GPT y DALL-E, ha revolucionado la capacidad de las máquinas para crear texto, imágenes y música. Estos modelos, desarrollados por OpenAI, han mostrado que las máquinas pueden generar contenido creativo, llevando la IA a terrenos nunca antes imaginados.

Sin embargo, también han surgido grandes desafíos éticos. La preocupación por el sesgo algorítmico, la privacidad de los datos y la posibilidad de que la IA reemplace trabajos humanos han generado debates en la sociedad. Las regulaciones y los enfoques éticos para el desarrollo de la IA son ahora una parte crucial de la conversación.

The New York Times “Why Pope Francis Is the Star of A.I.-Generated Photos”

Millions of Workers Are Training AI Models for Pennies From the Philippines to Colombia, low-paid workers label training data for AI models used by the likes of Amazon, Facebook, Google, and Microsoft.

En 2018, la ACLU (American Civil Liberties Union) realizó una prueba del sistema de reconocimiento facial Rekognition de Amazon, y descubrió que identificó incorrectamente a 28 miembros del Congreso de los EE. UU. como criminales al compararlos con una base de datos pública de fotografías policiales. Los errores afectaron de manera desproporcionada a legisladores afroamericanos y latinos. El sistema mostró un sesgo racial al fallar más frecuentemente con personas de color que con individuos de piel clara.“Amazon’s Facial Recognition Wrongly Identifies 28 Lawmakers, A.C.L.U. Says”. “Amazon Puts 1-Year Ban on Police Use of its Biased Facial Recognition Software”

8.1. ¿El futuro?

La singularidad de la IA es un concepto futurista que se refiere a un punto en el que la inteligencia artificial supera la inteligencia humana, lo que podría desencadenar un cambio radical en la civilización. En este escenario, las máquinas serían capaces de mejorar su propio diseño y capacidades a un ritmo exponencial, llevándolas a un nivel de inteligencia y capacidad tecnológica que está más allá de la comprensión o control humanos.

Este concepto está relacionado con las ideas de Ray Kurzweil, quien predice que la singularidad podría ocurrir hacia el 2045. Los defensores creen que podría resolver muchos de los problemas actuales, como enfermedades o el cambio climático. Sin embargo, los críticos advierten sobre los riesgos de perder el control sobre las máquinas, lo que podría generar consecuencias impredecibles, tanto positivas como negativas.

En resumen, la singularidad plantea grandes esperanzas y desafíos éticos sobre el futuro de la humanidad en un mundo dominado por una superinteligencia artificial.

9. ANEXOS

9.1. Inteligencia artificial general

La inteligencia artificial general (IAG), también llamada inteligencia artificial fuerte, es un tipo hipotético de inteligencia artificial que iguala o excede la inteligencia humana promedio. Si se hiciera realidad, una IAG sería capaz de realizar cualquier tarea intelectual que los seres humanos o los animales puedan llevar a cabo. La creación de la IAG es un objetivo primordial de algunas investigaciones sobre inteligencia artificial y de empresas como OpenAI, DeepMind y Anthropic. La IAG es un tema habitual en la ciencia ficción y en los estudios sobre el futuro.

Los plazos para el desarrollo de la inteligencia artificial siguen siendo objeto de debate entre investigadores y expertos. Algunos sostienen que podría realizarse en años o décadas; otros, que podría tardar un siglo o más; y una minoría cree que quizá nunca se consiga (<>). Existe un debate sobre la definición exacta de IAG y sobre si los modelos de lenguaje grandes modernos, como GPT-4, son formas tempranas pero incompletas de IAG.

Hay una amplia discusión sobre la posibilidad de que la IAG suponga una amenaza para la humanidad. Por ejemplo, OpenAI la considera un riesgo existencial, mientras que otros creen que el desarrollo de la inteligencia artificial es demasiado remoto como para suponer un riesgo.

LA ERA DE LA I.A. | El Camino hacia la Singularidad: ¿el destino de la Inteligencia Artificial?

9.2. Test de Turing

El Test de Turing es una de las ideas más influyentes y debatidas en el campo de la inteligencia artificial (IA) y la filosofía de la mente. Propuesto por el matemático y pionero de la computación Alan Turing en 1950, el test plantea una forma de evaluar si una máquina es capaz de exhibir un comportamiento inteligente indistinguible del de un ser humano. Aunque ha sido objeto de críticas y revisiones, sigue siendo un punto de referencia clave en la discusión sobre la naturaleza de la inteligencia artificial.

9.3. Solucionador General de Problemas (GPS)

En primer lugar, veamos la IA simbólica. El conocimiento de un programa de IA simbólica está formado por palabras o frases (los «símbolos»), normalmente comprensibles para un ser humano, además de reglas con arreglo a las cuales el programa combina y procesa esos símbolos para hacer la tarea asignada.

Pondré un ejemplo. Uno de los primeros programas de IA se llamaba nada menos que Solucionador General de Problemas, GPS en sus siglas en inglés. (Lamento la confusión de siglas; este solucionador fue muy anterior al GPS de la geolocalización, o sistema de posicionamiento global). El GPS podía resolver problemas como el de «misioneros y caníbales», con el que quizá se haya encontrado usted de niño. En este conocido acertijo, tres misioneros y tres caníbales tienen que cruzar un río, pero en su barca solo caben dos personas. Si en algún momento hay más caníbales (hambrientos) que misioneros (de aspecto apetitoso) en una de las dos orillas del río… se pueden imaginar lo que pasa. ¿Cómo consiguen los seis cruzar el río intactos?

Los creadores del Solucionador General de Problemas, los científicos cognitivos Herbert Simon y Allen Newell, grabaron a varios estudiantes mientras «pensaban en voz alta» tratando de resolver este y otros problemas lógicos, y diseñaron su programa para que imitara lo que consideraban los procesos mentales de los estudiantes.

No voy a entrar en detalles sobre cómo funcionaba el GPS, pero se puede ver su carácter simbólico en cómo estaban codificadas las instrucciones del programa. Para plantear el problema, un humano escribiría un código parecido a este:

En lenguaje humano, estas líneas representan el hecho de que al principio la orilla izquierda del río «contiene» tres misioneros, tres caníbales y una barca, mientras que la orilla derecha no contiene nada de eso. El estado deseado representa el objetivo del programa: trasladar a todos a la orilla derecha del río.

En cada paso de su procedimiento, el GPS intenta cambiar su estado actual para que se aproxime más al estado deseado. En su código, el programa tiene «operadores» (en forma de subprogramas) capaces de transformar el estado actual en un nuevo estado, así como «reglas» que codifican los límites de la tarea. Por ejemplo, hay un operador que traslada un número determinado de misioneros y caníbales de un lado a otro del río:

Las palabras dentro de los paréntesis se llaman argumentos, y el programa, cuando está ejecutándose, sustituye esas palabras por números u otras palabras. Es decir, #MISIONEROS se sustituye por el número de misioneros que hay que trasladar, #CANÍBALES por el número de caníbales que hay que trasladar y DE-LADO y A-LADO se sustituyen por «ORILLA-IZQUIERDA» u «ORILLA-DERECHA» dependiendo de la orilla desde la que haya que trasladar a los misioneros y los caníbales. El programa incluye, codificado, el hecho de que el barco se desplaza junto con los misioneros y los caníbales.

Antes de poder aplicar este operador con valores específicos que sustituyan a los argumentos, el programa debe comprobar sus reglas codificadas; por ejemplo, el máximo número de personas que pueden trasladarse a la vez es dos y el operador no se puede usar si el resultado va a ser que haya más caníbales que misioneros en una orilla.

Aunque los símbolos representan conceptos interpretables por un ser humano, como «misioneros», «caníbales», «barco» y «orilla izquierda», el ordenador que ejecuta el programa, por supuesto, no conoce el significado de esos símbolos. Podríamos sustituir «MISIONEROS» por «Z372B» o cualquier otra cadena sin sentido en todos los casos y el programa funcionaría exactamente igual. Esa es una de las cosas a las que se refiere el término general en Solucionador General de Problemas. Para el ordenador, el «significado» de los símbolos deriva de las formas en que se pueden combinar, relacionar y manejar.

Los defensores del enfoque simbólico de la IA sostienen que, para que los ordenadores sean inteligentes, no es necesario construir unos programas que imiten el cerebro, sino que es posible capturar totalmente la inteligencia general con un programa apropiado de procesamiento de símbolos. El funcionamiento de un programa así sería mucho más complejo que el ejemplo de misioneros y caníbales, es cierto, pero seguiría consistiendo en símbolos, combinaciones de símbolos, y reglas y operaciones con símbolos. La IA simbólica del tipo del GPS dominó el campo durante las tres primeras décadas, sobre todo en forma de sistemas expertos, en los que unos expertos humanos concebían reglas para que los programas informáticos las utilizaran en tareas como el diagnóstico médico y la toma de decisiones legales. Hay varias ramas activas de la IA que siguen empleando la IA simbólica.

9.4. Perceptrón

La IA simbólica de perceptrones se inspiró originalmente en la lógica matemática y en cómo describía la gente sus procesos de pensamiento consciente. En cambio, los enfoques subsimbólicos de la IA se inspiraban en la neurociencia e intentaban captar los procesos de pensamiento, a veces inconscientes, que sirven de base de lo que algunos denominan percepción rápida, como el reconocimiento facial o la identificación de palabras habladas.

Los programas subsimbólicos de IA no contienen un lenguaje comprensible para los humanos. Un programa subsimbólico es esencialmente un montón de ecuaciones, una maraña de operaciones numéricas a menudo difíciles de interpretar. Como explicaré enseguida, estos sistemas están diseñados para que, a partir de los datos, aprendan a ejecutar una tarea.

A, una neurona del cerebro; B, un perceptrón simple.

Uno de los primeros ejemplos de programa de IA subsimbólico inspirado en el cerebro fue el perceptrón, inventado a finales de los años cincuenta por el psicólogo Frank Rosenblatt. Para nuestros oídos modernos, el término perceptrón puede sonar un poco a la ciencia ficción de aquellos años, pero el perceptrón fue un hito importante en la IA y fue el influyente bisabuelo de la herramienta más eficaz de la IA moderna, las redes neuronales profundas.

Para inventar los perceptrones, Rosenblatt se inspiró en la forma que tienen las neuronas de procesar la información. Una neurona es una célula del cerebro que recibe estímulos eléctricos o químicos de otras neuronas conectadas a ella. Dicho en pocas palabras, una neurona suma todos los datos que recibe de otras neuronas y, si la suma total alcanza un umbral determinado, la neurona se activa. Es importante destacar que las distintas conexiones (sinapsis) de otras neuronas a una neurona concreta tienen distinta potencia; para calcular el total de los datos recibidos, la neurona da más peso a las de las conexiones más fuertes que a las de las más débiles. Los neurocientíficos creen que los ajustes en función de la fuerza de las conexiones entre neuronas son una parte fundamental del aprendizaje en el cerebro.

Para un informático (o, en el caso de Rosenblatt, un psicólogo), el procesamiento de la información en las neuronas puede simularse mediante un programa informático —un perceptrón— con varias entradas numéricas y una salida. En la figura superior se ilustra la analogía entre una neurona y un perceptrón. La figura 1A muestra una neurona, con sus dendritas ramificadas (las fibras que llevan las informaciones a la célula), el cuerpo celular y el axón (es decir, el canal de salida) etiquetados. La figura 1B muestra un perceptrón simple. El perceptrón, de forma análoga a la neurona, suma sus datos y, si la suma resultante es igual o superior al umbral del perceptrón, este emite el valor uno («se activa»); si no es así, emite el valor cero (no «se activa»). Para simular las distintas fuerzas de las conexiones a una neurona, Rosenblatt propuso que se asignara un peso numérico a cada una de las informaciones que entran en un perceptrón, de forma que cada elemento que entra se multiplica por su peso antes de añadirse a la suma. El umbral de un perceptrón no es más que un número establecido por el programador (o, como veremos, aprendido por el propio perceptrón).

En resumen, un perceptrón es un simple programa que decide entre un sí y un no (uno o cero) en función de si la suma de los datos que recibe, ponderados, alcanza un umbral determinado. Probablemente todos tomamos decisiones de este tipo. Por ejemplo, quizá varios amigos nos dicen cuánto les ha gustado una película, pero nos fiamos más del gusto de algunos que del de otros. Si la cantidad total de «entusiasmo de los amigos» —que da más peso a los amigos de los que más confiamos— es suficientemente alta (es decir, superior a algún umbral inconsciente), decidimos ir al cine. Así decidiría un perceptrón ir o no al cine, si tuviera amigos.

Inspirándose en las redes de neuronas del cerebro, Rosenblatt propuso que las redes de perceptrones pudieran ejecutar tareas visuales como el reconocimiento de caras y objetos. Para hacernos una idea de cómo podrían hacerlo, vamos a ver cómo se podría usar un perceptrón para una tarea visual concreta: reconocer cifras manuscritas como las de la figura:

Ejemplos de cifras manuscritas.

En concreto, vamos a diseñar un perceptrón que sea detector de ochos, es decir, que emita un uno si los datos que recibe proceden de una imagen que representa un ocho, y que emita un cero si la imagen representa alguna otra cifra. Para diseñar un detector de este tipo hay que (1) averiguar cómo convertir una imagen en un conjunto de informaciones numéricas y (2) determinar los números que se van a usar para la ponderación y el umbral del perceptrón, de modo que dé la emisión correcta (uno en el caso de ocho; cero en el caso de otras cifras). Voy a explicar algunos detalles al respecto porque más adelante, cuando hable sobre redes neuronales y sus aplicaciones en visión artificial, volverán a aparecer muchas de estas mismas ideas.

Las informaciones que entran en nuestro perceptrón

La figura inferior muestra un ocho manuscrito ampliado. Cada elemento de la cuadrícula es un píxel con un valor numérico de «intensidad»: los cuadrados blancos tienen una intensidad de cero, los negros de uno y los grises están entre los dos. Supongamos que las imágenes que damos a nuestro perceptrón se han ajustado para que tengan el mismo tamaño que esta: 18 × 18 píxeles. La figura 3B ilustra un perceptrón diseñado para reconocer los ochos. Este perceptrón tiene 324 entradas (es decir, 18 × 18), cada una de las cuales corresponde a uno de los píxeles de la cuadrícula de 18 × × 18 píxeles. En una imagen como la de la figura, cada entrada del perceptrón se ajusta a la intensidad del píxel correspondiente. Cada entrada tendría su propio valor de ponderación (no mostrado en la figura).

Ilustración de un perceptrón que reconoce un ocho manuscrito. Cada píxel de la imagen de 18 × 18 píxeles corresponde a una entrada de información del perceptrón, de modo que hay 324 (= 18 × 18) entradas.

Aprendizaje de los pesos y umbrales del perceptrón

A diferencia del Solucionador General de Problemas (GPS), que es un sistema simbólico, un perceptrón no tiene unas reglas explícitas para ejecutar su tarea; todo su «conocimiento» está codificado en los números que constituyen sus pesos y umbrales. En sus diversos ensayos, Rosenblatt demostró que, dados los valores correctos de peso y umbral, un perceptrón como el de la figura superior puede llevar a cabo bastante bien tareas de percepción como el reconocimiento de cifras manuscritas sencillas. Ahora bien, ¿cómo determinar exactamente los pesos y umbrales correctos para una tarea determinada? También aquí, Rosenblatt respondió tomando ejemplo del cerebro: el perceptrón debería aprender esos valores por sí solo. ¿Y cómo se supone que va a aprender los apropiados? En consonancia con las teorías de psicología conductista populares en la época, la idea de Rosenblatt era que los perceptrones debían aprender mediante el condicionamiento. Inspirándose en parte en el psicólogo conductista B. F. Skinner, que enseñaba a ratas y palomas a llevar a cabo diversas tareas a base de refuerzos positivos y negativos, Rosenblatt pensó que el perceptrón debía entrenarse a partir de ejemplos: con una recompensa cuando «se activase» bien y con un castigo cuando se equivocase. Este condicionamiento es el que hoy se conoce en el campo de la IA como aprendizaje supervisado. Durante el entrenamiento, el sistema de aprendizaje recibe un ejemplo, emite una salida y entonces recibe una «señal de supervisión», que indica hasta qué punto difiere lo emitido por el sistema del resultado correcto, de manera que el sistema utiliza esa señal para ajustar sus pesos y umbrales.

El concepto de aprendizaje supervisado es parte fundamental de la IA moderna, así que merece la pena que nos detengamos en él. Normalmente, el aprendizaje supervisado necesita una gran cantidad de ejemplos positivos (por ejemplo, una colección de números ocho escritos por distintas personas) y negativos (por ejemplo, una colección de cifras distintas de ocho, también manuscritas). Un humano etiqueta cada ejemplo según su categoría: en este caso, ocho o no ocho. Esta etiqueta va a ser la señal de supervisión. Para entrenar al sistema se emplean varios de los ejemplos positivos y negativos, lo que se denomina «datos de entrenamiento». Los demás, los «datos de prueba», se usan para evaluar el rendimiento del sistema después de entrenarlo, para ver hasta qué punto ha aprendido a dar la respuesta correcta en general, no solo en los ejemplos con los que se le ha entrenado.

El término más importante en informática es tal vez algoritmo, que designa una «receta» con los pasos que puede seguir un ordenador para resolver un problema concreto. La principal contribución de Frank Rosenblatt a la IA fue el diseño de un algoritmo específico, llamado algoritmo de aprendizaje del perceptrón, con el que es posible entrenar un perceptrón a partir de ejemplos para determinar las ponderaciones y el umbral necesarios para emitir respuestas correctas. Funciona así: para empezar, se asignan a los pesos y el umbral unos valores aleatorios entre −1 y 1. En nuestro ejemplo, la ponderación de la primera entrada de información podría fijarse en 0,2, la de la segunda entrada en −0,6, y así sucesivamente, mientras que el umbral podría ser 0,7. Un programa informático llamado generador de números aleatorios puede generar cómodamente estos valores iniciales.

Ahora podemos iniciar el proceso de entrenamiento. Se da al perceptrón el primer ejemplo de entrenamiento, sin que vea todavía la etiqueta de categoría correcta. El perceptrón multiplica cada entrada por su peso, suma todos los resultados, compara la suma con el umbral y emite un uno o un cero. En este caso, el uno significa una conjetura de ocho y el cero significa una conjetura de no ocho. Entonces, el proceso de entrenamiento compara lo emitido por el perceptrón con la respuesta correcta que aparece en la etiqueta asignada por el ser humano (es decir, ocho o no ocho). Si el perceptrón acierta, los pesos y el umbral no cambian. Pero si el perceptrón se equivoca, se modifican ligeramente, para que la suma del perceptrón en este ejemplo de entrenamiento se aproxime más a los valores que producen la respuesta correcta. Además, el grado de modificación de cada peso depende del valor de entrada asociado; es decir, la responsabilidad del error se asigna en función de las entradas o estímulos que hayan tenido más efecto. Por ejemplo, en el ocho de la figura, los píxeles de mayorintensidad (en este caso, negros) tienen más efecto, y los píxeles con intensidad cero (en este caso, blancos) no tendrían ningún impacto.

Todo el proceso se repite con el siguiente ejemplo de entrenamiento. Se utilizan todos los ejemplos de entrenamiento varias veces y se modifican ligeramente los pesos y el umbral cada vez que el perceptrón comete un error. Como descubrió el psicólogo B. F. Skinner cuando entrenaba palomas, es mejor aprender de forma gradual, probando muchas veces; si se modifican los pesos y el umbral demasiado de una sola vez, el sistema puede acabar aprendiendo lo que no debe (como la generalización de que «las mitades inferior y superior de un ocho tienen siempre el mismo tamaño»). Después de muchas repeticiones con cada ejemplo de entrenamiento, el sistema acaba (si todo va bien) por establecer un conjunto de pesos y un umbral que dan como resultado respuestas correctas para todos los ejemplos de entrenamiento. Entonces podemos evaluar el perceptrón con los ejemplos de prueba para ver cómo funciona con imágenes para las que no ha sido entrenado. Un detector de ochos es útil si nos interesan únicamente los ochos. Pero ¿y si queremos que reconozca otras cifras? Es bastante fácil ampliar nuestro perceptrón para que tenga diez salidas, una por cada dígito. Dada una cifra manuscrita de ejemplo, la salida correspondiente a esa cifra debe ser uno y todas las demás salidas deben ser cero. Este perceptrón ampliado puede aprender todos los pesos y umbrales utilizando el algoritmo de aprendizaje del perceptrón; lo único que necesita el sistema son suficientes ejemplos.

Rosenblatt y otros demostraron que las redes de perceptrones podían aprender a desempeñar tareas perceptivas relativamente sencillas; además, Rosenblatt demostró matemáticamente que, para una clase de tareas determinada, aunque muy concreta, los perceptrones suficientemente entrenados podían, en principio, aprender a ejecutar esas tareas sin errores.

Lo que no estaba claro era hasta qué punto los perceptrones podían hacer bien tareas de IA más generales, pero esa incertidumbre no pareció impedir que Rosenblatt y sus patrocinadores de la Oficina de Investigaciones Navales hicieran predicciones absurdamente optimistas sobre su algoritmo. The New York Times, en su información sobre una rueda de prensa que ofreció Rosenblatt en julio de 1958, hizo este resumen:

La Armada ha dado a conocer hoy el embrión de un ordenador electrónico que prevé que podrá caminar, hablar, ver, escribir, reproducirse y ser consciente de su propia existencia. Con el tiempo, pronostican, los perceptrones serán capaces de reconocer a una persona y llamarla por su nombre, así como de traducir al instante un idioma hablado a otro hablado y escrito

9.5. Reconocimiento de objetos en el cerebro y en las ConvNet

El diseño de las ConvNet, se basa en varios hallazgos fundamentales sobre el sistema visual del cerebro que hicieron Hubel y Wiesel en los años cincuenta y sesenta. Cuando los ojos se fijan en una escena, lo que reciben es la luz de distintas longitudes de onda que reflejan los objetos y las superficies de esa escena. La luz que llega a los ojos activa las células de la retina, que es básicamente una red de neuronas en la parte posterior del ojo. Las neuronas comunican su activación al cerebro a través de los nervios ópticos y así activan, a su vez, las neuronas de la corteza visual, que está en la parte posterior de la cabeza (figura inferior). La corteza visual está organizada aproximadamente como una serie jerárquica de capas de neuronas, como los pisos de una tarta nupcial, y las neuronas de cada capa comunican su activación a las neuronas de la capa siguiente

Vía de entrada óptica de los ojos a la corteza visual.

Hubel y Wiesel encontraron pruebas de que las neuronas de las distintas capas de esta jerarquía actúan como «detectoras» que reaccionan ante los elementos cada vez más complejos que aparecen en la escena visual, como muestra la figura superior: las neuronas de las primeras capas se activan (es decir, se disparan a mayor velocidad) en respuesta a los bordes; su activación alimenta las capas de neuronas que reaccionan ante formas simples compuestas por esos bordes; y así sucesivamente, hasta llegar a formas más complejas y, por último, a objetos enteros y rostros concretos. Obsérvese que las flechas de la figura superior indican un flujo de información ascendente (o hacia delante), que representa las conexiones desde las capas inferiores hacia las superiores (en la figura, de izquierda a derecha). Es importante señalar que en la corteza visual también se produce un flujo de información descendente o hacia atrás (de las capas superiores a las inferiores); de hecho, hay aproximadamente diez veces más conexiones descendentes que ascendentes. Sin embargo, los neurocientíficos no comprenden del todo la función de estas conexiones hacia atrás, aunque se sabe que los conocimientos y las expectativas previos, seguramente almacenados en capas cerebrales superiores, influyen mucho en lo que percibimos.

Al igual que la estructura jerárquica de transmisión hacia delante ilustrada en la figura superior, una ConvNet está formada por una secuencia de capas de neuronas simuladas, que llamaré de nuevo «unidades». Las unidades de cada capa proporcionan el estímulo a las unidades de la capa siguiente. Cuando una ConvNet procesa una imagen, cada unidad adquiere un valor de activación determinado, un número real que se calcula a partir de las entradas de la unidad con sus respectivos pesos.

Para ser más concretos, imaginemos una ConvNet hipotética, con cuatro capas más un «módulo de clasificación», que queremos entrenar para reconocer perros y gatos en imágenes. Supongamos, para simplificar, que cada imagen de entrada representa exactamente un perro o un gato. La figura inferior ilustra la estructura de nuestra ConvNet. Es un poco complicada, así que vamos a repasarla con cuidado, paso a paso, para explicar cómo funciona

Entrada y salida

La entrada o el estímulo de nuestra ConvNet es una imagen, es decir, una matriz de números que corresponden al brillo y el color de los píxeles de la imagen. La salida final que emite nuestra ConvNet es la confianza de la red (del 0 por ciento al 100 por ciento) en cada categoría: «perro» y «gato». Nuestro objetivo es que la red aprenda a emitir una gran confianza en la categoría acertada y una seguridad escasa sobre la otra categoría. Así, la red aprenderá qué conjunto de características de la imagen de entrada es más útil para esta tarea.

Mapas de activación

Obsérvese en la figura superior que cada capa de la red está representada por un conjunto de tres rectángulos superpuestos. Estos rectángulos representan mapas de activación, que se inspiran en «mapas» similares encontrados en el sistema visual del cerebro. Hubel y Wiesel descubrieron que las neuronas de las capas inferiores de la corteza visual están dispuestas físicamente de tal modo que forman más o menos una cuadrícula, en la que cada neurona reacciona a una pequeña zona correspondiente del campo visual. Imaginemos que estamos sobrevolando Los Ángeles de noche en avión y hacemos una foto; las luces que se ven en la foto forman un mapa aproximado de los elementos de la ciudad iluminada. De la misma forma, las activaciones de las neuronas de cada capa cuadriculada de la corteza visual forman un mapa aproximado de los elementos principales de la escena observada. Ahora imaginemos que tenemos una cámara especial, capaz de hacer fotos separadas de las luces domésticas, las luces de los edificios y las luces de los coches. Eso es más o menos lo que hace la corteza visual: cada elemento visual importante tiene su propio mapa neuronal. La combinación de estos mapas contribuye de forma esencial a nuestra percepción de una escena.

Las unidades de una ConvNet, como las neuronas de la corteza visual, actúan como detectoras de elementos visuales importantes; cada unidad busca su elemento correspondiente en una parte concreta del campo visual. Y como ocurre en la corteza visual (más o menos), cada capa de una ConvNet está compuesta por varias cuadrículas de unidades y cada cuadrícula forma un mapa de activación para un elemento visual específico.

¿Qué elementos visuales deben detectar las unidades de una ConvNet? Fijémonos primero en el cerebro. Hubel y Wiesel descubrieron que las neuronas de las capas inferiores de la corteza visual sirven para detectar bordes, teniendo en cuenta que «borde» se refiere al límite entre dos regiones distintas de la imagen. Cada neurona recibe un estímulo correspondiente a una pequeña región concreta de la escena visual; esta región se denomina campo receptivo de la neurona. La neurona se activa (es decir, empieza a emitir a más velocidad) solo si su campo receptivo contiene un tipo concreto de borde.

De hecho, estas neuronas son muy específicas en cuanto al tipo de borde al que reaccionan. Algunas neuronas solo se activan cuando en su campo receptivo hay un borde vertical; otras solo responden a un borde horizontal; otras solo se activan cuando hay bordes en otros ángulos concretos. Uno de los descubrimientos más importantes de Hubel y Wiesel fue que cada pequeña región del campo visual corresponde a los campos receptivos de muchas neuronas «detectoras de bordes» diferentes. Es decir, en un nivel bajo de procesamiento visual, las neuronas averiguan qué orientación tienen los bordes en cada parte de la escena que observamos. Las neuronas detectoras de bordes lo comunican a las capas superiores de la corteza visual, cuyas neuronas parece que detectan formas, objetos y rostros concretos.

Del mismo modo, la primera capa de nuestra ConvNet hipotética está formada por unidades detectoras de bordes. La figura inferior muestra una vista más detallada de la primera capa de nuestra ConvNet. Esta capa está compuesta por tres mapas de activación, cada uno de los cuales es una cuadrícula de unidades. Cada unidad de un mapa corresponde a la posición análoga en la imagen de entrada, y cada unidad recibe su estímulo de una pequeña región alrededor de esa posición: ese es su campo receptivo. (Los campos receptivos de unidades vecinas suelen solaparse). Cada unidad de cada mapa calcula un valor de activación que mide el grado de «coincidencia» de la región con la orientación de borde preferida de la unidad; por ejemplo, vertical, horizontal o con diversos grados de inclinación.

Mapas de activación en la primera capa de nuestra ConvNet

Ilustración de cómo se utilizan las convoluciones para detectar bordes verticales. Por ejemplo, una convolución del campo receptivo superior con los pesos es (200 × 1) + (110 × 0) + (70 × −1) + (190 × 1) + (90 × 0) + + (80 × −1) + (220 × 1) + (70 × 0) + (50 × −1) = 410.

La figura superior muestra en detalle cómo calculan sus activaciones las unidades del mapa 1, las que detectan los bordes verticales. Los pequeños cuadrados blancos de la imagen que entra representan los campos receptivos de dos unidades diferentes. Al ampliarlos, los fragmentos de imagen dentro de esos campos receptivos aparecen como matrices de valores de píxeles. Aquí, para simplificar, he representado cada fragmento como un conjunto de 3 × 3 píxeles (los valores, por convenio, van de 0 a 255: cuanto más claro es el píxel, mayor es el valor). Cada unidad recibe como entrada los valores de los píxeles de su campo receptivo. Después, la unidad multiplica cada entrada por su peso y suma los resultados para activar la unidad.

Los pesos que aparecen en la figura superior están pensados para generar una activación positiva elevada cuando hay un borde vertical entre claro y oscuro en el campo receptivo (es decir, un gran contraste entre los lados izquierdo y derecho del fragmento que llega a la neurona). El campo receptivo superior contiene un borde vertical: la piel clara del perro al lado de la hierba, más oscura. Eso se refleja en el valor elevado de activación (cuatrocientos diez). El campo receptivo inferior no contiene un borde así, solo hierba oscura, y la activación (menos diez) está más cerca de cero. Obsérvese que un borde vertical entre oscuro y claro producirá un valor negativo «elevado» (es decir, un valor negativo alejado de cero).

Este cálculo —multiplicar cada valor de un campo receptivo por su peso correspondiente y sumar los resultados— se denomina convolución. De ahí el nombre de «red neuronal convolucional». Antes he dicho que, en una ConvNet, un mapa de activación es una cuadrícula de unidades que corresponden a campos receptivos situados en toda la imagen. Cada unidad de un mapa de activación determinado utiliza los mismos pesos para calcular una convolución con su campo receptivo; imaginemos la imagen de entrada en la que el cuadrado blanco se desliza a lo largo de cada fragmento de la imagen. El resultado es el mapa de activación de la figura sueprior: el píxel central del campo receptivo de una unidad es de color blanco para las activaciones positivas y negativas altas, y de color más oscuro para las activaciones cercanas a cero. Se puede ver que las zonas blancas resaltan las posiciones en las que hay bordes verticales. Los mapas 2 y 3 de la figura superior se crearon del mismo modo, pero con pesos que resaltan los bordes horizontales e inclinados, respectivamente. Todos juntos, los mapas de las unidades detectoras de bordes de la primera capa proporcionan a la ConvNet una representación de la imagen de entrada como una serie de bordes orientados en diferentes regiones, algo parecido a lo que produciría un programa de detección de bordes.

Detengámonos un instante a hablar de la palabra mapa. En el lenguaje cotidiano, mapa es la representación espacial de un área geográfica, como una ciudad. Un mapa de París, por ejemplo, muestra un elemento concreto de la ciudad —el trazado de calles, avenidas y callejones—, pero no incluye otros muchos elementos como los edificios, las viviendas, las farolas, los cubos de basura, los árboles frutales o los estanques. Otros mapas se fijan en otras características; hay mapas que destacan los carriles bici de París, los restaurantes vegetarianos, los parques en los que se admiten perros. Sean cuales sean nuestros intereses, seguro que hay un mapa que nos muestra dónde satisfacerlos. Para explicar París a un amigo que nunca ha estado allí, una forma original de hacerlo puede ser enseñarle esa colección de mapas de «intereses especiales».

Una ConvNet, igual que el cerebro, representa la escena visual como una colección de mapas que reflejan los «intereses» específicos de un conjunto de detectores. En mi ejemplo, estos intereses son las diferentes orientaciones de los bordes. Ahora bien, como veremos más adelante, en las ConvNet la propia red aprende cuáles deben ser sus intereses (es decir, los detectores); dependen de la tarea específica para la que se la entrene.

La elaboración de mapas no es exclusiva de la primera capa de nuestra ConvNet. Como puede verse en la figura, hay una estructura similar en todas las capas: cada una tiene un conjunto de detectores, y cada uno de ellos crea su propio mapa de activación. Una de las claves del éxito de la ConvNet es que —también como en el cerebro— estos mapas son jerárquicos: las entradas de las unidades de la capa 2 son los mapas de activación de la capa 1, las entradas de las unidades de la capa 3 son los mapas de activación de la capa 2, y así en todas las capas. En nuestra red hipotética, en la que las unidades de la primera capa reaccionan a los bordes, las unidades de la segunda capa serían sensibles a combinaciones específicas de bordes, como las esquinas y las formas en T. Los detectores de la tercera capa serían sensibles a combinaciones de combinaciones de bordes. A medida que se sube en la jerarquía, los detectores son sensibles a características cada vez más complejas, tal como Hubel, Wiesel y otros observaron en el cerebro

Nuestra ConvNet hipotética tiene cuatro capas, cada una con tres mapas, pero en la realidad estas redes pueden tener muchas más —a veces cientos —, cada una con distintas cantidades de mapas de activación. Determinar estos y muchos otros aspectos de la estructura de una ConvNet es fundamental para conseguir que estas complejas redes puedan llevar a cabo una tarea determinada.

10. REFERENCIAS

https://es.wikipedia.org/wiki/Historia_de_la_inteligencia_artificial

Test de Turing