Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarle el uso de la web mediante el análisis de sus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúa navegando, consideramos que acepta nuestra Política de cookies .

Actualidad científica

Síguenos
  • Google+
  • RSS
  • Noticias
  • 22/10/2017

Inteligencia artificial

Las cien derrotas de AlphaGo

El go, juego asiático, es enormemente complejo. El programa de inteligencia artificial AlphaGo logró en 2016 derrotar a un campeón de ese juego. Ahora, sin embargo, debe reconocer su derrota ante su propio sucesor, AlphaGo Zero.

Nature

Menear

AlphaGo Zero gana cien partidas a su predecesor AlphaGo, que a su vez derrotó a un campeón humano de go, sin que en el proceso de aprendizaje se le ofreciesen ejemplos de partidas de seres humanos [Dilaudid].

Primavera de 2016: el programa de inteligencia artificial (IA) AlphaGo estaba preparado para el duelo hacía tanto tiempo esperado. Se tenía que enfrentar con el mejor jugador del mundo, Lee Sedol, en varias partidas. El resultado fue inequívoco: el algoritmo inteligente, que funciona de manera similar a una red neuronal, ganó cuatro de las cinco partidas. La IA derrotó al ser humano. Ahora, sin embargo, AlphaGo ha tenido que hincar la rodilla. Su balance contra un nuevo rival ha sido bastante peor que el de Sebol: cero victorias y cien derrotas. No, no fue (por desgracia) un ser humano el que realizó tan heroica hazaña. AlphaGo sucumbió ante su sucesor AlphaGo Zero. Los especialistas en computación de DeepMind, la empresa de inteligencia artificial creadora de AlphaGo y adquirida por Google, lo cuentan en Nature.

El go es un milenario juego asiático, mucho más complejo que el ajedrez; los movimientos posibles son numerosísimos: hay más configuraciones del tablero que átomos en la parte visible del universo. Hasta que AlphaGo vino, aprendió y ganó, ningún programa de inteligencia artificial había conseguido derrotar a jugadores de alto nivel. Tras el primer triunfo contra el campeón Sedol, Demis Hassabis, que dirige el desarrollo del programa, dijo esta frase: «Hemos aterrizado en la Luna». Dejaba claro lo que esa victoria representaba para él y muchos otros especialistas en computación. El go se había estado poniendo hasta ese momento como ejemplo de la inferioridad de la IA con respecto a los seres humanos. Si realmente el logro de AlphaGo cambió algo al respecto, puede todavía, como es natural, seguir siendo puesto en duda (un juego, se ha argumentado, sería en realidad uno de los retos más simples con los que la IA tendría que enfrentarse para poder equipararse a la inteligencia humana en su comportamiento cotidiano).

Pero lo cierto es que el programa de juego ahora se ha vuelto aún más listo. La nueva versión utiliza, al contrario que la antigua, solo una técnica de las empleadas en la investigación de la IA, el llamado «aprendizaje por refuerzo». El programa empieza no sabiendo prácticamente nada. La única tarea preprogramada es el refuerzo de los comportamientos que conducen a un resultado deseado (en este caso, a una ampliación de la parte que se domina en el campo de juego). En última instancia, una estrategia así lleva a la victoria cuando se realiza mejor de lo que lo hace el rival. El «aprendizaje reforzado», pues, es una técnica de entrenamiento que lleva a desarrollar un comportamiento deseado recurriendo a una estadística de recompensas.

La versión precedente, por el contrario, usaba también, además de este método de aprendizaje, el llamado «aprendizaje supervisado»; en él, el programa recibe instrucciones, dicho sea de manera simplificada. Entre ellas se puede contar, por ejemplo, en qué consiste una buena estrategia. En la práctica, de lo que se trata es de que el programa pueda analizar millones de partidas de jugadores humanos y aprender así qué tácticas conducen al triunfo.

AlphaGo Zero no recibe, en cambio, ninguna directriz, ningún dato. Solo aprende de las partidas que juega contra sí mismo. Al principio solo hace movimientos al azar pero, a medida que crece el número de partidas, van teniendo cada vez más sentido. Para acabar derrotando a su predecesor, el programa necesitó solo uns cuantas etapas de aprendizaje, en las que, eso sí, terminó casi cinco millones de partidas contra sí mismo. La IA descubrió de ese modo por sí misma algunos de los mismos principios que para jugar al go han elaborado los seres humanos, e incluso halló otros, que en última instancia suponen la diferencia con la versión anterior.

La conclusión: una IA que por completo se entrena a sí misma es claramente más lista que una que además aprende de las estrategias humanas. Lo verdaderamente importante de este desarrollo no es, sin embargo, eso. El sistema de inteligencia artificial AlphaGo Zero puede, en principio, aprender por sí mismo cualquier cosa posible: ya no lo limita un problema u objetivo determinado.

Janosch Deeg/spektrum.de

Artículo traducido y adaptado por Investigación y Ciencia con permiso de Spektrum der Wissenschaft.

Referencia: «Mastering the game of Go without human knowledge», de David Silver et al., en Nature 550, 354-359 (19 de octubre de 2017).

Artículos relacionados

BOLETÍN ACTUALIDAD¿Quieres estar al día de la actualidad científica? Recibe el nuevo boletín de actualidad con nuestros mejores contenidos semanales gratuitos (noticias y posts). Si lo deseas también puedes personalizar tu suscripción. BOLETÍN ACTUALIDAD¿Quieres estar al día de la actualidad científica? ¡Recibe el nuevo boletín de contenidos gratuitos! Ver más boletines.