Utilizamos cookies propias y de terceros para mejorar nuestros servicios y facilitarte el uso de la web mediante el análisis de tus preferencias de navegación. También compartimos la información sobre el tráfico por nuestra web a los medios sociales y de publicidad con los que colaboramos. Si continúas navegando, consideramos que aceptas nuestra Política de cookies .

3 de Marzo de 2021
Inteligencia artificial

Go-Explore puede con los juegos de Atari que se le resistían a la inteligencia artificial

Unos viejos juegos para los ordenadores Atari ponen a prueba la habilidad de la inteligencia artificial. Algunos se les atragantaban a los algoritmos que aprenden por sí mismos. Ya no.

Un Atari 2600 [Evan-Amos].

Una inteligencia artificial (IA) ha conseguido, sin que se la dote de conocimientos previos, altas puntuaciones en unos viejos juegos de ordenador, superiores, incluso muy superiores, a las de las personas, lo que hasta ahora no se había podido lograr. Lo hizo posible una pequeña pero decisiva modificación de un procedimiento ya acreditado. Adrien Ecoffet, de los Laboratorios Uber AI, en San Francisco, Joost Huizinga, de OpenAi, firma de inteligencia artificial radicada también en esa ciudad, y sus colaboradores lo describen en Nature.

Se recurre a los clásicos juegos para los ordenadores Atari, de la era arcaica de los juegos de ordenador y los ordenadores personales, para poner a prueba programas de IA que aprenden, solo mediante ensayo y error, a anotarse tantos puntos en ellos como les sea posible: un método que recibe el nombre de aprendizaje por refuerzo. Se basa en que el programa tome en cuenta cuáles de sus acciones conducen al final a una «recompensa», en la forma, digamos, de una buena puntuación.

Sin embargo, el aprendizaje por refuerzo había fallado hasta ahora con algunos juegos de Atari, por ejemplo Pitfall (de 1982) y Montezuma's Revenge (de 1984). En ellos, las acciones acertadas y la recompensa suelen guardar una relación tan poco inmediata que el sistema acaba en un callejón sin salida. A este problema se enfrentaron Ecoffet, Huizinga y sus colaboradores añadiendo una determinada forma de memoria: su familia de algoritmos Go-Explore recuerda estados concretos que han parecido prometedores y va (Go) a ellos de nuevo para desde ellos volver a explorar (Explore).

Esto le bastó al grupo para conseguir resultados superiores a los de los jugadores humanos en los juegos de Atari en los que ese rendimiento elevado era inasequible para la IA, como escriben en su artículo. Si el sistema se complementa con un fondo de conocimientos relativos al juego en cuestión, el rendimiento mejora considerablemente en algunos casos.

Ese puente entre métodos de IA como el aprendizaje por refuerzo o el aprendizaje profundo, por un lado, y los que se basan en conocimientos, por el otro lado, es el verdadero logro del estudio, según dice en Science Media Center Jan Peters, experto de IA de la Universidad Técnica de Darmstadt: «Que este trabajo se generalizara podría suponer un cambio de época en la IA. ¡Para muchos investigadores de la IA se trataría de un sueño que se tiene desde hace casi 40 años!».

La utilidad del nuevo procedimiento dependerá de que se pueda aplicarlo a problemas de interés cotidiano y no solo en ensayos con juegos de ordenador. El grupo de autores ve una posible aplicación en robótica. En su estudio simularon un brazo robótico que tenía que ordenar objetos en receptáculos diferentes, pero algunos de estos solo se podían abrir por medio de un mecanismo complicado. Go-Explorer tuvo que aprender, pues, que solo lograría su objetivo si antes realizaba una tarea aparentemente sin relación con este: manejar el mecanismo. Los sistemas basados en el aprendizaje por refuerzo clásico fracasan en especial cuando han de vérselas con rodeos así. No obstante, los constructores de robots tienen que abordar otros problemas que tampoco se pueden resolver con el nuevo sistema, opina Peters.

Jan Dönges

Referencia: «First return, then explore», de Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O. Stanley y Jeff Clune, en Nature, volumen 590, páginas 580–586 (2021).

Los boletines de Investigación y Ciencia

Elige qué contenidos quieres recibir.