Skip to main content
Robot capaz de corregir errores

Poder aprender de los errores es una poderosa habilidad que los humanos (que son propensos a los errores) se aprovechan todo el tiempo. Incluso si metimos la pata en algo que intentamos hacer, probablemente tengamos algunas partes al menos un poco correctas, y podemos construir de las cosas que no hicimos mejor la próxima vez. Eventualmente, tenemos éxito.

Los robots pueden usar técnicas similares de prueba y error para aprender nuevas tareas. Con el aprendizaje de refuerzo, un robot prueba diferentes maneras de hacer una cosa, y se recompensa cada vez que un intento lo ayuda a acercarse a la meta. Basado en el refuerzo proporcionado por esa recompensa, el robot prueba más de esos mismos tipos de cosas hasta que tenga éxito.

En la actualidad, la compañía de investigación de OpenAI , con sede en San Francisco, está lanzando un algoritmo de código abierto llamado Hindsight Experience Replay, o HER, que replantea los fracasos como éxitos para ayudar a los robots a aprender más como los humanos.

HER utiliza lo que los investigadores llaman “recompensas dispersas” para guiar el aprendizaje. Las recompensas son cómo les decimos a los robots si lo que están haciendo es algo bueno o malo como parte del proceso de aprendizaje de refuerzo: son solo números en un algoritmo, pero puedes pensar que son como cookies. La mayoría de los algoritmos de aprendizaje de refuerzo utilizan “recompensas densas”, en las que el robot obtiene cookies de diferentes tamaños según lo cerca que esté de completar una tarea. Estas cookies estimulan al robot a medida que avanza, premiando los aspectos individuales de una tarea por separado y ayudando, en cierto sentido, a dirigir al robot para que aprenda de la manera que usted lo desee.

Así es cómo funciona HER en la práctica, en comparación otros algoritmos de aprendizaje de refuerzo no modificado: