El aprendizaje por refuerzo profundo, o Deep Reinforcement Learning, es el campo de la inteligencia artificial con un gran potencial en los próximos años. Permite que los algoritmos aprendan de su entorno para lograr objetivos diversos, superando así las limitaciones que se encuentran en los algoritmos tradicionales de aprendizaje automático para que las máquinas aprendan por sí solas.Sin embargo, debido a la complejidad del aprendizaje por refuerzo y a la falta de manuales sobre el tema, a menudo existen dificultades a la hora de establecer una ruta adecuada para empezar, ya que no resulta sencillo saltar la barrera de entrada a este apasionante campo de innovación. Por ello, el objetivo de este libro es ser una guía de iniciación para quienes quieran conocer los fundamentos teóricos del área. Al mismo tiempo, a partir de la implementación en Python y de la explicación detallada de todos los algoritmos presentados en el libro, se facilita un conocimiento práctico de los fundamentos. En la primera parte del libro se formaliza el tema alrededor de dos elementos clave en el área de aprendizaje por refuerzo, como son el proceso de decisión de Markov y la ecuación de Bellman. A partir de aquí, en la segunda parte del libro, siguiendo un enfoque clásico de los libros dedicados al tema, se repasan las tres aproximaciones fundamentales para resolver un problema de aprendizaje por refuerzo. Se empieza presentando la programación dinámica, que asume que se conocen las dinámicas de transición del entorno. Sin embargo, en la mayoría de los problemas de aprendizaje por refuerzo estas no se conocen, y para solucionar estos casos se introdujeron los algoritmos basados en Monte Carlo, que aprenden mediante la interacción con el entorno. Finalmente, se trata el aprendizaje por diferencia temporal como una mejora sobre los métodos Monte Carlo; en concreto, se describen dos importantes métodos, el método on-policy SARSA y el método off-policy Q-learning, que son la base de muchos algoritmos actuales. En la tercera parte del libro se presenta muy brevemente tanto los conceptos básicos de aprendizaje profundo, como la versión práctica de estos conceptos usando la librería PyTorch. Actualmente el aprendizaje profundo se usa para que el aprendizaje por refuerzo tenga un enfoque más eficaz; es lo que llamamos aprendizaje por refuerzo profundo (Deep Reinforcement Learning) y que se presenta en la cuarta parte del libro. En esta última parte se presentan dos familias de métodos, value-based y policy-based, con los que el lector debe estar familiarizado porque los conceptos fundamentales que se derivan de estos métodos son los que sustentan todos los métodos actuales de aprendizaje por refuerzo profundo. En concreto, para ver las principales propiedades de estos dos enfoques se presentan los métodos Deep Q-Learning y REINFORCE. El último capítulo presenta como se pueden usar estos métodos avanzados mediante la librería RLlib en el framework de Ray. El contenido de este libro se puede encontrar de forma abierta en la página web del autor torres.ai/aprendizaje-por-refuerzo.
Esta web participa en el Programa de Afiliados de Amazon EU.