Introducción al aprendizaje por refuerzo. Parte 2: Q-Learning.

En la parte 1, hemos descrito el problema del bandido multibrazo, y hemos introducido varios conceptos, como el estado, la acción, la recompensa, etc. Sin embargo, el problema del bandido multibrazo no representa el problema completo del aprendizaje por refuerzo. En los problemas de bandidos multibrazo, cada acción es completamente independiente de las anteriores, y el estado siempre es el mismo, como en el ejemplo de la parte 1, donde siempre teníamos los 5 mismos brazos y su probabilidad de éxito no cambiaba en ningún momento.