In this part we will slightly change topics to focus on another family of Reinforcement Learning algorithms: Policy Gradient Algorithms [1]. We will mathematically derive the policy gradient and build an algorithm that uses it.

Among the different ways to classify the Reinforcement Learning algorithms we have mentioned so far, we still haven’t described one of the families yet. These algorithms can be grouped into Value-Based algorithms and Policy-Based algorithms.

The algorithms that only use a value or action-value function and do not implement an explicit policy are in the value-based family. These algorithms do not tell you which action…


En esta parte cambiaremos ligeramente de tema para hablar de los algoritmos de políticas de gradiente (Policy Gradient algorithms) [1], y derivaremos el gradiente de la política de forma matemática.

Entre las formas de clasificar los algoritmos de aprendizaje por refuerzo que hemos descrito en la parte anterior, nos hemos dejado una verdaderamente importante. Los algoritmos se pueden clasificar en algoritmos basados en el valor (Value-Based) y los algoritmos basados en la política (Policy-Based).

Los algoritmos que utilizan únicamente una función de valor o de acción-valor sin implementar una política de forma explicita, entran en el grupo de los algoritmos…


3. zatian DQN algoritmoak nola funtzionatzen duen ikusi dugu, eta nola ikas dezakeen problema konplexuak ebazten. Zati honetan DQN baino hobeak diren bi algoritmo berri ikusiko ditugu: Double DQN eta Dueling DQN. Baina, aurretik, aipatu ez ditugun hainbat hitz deskribatuko ditugu.

Errefortzu bidezko ikaskuntza algoritmoak hainbat familiatan sailka daitezke. Familia horietako lehena algoritmoak esplizituki inguruneak nola funtzionatzen duen edo ez ikastearen araberakoa da. Erabakiak hartzerakoan algoritmoak ingurunearen dinamika (modelo bezala ere ezagutzen dena) erabiltzen badu, orduan algoritmoa modeloan oinarritutakoa da (model based), eta egiten ez badu modelo gabea (model free) dela esango dugu. Modeloan oinarritutako algoritmo batek estatu batetik bestera…


Double DQN and Dueling DQN

In part 3 we saw how the DQN algorithm works, and how it can learn to solve complex tasks. In this part, we will see two algorithms that improve upon DQN. These are named Double DQN and Dueling DQN. But first, let’s introduce some terms we have ignored so far.

All the reinforcement learning (RL) algorithms can be classified in several families. The first one depends on whether the algorithm explicitly learns and/or uses the environment dynamics. If the algorithm uses these dynamics (also known as the model of the environment) during the decision making process, then it will be…


En la parte 3 hemos visto cómo funciona el algoritmo DQN, y cómo éste puede aprender a solucionar problemas complejos. En esta parte veremos dos nuevos algoritmos que suponen mejoras respecto a DQN, son Double DQN y Dueling DQN. Pero antes, introduzcamos algunos términos que hemos pasado por alto.

Los algoritmos de aprendizaje por refuerzo se pueden clasificar en varias familias. La primera de estas familias depende de si el algoritmo aprende cómo funciona el entorno de manera explícita o no. Si el algoritmo utiliza la dinámica del entorno (también conocido como modelo) durante la toma de decisiones, entonces el…


Q-Learning with Neural Networks, Algorithm DQN

In part 2, we saw how the Q-Learning algorithm works really well when the environment is simple and the function Q(s, a) can be represented using a table or a matrix of values. However, when there are billions of possible unique states and hundreds of available actions for each of them, the table becomes too big, and tabular methods become impractical. The Deep Q-Networks (DQN) algorithm was invented by Mnih et al. [1] to solve this. This algorithm combines the Q-Learning algorithm with deep neural networks (DNNs). As it is well known in the field of AI, DNNs are great…


Bigarren zatian ikusi genuen Q-Learning algoritmoak oso ondo funtzionatzen duela ingurunea sinplea denean eta Q(s, a) funtzioa balioen taula edo matrize gisa adieraz daitekenean. Baina milaka milioi estatu ezberdin eta ehunka ekintza ezberdin daudenean, taula hori handiegia da, eta ez da bideragarria taula erabiltzea. Horregatik, Deep Q-Network edo DQN algoritmoa asmatu zuten (Mnih et al.) [1]. Algoritmo horrek Q-learning algoritmoa sare neuronal sakonekin (Deep Neural Networks) elkartzen du. Adimen artifizialaren esparruan ezaguna den moduan, sare neuronalak funtzio ez-linealak hurbiltzeko tresna zoragarriak dira. Beraz, sare neuronal bat erabiltzen du Q funtzioa hurbiltzeko, taula erraldoia erabiltzea saihestuz. Egia esan, bi sare neuronal…


En la parte 2 vimos que el algoritmo Q-Learning funciona muy bien cuando el entorno es simple y la función Q(s,a) se puede representar como una tabla o matriz de valores. Pero cuando hay miles de millones de estados diferentes y cientos de acciones distintas, la tabla se vuelve enorme, y no es viable su utilización. Por ello, Mnih et al. [1] inventaron el algoritmo Deep Q-Network o DQN. Este algoritmo combina el algoritmo Q-learning con redes neuronales profundas (Deep Neural Networks). Como es sabido en el campo de la IA, las redes neuronales son una fantástica manera de aproximar…


En la parte 1, hemos descrito el problema del bandido multibrazo, y hemos introducido varios conceptos, como el estado, la acción, la recompensa, etc. Sin embargo, el problema del bandido multibrazo no representa el problema completo del aprendizaje por refuerzo. En los problemas de bandidos multibrazo, cada acción es completamente independiente de las anteriores, y el estado siempre es el mismo, como en el ejemplo de la parte 1, donde siempre teníamos los 5 mismos brazos y su probabilidad de éxito no cambiaba en ningún momento.

En el problema completo de aprendizaje por refuerzo, el estado cambia cada vez que…


Q-Learning

In part 1, we described the multi-armed bandit problem and introduced several concepts such as the state, action, reward, and so on. However, the multi-armed bandit problem does not represent the entire reinforcement learning (RL) problem. In the bandit problems, each state is always the same, as we saw in part 1, where we had the same 5 arms all the time and the probabilities didn’t change over time.

In the complete RL problem, the state changes every time we take an action. This is how we can represent it. The agent gets the state in which the environment is…

Markel Sanz Ausin

PhD Candidate 2021, NC State University

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store