A „Reinforcement Learning” (erősített tanulás) a mesterséges intelligencia egyik ága, amely az élőlények tanulási folyamatát modellezi és alkalmazza a gépek tanulására és döntéshozatalára.
Az erősített tanulás olyan módszerekkel foglalkozik, amelyek a környezetből érkező visszajelzések (jutalmak vagy büntetések) alapján tanítanak egy mesterséges intelligencia rendszert. Az algoritmus egy „ügynök” szerepét játssza, amely a környezetében meghatározott akciókat hajt végre, majd megfigyeli a környezettől kapott visszajelzéseket, és ezek alapján tanul és alkalmazkodik.
Az erősített tanulásban az ügynök célja az, hogy olyan döntéseket hozzon, amelyek maximalizálják a hosszú távú jutalmat vagy minimalizálják a büntetést. Az ügynök tanulása során folyamatosan kísérletezik, és a visszajelzések alapján becsléseket és stratégiákat fejleszt ki a jövőbeni döntések meghozatalához.
Az erősített tanulás alkalmazása különböző területeken széles körben elterjedt, például robotika, játéktervezés, autonóm vezetés, pénzügyi modellezés és még sok más terület. A legismertebb erősített tanulás algoritmusok közé tartozik a Q-learning, a Deep Q-Networks (DQN), a Proximal Policy Optimization (PPO) és a Actor-Critic algoritmusok.
Az erősített tanulás egy olyan terület, amelyben az algoritmusok aktívan felfedezik a környezetüket és megtanulnak hatékonyan cselekedni a legjobb eredmény elérése érdekében.