Učení s posílením (anglicky reinforcement learning, RL) je větev strojového učení, která se zabývá tím, jak by se umělé inteligence nebo agenty mohli učit optimálnímu chování ve svém prostředí prostřednictvím experimentování a zkušenosti s odměnami a tresty. Jedná se o proces, kdy agent postupně získává zkušenosti při prozkoumávání svého okolí, přičemž jeho cílem je maximalizovat určitou hodnotovou funkci (typicky tzv. kumulativní diskontovanou odměnu). Na rozdíl od učení pod dohledem (supervised learning), kde jsou trénovací data pevně označena, učení s posílením využívá zpětnou vazbu ve formě číselných odměn a trestů, nikoli explicitních správných odpovědí.
V rámci základního schématu RL působí agent v diskrétních časových krocích, kdy v každém kroku pozoruje stav prostředí, vybere a provede akci podle určité strategie (politiky), načež prostředí přejde do nového stavu a poskytne agentovi zpětnou vazbu (odměnu). Cílem agenta je nalézt takovou politiku, která v dlouhodobém horizontu přináší největší součet odměn. K tomu slouží různé algoritmy, například Q-learning, SARSA nebo metody založené na hlubokých neuronových sítích jako deep Q-networks (DQN). Tyto algoritmy systematicky zlepšují rozhodování agenta tak, že odhadují hodnotu jednotlivých rozhodnutí v určité situaci (stavu), přizpůsobují trendy výběru akcí a zužují prohledávaný prostor na ty nejlepší možnosti.
Učení s posílením nachází široké uplatnění v oblastech, kde není možné nebo účelné definovat přímá pravidla úspěšného chování – například v autonomním řízení robotů, hraní počítačových her, optimalizaci portfolií, řízení zásob nebo doporučovacích systémech. Jeho hlavní výhodou je schopnost adaptovat se na změny prostředí a učit se na základě vlastních zkušeností, což z něj činí perspektivní nástroj pro řešení složitých dynamických problémů. Limitací RL je však často velká výpočetní náročnost, dlouhá doba potřebná pro efektivní učení a někdy i obtížné nastavení odměnových funkcí, aby odpovídaly skutečným cílům systému. I přes tyto výzvy zůstává učení s posílením jedním z nejdynamičtěji rozvíjených směrů moderní umělé inteligence.
PhDr. Pavel Bartoš, LL.M., DBA (Evropská akademie vzdělávání / European Academy of education)

