Reinforcement Learning (RL) Àr AWESOMEBALLS
Yo team! Har plöjt igenom en hel del RL (Reinforcement Learning) senaste tiden och mĂ„ste sĂ€ga att jag Ă€r helt sĂ„ld pĂ„ detta. Det Ă€r inte bara grundpelaren bakom sjĂ€lvkörande bilar och avancerade robotar, utan det stĂ„r ocksĂ„ bakom genombrottet Alfa Go (du mĂ„ste se, jag lĂ€nkar). NĂ„got med RL har helt enkelt fĂ„ngat mig â tror det Ă€r det magin i att inte behöva berĂ€tta för en modell exakt hur den ska göra saker, utan bara vad mĂ„let Ă€r. TĂ€nk er scenariot: vi ska landa en raket pĂ„ mĂ„nen. Vi sparkar igĂ„ng med att definiera en "reward" funktion. Det Ă€r inte bara en enkel +10 för rĂ€tt drag och -10 för fel, utan det kan bli riktigt knivigt och sofistikerat, beroende pĂ„ vad vi vill att vĂ„r robot ska optimera mot. Detta Ă€r kĂ€rnan i RL â att styra lĂ€randet genom belöningar mot det beteende vi vill se. HĂ€r stĂ„r vĂ„r raket, eller robot, i ett visst "state" (s), redo att göra sin grej. Den vĂ€ljer en "action" (a), och boom â den landar i en ny situation, eller ett nytt state (s'). MĂ„let Ă€r att i varje given situation (s), vĂ€lja en handling som maximerar returen frĂ„n vĂ„r belöningsfunktion. Och hĂ€r kommer Bellmans ekvation in i bilden, som vĂ„r rĂ€knemĂ€stare. Den ser till att utvĂ€rdera alla möjliga framtida scenarier (s') som vĂ„r robot kan hamna i, för att sedan vĂ€lja den handling (a) som maximerar vĂ„r reward. Det Ă€r som en oupphörlig optimeringsdans, dĂ€r ekvationen (V(s) = maxa(R(s,a) + ÎłV(s'))) guidar varje steg. Och med hyperparametern gamma (Îł) fĂ„r vi makt att influera om vĂ„r robot ska tĂ€nka mer pĂ„ korta eller lĂ„nga drag â precis som en schackmĂ€stare som planerar flera drag framĂ„t. Med denna hyperparameter kan vi stĂ€lla in om roboten ska ta det dĂ€r steget Ă„t höger för 15 poĂ€ng nu, eller navigera en lite klurigare vĂ€g som kanske tar 6 steg men leder till 25 poĂ€ng i slutĂ€ndan. Det handlar alltsĂ„ om att balansera mellan att utforska nya vĂ€gar och att utnyttja de vĂ€gar som redan Ă€r kĂ€nda för att ge bra utdelning. Jag rekommenderar dig STARKT att kolla pĂ„ dokumentĂ€ren jag bifogar för att se kraften av RL.