EITC/AI/ARL Advanced Reinforcement Learning - гэта Еўрапейская праграма ІТ-сертыфікацыі па падыходзе DeepMind да навучання з падмацаваннем у галіне штучнага інтэлекту.
Вучэбная праграма EITC/AI/ARL Advanced Reinforcement Learning засяроджана на тэарэтычных аспектах і практычных навыках метадаў навучання з падмацаваннем з пункту гледжання DeepMind, арганізаванай у рамках наступнай структуры, якая ўключае поўны дыдактычны відэакантэнт у якасці эталона для гэтай сертыфікацыі EITC.
Падмацаванае навучанне (RL) - гэта вобласць машыннага навучання, якая тычыцца таго, як разумныя агенты павінны дзейнічаць у асяроддзі, каб максымізаваць паняцце сукупнай узнагароды. Актывізаванае навучанне - адна з трох асноўных парадыгм машыннага навучання, а таксама навучанне пад кантролем і без навучання.
Актывізаванае навучанне адрозніваецца ад навучання пад кантролем тым, што не патрабуецца прадстаўляць пазначаныя пары ўводу/высновы, а таксама не патрабуецца відавочна выпраўляць неаптымальныя дзеянні. Замест гэтага асноўная ўвага надаецца пошуку балансу паміж даследаваннем (нязведанай тэрыторыі) і эксплуатацыяй (на сённяшні дзень).
Навакольнае асяроддзе звычайна заяўляецца ў выглядзе працэсу прыняцця рашэнняў Маркова (MDP), таму што многія алгарытмы навучання для ўзмацнення для гэтага кантэксту выкарыстоўваюць метады дынамічнага праграмавання. Асноўнае адрозненне паміж класічнымі метадамі дынамічнага праграмавання і ўзмацненнем алгарытмаў навучання заключаецца ў тым, што апошнія не мяркуюць веды дакладнай матэматычнай мадэлі MDP, і яны арыентаваны на вялікія MDP, дзе дакладныя метады становяцца немагчымымі.
Дзякуючы сваёй агульнасці, навучанне падмацаванню вывучаецца па многіх дысцыплінах, такіх як тэорыя гульняў, тэорыя кіравання, даследаванні аперацый, тэорыя інфармацыі, аптымізацыя на аснове мадэлявання, мультыагентныя сістэмы, інтэлектуальны рой і статыстыка. У даследчай і кантрольнай літаратуры па аперацыях навучанне падмацаваннем называецца прыблізным дынамічным праграмаваннем альбо нейрадынамічным праграмаваннем. Праблемы, якія цікавяць навучанне падмацаванню, таксама вывучаліся ў тэорыі аптымальнага кіравання, якая звязана ў асноўным з існаваннем і характарыстыкай аптымальных рашэнняў і алгарытмамі іх дакладнага вылічэння, і менш з навучаннем або набліжэннем, асабліва пры адсутнасці матэматычная мадэль асяроддзя. У эканоміцы і тэорыі гульняў навучанне падмацаванню можа быць выкарыстана для тлумачэння таго, як можа ўзнікнуць раўнавага пры абмежаванай рацыянальнасці.
Асноўнае ўзмацненне мадэлюецца як працэс прыняцця рашэння Маркова (ПСР). У матэматыцы працэс прыняцця рашэнняў Маркава (MDP) - гэта працэс стахастычнага кіравання з дыскрэтным часам. Ён забяспечвае матэматычную аснову для мадэлявання прыняцця рашэнняў у сітуацыях, калі вынікі збольшага выпадковыя, а часткова пад кантролем кіраўніка. MDP карысныя для вывучэння задач аптымізацыі, якія вырашаюцца з дапамогай дынамічнага праграмавання. ПСР былі вядомыя прынамсі яшчэ ў 1950-х. Асноўная частка даследаванняў працэсаў прыняцця рашэнняў па Маркаву вынікае з кнігі Рональда Говарда "Дынамічнае праграмаванне і маркаўскія працэсы" 1960 года. Яны выкарыстоўваюцца ў многіх дысцыплінах, у тым ліку ў робататэхніцы, аўтаматычным кіраванні, эканоміцы і вытворчасці. Назва МДП паходзіць ад расійскага матэматыка Андрэя Маркава, паколькі яны з'яўляюцца пашырэннем ланцугоў Маркова.
На кожным кроку часу працэс знаходзіцца ў нейкім стане S, і той, хто прымае рашэнне, можа выбраць любое дзеянне, якое даступна ў стане S. Працэс рэагуе на наступным этапе, выпадкова перайшоўшы ў новы стан S ', і дае які прымае рашэнне адпаведную ўзнагароду Ra (S, S ').
На верагоднасць пераходу працэсу ў новы стан S 'уплывае абранае дзеянне a. У прыватнасці, гэта дадзена функцыяй пераходу стану Pa (S, S '). Такім чынам, наступны стан S 'залежыць ад бягучага стану S і дзеянняў кіраўніка a. Але, улічваючы S і a, ён умоўна не залежыць ад усіх папярэдніх станаў і дзеянняў. Іншымі словамі, дзяржаўныя пераходы ПДР задавальняюць маёмасць Маркава.
Маркаўскія працэсы прыняцця рашэнняў з'яўляюцца пашырэннем ланцугоў Маркова; розніца складаецца ў даданні дзеянняў (дазваленне выбару) і ўзнагароджання (наданне матывацыі). І наадварот, калі для кожнага стану існуе толькі адно дзеянне (напрыклад, "пачакай"), а ўсе ўзнагароды аднолькавыя (напрыклад, "нуль"), працэс прыняцця рашэння Маркова зводзіцца да ланцужка Маркова.
Актывіст навучання ўзаемадзейнічае з навакольным асяроддзем на дыскрэтных этапах часу. У кожны момант часу t агент атрымлівае бягучы стан S (t) і ўзнагароджанне r (t). Затым ён выбірае дзеянне a (t) з набору даступных дзеянняў, якое пасля адпраўляецца ў навакольнае асяроддзе. Навакольнае асяроддзе пераходзіць у новы стан S (t + 1) і вызначаецца ўзнагарода r (t + 1), звязаная з пераходам. Мэта агента па ўзмацненні навучання - вывучыць палітыку, якая максімізуе чаканую сукупную ўзнагароду.
Фармулюючы праблему як ПДР, мяркуецца, што агент непасрэдна сочыць за бягучым экалагічным станам. У гэтым выпадку кажуць, што праблема мае поўную назіральнасць. Калі агент мае доступ толькі да падгрупы станаў, альбо калі назіраныя стану пашкоджаны шумам, кажуць, што агент мае частковую назіральнасць, і фармальна праблема павінна быць сфармулявана як працэс прыняцця рашэнняў Маркова, які часткова назіраецца. У абодвух выпадках набор дзеянняў, даступных агенту, можа быць абмежаваны. Напрыклад, стан сальда на рахунку можа быць абмежавана станоўчым; калі бягучае значэнне стану роўна 3 і пераход дзяржавы спрабуе паменшыць значэнне на 4, пераход не будзе дазволены.
Калі эфектыўнасць агента параўноўваецца з эфектыўнасцю агента, розніца ў прадукцыйнасці стварае паняцце шкадавання. Для таго, каб дзейнічаць паблізу аптымальна, агент павінен разважаць аб доўгатэрміновых наступствах сваіх дзеянняў (г.зн. максімізаваць будучы прыбытак), хаця непасрэдная ўзнагарода, звязаная з гэтым, можа быць адмоўнай.
Такім чынам, навучанне падмацаванню асабліва добра падыходзіць для праблем, якія ўключаюць доўгатэрміновы і кароткатэрміновы кампраміс. Ён быў паспяхова ўжыты для розных праблем, уключаючы кіраванне робатамі, планаванне ліфта, тэлекамунікацыі, нарды, шашкі і Go (AlphaGo).
Два элементы робяць навучанне падмацаванню магутным: выкарыстанне узораў для аптымізацыі прадукцыйнасці і выкарыстанне набліжэння функцый для працы з вялікімі асяроддзямі. Дзякуючы гэтым двум ключавым кампанентам навучанне падмацаванню можна выкарыстоўваць у вялікіх умовах у наступных сітуацыях:
- Мадэль асяроддзя вядомая, але аналітычнае рашэнне недаступна.
- Даецца толькі імітацыйная мадэль навакольнага асяроддзя (прадмет аптымізацыі на аснове мадэлявання).
- Адзіны спосаб збору інфармацыі пра навакольнае асяроддзе - гэта ўзаемадзеянне з ім.
Першыя дзве з гэтых праблем можна было б лічыць праблемамі планавання (паколькі існуе пэўная мадэль), у той час як апошнюю можна было б лічыць сапраўднай праблемай навучання. Аднак навучанне падмацавання пераўтварае абедзве праблемы планавання ў праблемы машыннага навучання.
Кампраміс паміж даследаваннямі і эксплуатацыяй быў найбольш дасканала вывучаны на аснове праблемы шматрукіх бандытаў і для МДП канечных дзяржаў у Burnetas і Katehakis (1997).
Навучанне для падмацавання патрабуе разумных механізмаў даследавання; выпадковы выбар дзеянняў, без спасылкі на разліковае размеркаванне верагоднасці, паказвае дрэнную прадукцыйнасць. Выпадак (малых) канчатковых працэсаў прыняцця рашэнняў па Маркаву адносна добра вывучаны. Аднак з-за адсутнасці алгарытмаў, якія добра маштабуюцца з лікам станаў (альбо маштабуюцца да праблем з бясконцымі прасторамі станаў), простыя метады даследавання з'яўляюцца найбольш практычнымі.
Нават калі пытанне разведкі не ўлічваць, і нават калі стан можна было назіраць, праблема па-ранейшаму заключаецца ў выкарыстанні мінулага вопыту для высвятлення таго, якія дзеянні прыводзяць да кумулятыўнай выгады.
Для дэталёвага азнаямлення з вучэбнай праграмай сертыфікацыі вы можаце разгарнуць і прааналізаваць табліцу ніжэй.
Вучэбная праграма EITC/AI/ARL Advanced Reinforcement Learning Certification Certification Curriculum спасылаецца на дыдактычныя матэрыялы з адкрытым доступам у відэаформе. Працэс навучання падзелены на пакрокавую структуру (праграмы -> урокі -> тэмы), якая ахоплівае адпаведныя часткі вучэбнай праграмы. Таксама прадастаўляюцца неабмежаваныя кансультацыі з экспертамі па дамене.
Падрабязна пра працэдуру сертыфікацыі глядзіце Як гэта працуе?.
Даведачныя рэсурсы вучэбнай праграмы
Кантроль чалавечага ўзроўню праз публікацыю Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Курс адкрытага доступу па глыбокім падмацаванні ў UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL ужываецца да праблемы ўзброенага бандыта з Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Спампуйце поўныя афлайн-падрыхтоўчыя матэрыялы для праграмы Advanced Reinforcement Learning EITC/AI/ARL у файле PDF
Падрыхтоўчыя матэрыялы EITC/AI/ARL – стандартная версія
Падрыхтоўчыя матэрыялы EITC/AI/ARL – пашыраная версія з пытаннямі для агляду