Рэгулярізацыя ў кантэксце машыннага навучання з'яўляецца важнай тэхнікай, якая выкарыстоўваецца для павышэння прадукцыйнасці абагульнення мадэляў, асабліва пры працы з данымі вялікай памернасці або складанымі мадэлямі, якія схільныя да перападбору. Пераабсталяванне адбываецца, калі мадэль вывучае не толькі асноўныя заканамернасці ў навучальных даных, але і шум, што прыводзіць да нізкай прадукцыйнасці нябачных даных. Рэгулярізацыя ўводзіць у мадэль дадатковую інфармацыю або абмежаванні для прадухілення пераабсталявання шляхам пакарання занадта складаных мадэляў.
Фундаментальная ідэя рэгулярызацыі заключаецца ва ўключэнні тэрміну штрафу ў функцыю страт, якую мадэль спрабуе мінімізаваць. Гэты штрафны тэрмін перашкаджае мадэлі падганяць шум у навучальных даных, накладаючы кошт на складанасць, якая звычайна вымяраецца велічынёй параметраў мадэлі. Робячы гэта, рэгулярізацыя дапамагае ў дасягненні балансу паміж добрай падборкай навучальных даных і захаваннем здольнасці мадэлі абагульняць новыя даныя.
Ёсць некалькі тыпаў метадаў рэгулярызацыі, якія звычайна выкарыстоўваюцца ў машынным навучанні, найбольш распаўсюджанымі з якіх з'яўляюцца рэгулярізацыя L1, рэгулярізацыя L2 і адсеў. Кожная з гэтых методык мае свае асаблівасці і прымяненне.
1. Рэгулярызацыя L1 (рэгрэсія Ласо): Рэгулярізацыя L1 дадае штраф, роўны абсалютнаму значэнню велічыні каэфіцыентаў да функцыі страт. Матэматычна гэта можна прадставіць так:
дзе з'яўляецца зыходнай функцыяй страт,
- параметр рэгулярызацыі, і
гэта параметры мадэлі. Эфект рэгулярызацыі L1 заключаецца ў тым, што яна, як правіла, стварае разрэджаныя мадэлі, што азначае, што яна зводзіць некаторыя каэфіцыенты да нуля, эфектыўна выконваючы выбар функцый. Гэта можа быць асабліва карысна пры працы з вялікімі дадзенымі, дзе многія функцыі могуць быць неістотнымі.
2. Рэгулярызацыя L2 (Рыдж-рэгрэсія): Рэгулярізацыя L2 дадае штраф, роўны квадрату велічыні каэфіцыентаў да функцыі страт. Матэматычна гэта выражаецца так:
Рэгулярізацыя L2 перашкаджае вялікім каэфіцыентам, штрафуючы іх квадратныя значэнні, што прыводзіць да больш раўнамернага размеркавання набору вагаў. У адрозненне ад L1, рэгулярізацыя L2 не стварае разрэджаных мадэляў, бо яна не прымушае каэфіцыенты быць дакладна нулявымі, а захоўвае іх малымі. Гэта асабліва карысна для таго, каб пазбегнуць пераабсталявання, калі ўсе функцыі маюць пэўнае дачыненне.
3. Рэгулярізацыя пругкай сеткі: Elastic Net спалучае ў сабе рэгулярызацыю L1 і L2. Гэта асабліва карысна ў сітуацыях, калі існуе некалькі карэляваных функцый. Штраф Elastic Net - гэта лінейная камбінацыя штрафаў L1 і L2:
З дапамогай налады параметраў і
, Elastic Net можа збалансаваць перавагі рэгулярызацыі L1 і L2.
4. Адсеў: Dropout - гэта метад рэгулярызацыі, спецыяльна распрацаваны для нейронавых сетак. Падчас навучання адсеў выпадковым чынам абнуляе долю вузлоў (нейронаў) у пласце на кожнай ітэрацыі. Гэта прадухіляе сетку ад занадта вялікай залежнасці ад аднаго вузла і заахвочвае сетку вывучаць больш надзейныя функцыі. Адсеў асабліва эфектыўны ў мадэлях глыбокага навучання, дзе пераабсталяванне з'яўляецца звычайнай праблемай з-за вялікай колькасці параметраў.
5. Ранняя прыпынак: Нягледзячы на тое, што гэта не метад рэгулярызацыі ў традыцыйным сэнсе, ранняе спыненне - гэта стратэгія прадухілення празмернага абсталявання шляхам спынення працэсу навучання, як толькі прадукцыйнасць набору праверкі пачынае пагаршацца. Гэта асабліва карысна ў ітэрацыйных метадах, такіх як градыентны спуск, дзе мадэль пастаянна абнаўляецца.
Рэгулярізацыя вельмі важная ў машынным навучанні, таму што яна дазваляе мадэлям добра працаваць на нябачных дадзеных, кантралюючы іх складанасць. Выбар методыкі рэгулярызацыі і налада яе параметраў ( для L1 і L2, працэнт адсеву для адсеву) важныя і часта патрабуюць эксперыментаў і перакрыжаванай праверкі для дасягнення аптымальных вынікаў.
Напрыклад, разгледзім мадэль лінейнай рэгрэсіі, навучаную на наборы даных з мноствам функцый. Без рэгулярызацыі мадэль магла б прысвоіць вялікую вагу некаторым функцыям, вельмі дакладна падганяючы навучальныя даныя, але дрэнна працуючы з тэставымі данымі з-за перападбору. Прымяняючы рэгулярызацыю L2, мадэль заахвочваецца больш раўнамерна размяркоўваць вагавыя паказчыкі, што можа прывесці да лепшага абагульнення новых даных.
У іншым сцэнары нейронавая сетка, навучаная на дадзеных малюнкаў, можа пераналадзіць, запамінаючы пэўныя шаблоны ў навучальных малюнках. Прымяняючы адключэнне, сетка вымушана вывучаць больш агульныя функцыі, якія карысныя для розных відарысаў, паляпшаючы сваю прадукцыйнасць на нябачных дадзеных.
Рэгулярізацыя - гэта фундаментальная канцэпцыя ў машынным навучанні, якая дапамагае прадухіліць пераабсталяванне шляхам дадання штрафу за складанасць да функцыі страт мадэлі. Кантралюючы складанасць мадэлі, метады рэгулярызацыі, такія як L1, L2, Elastic Net, адсеў і ранняя прыпынак, дазваляюць лепш абагульняць новыя даныя, што робіць іх незаменнымі інструментамі ў наборы інструментаў спецыяліста па машынным навучанні.
Іншыя апошнія пытанні і адказы адносна EITC/AI/GCML Google Cloud Machine Learning:
- Якія паказчыкі ацэнкі прадукцыйнасці мадэлі?
- Што такое лінейная рэгрэсія?
- Ці можна аб'яднаць розныя мадэлі ML і стварыць майстар ІІ?
- Якія алгарытмы найбольш часта выкарыстоўваюцца ў машынным навучанні?
- Як стварыць версію мадэлі?
- Як прымяніць 7 этапаў ML у кантэксце прыкладу?
- Як машыннае навучанне можна прымяніць да даных аб дазволах на будаўніцтва?
- Чаму AutoML Tables былі спынены і што іх замяняе?
- У чым заключаецца задача інтэрпрэтацыі дудлаў, намаляваных гульцамі, у кантэксце ІІ?
- Калі ў матэрыялах для чытання гаворыцца пра «выбар правільнага алгарытму», ці азначае гэта, што практычна ўсе магчымыя алгарытмы ўжо існуюць? Як мы ведаем, што алгарытм з'яўляецца "правільным" для канкрэтнай праблемы?
Больш пытанняў і адказаў глядзіце ў EITC/AI/GCML Google Cloud Machine Learning