У вобласці машыннага навучання, асабліва пры выкарыстанні такіх платформаў, як Google Cloud Machine Learning, разуменне гіперпараметраў важна для распрацоўкі і аптымізацыі мадэляў. Гіперпараметры - гэта налады або канфігурацыі, знешнія для мадэлі, якія вызначаюць працэс навучання і ўплываюць на прадукцыйнасць алгарытмаў машыннага навучання. У адрозненне ад параметраў мадэлі, якія вывучаюцца з дадзеных у працэсе навучання, гіперпараметры задаюцца перад пачаткам навучання і застаюцца нязменнымі на працягу ўсяго часу.
Гіперпараметры можна ў цэлым падзяліць на некалькі тыпаў у залежнасці ад іх ролі і функцыі ў канвееры машыннага навучання. Гэтыя катэгорыі ўключаюць гіперпараметры мадэлі, гіперпараметры аптымізацыі і гіперпараметры апрацоўкі даных. Кожны тып адыгрывае пэўную ролю ў фарміраванні таго, як мадэль вучыцца на дадзеных і абагульняе новыя, нябачныя даныя.
Гіперпараметры мадэлі
1. Гіперпараметры архітэктуры: яны вызначаюць структуру мадэлі. У нейронавых сетках, напрыклад, гіперпараметры архітэктуры ўключаюць колькасць слаёў, колькасць вузлоў на пласт і тып выкарыстоўваных функцый актывацыі. Напрыклад, глыбокая нейронная сетка можа мець гіперпараметры, якія вызначаюць тры схаваныя ўзроўні з 128, 64 і 32 вузламі адпаведна, і ReLU (Rectified Linear Unit) у якасці функцыі актывацыі.
2. Гіперпараметры рэгулярызацыі: Метады рэгулярызацыі выкарыстоўваюцца для прадухілення перападбору, які ўзнікае, калі мадэль вывучае шум у навучальных даных, а не асноўны шаблон. Агульныя гіперпараметры рэгулярызацыі ўключаюць каэфіцыенты рэгулярызацыі L1 і L2. Гэтыя каэфіцыенты кантралююць штраф, які прымяняецца да вялікіх вагаў у мадэлі. Напрыклад, усталяванне больш высокага каэфіцыента рэгулярызацыі L2 будзе больш караць вялікія вагі, такім чынам заахвочваючы мадэль падтрымліваць меншыя вагі і патэнцыйна паляпшаць абагульненне.
3. Узровень адсеву: У нейронавых сетках адсеў - гэта метад рэгулярызацыі, пры якім выпадкова выбраныя нейроны ігнаруюцца падчас навучання. Каэфіцыент адсеву - гэта гіперпараметр, які вызначае долю нейронаў, якія адпадаюць падчас кожнай ітэрацыі навучання. Каэфіцыент адсеву 0.5 азначае, што 50% нейронаў адпадаюць у выпадковым парадку ў кожнай ітэрацыі, што дапамагае паменшыць празмернасць.
Гіперпараметры аптымізацыі
1. Хуткасць навучання: Магчыма, гэта адзін з самых крытычных гіперпараметраў у навучанні нейронавых сетак. Хуткасць навучання вызначае памер крокаў, зробленых да мінімуму функцыі страт. Высокая хуткасць навучання можа прывесці да занадта хуткага збліжэння мадэлі да неаптымальнага рашэння, у той час як нізкая хуткасць навучання можа зрабіць працэс навучання празмерна павольным або затрымацца ў мясцовых мінімумах.
2. Памер партыі: Гэты гіперпараметр вызначае колькасць навучальных узораў, якія выкарыстоўваюцца ў адной ітэрацыі працэсу навучання. Меншыя памеры партыі могуць прывесці да больш дакладнай ацэнкі градыенту, але могуць павялічыць час, неабходны для завяршэння эпохі. І наадварот, большы памер партыі можа паскорыць навучанне, але можа прывесці да менш дакладных мадэляў.
3. Momentum: Гэты гіперпараметр, які выкарыстоўваецца ў такіх алгарытмах аптымізацыі, як стахастычны градыентны спуск з імпульсам, дапамагае паскараць вектары градыенту ў правільным кірунку, што прыводзіць да больш хуткага збліжэння. Гэта дапамагае згладзіць ваганні на шляху аптымізацыі.
4. Колькасць эпох: Гэты гіперпараметр вызначае колькасць поўных праходаў праз навучальны набор даных. Большая колькасць эпох звычайна дае мадэлі больш магчымасцей вучыцца на даных, але гэта таксама можа павялічыць рызыку пераабсталявання.
Гіперпараметры апрацоўкі даных
1. Маштабаванне функцый: Перш чым навучыць мадэль, функцыі часта трэба маштабаваць. Гіперпараметры, звязаныя з маштабаваннем функцый, уключаюць выбар метаду маштабавання, напрыклад мінімальна-максімальнае маштабаванне або стандартызацыю. Гэты выбар можа істотна паўплываць на прадукцыйнасць мадэлі, асабліва для алгарытмаў, адчувальных да маштабавання функцый, такіх як Support Vector Machines і кластэрызацыя K-Means.
2. Параметры павелічэння даных: У задачах апрацоўкі відарысаў павелічэнне даных выкарыстоўваецца для штучнага павелічэння памеру навучальнага набору даных шляхам стварэння мадыфікаваных версій відарысаў у наборы даных. Гіперпараметры ўключаюць у сябе тыпы прымененых пераўтварэнняў, такія як паварот, перасоўванне, перагортванне і маштабаванне, а таксама верагоднасць прымянення кожнага пераўтварэння.
3. Метады выбаркі: У выпадках, калі даныя незбалансаваныя, можна выкарыстоўваць такія метады, як празмерная выбарка ў класе меншасці або недастатковая выбарка ў класе большасці. Гіперпараметры тут ўключаюць у сябе стаўленне выбарак меншасці да большасці.
Настройка гіперпараметраў
Працэс выбару аптымальных гіперпараметраў вядомы як налада гіперпараметраў. Гэта вельмі важны крок, паколькі выбар гіперпараметраў можа істотна паўплываць на прадукцыйнасць мадэлі. Агульныя метады налады гіперпараметраў ўключаюць:
1. Пошук па сетцы: Гэты метад прадугледжвае вызначэнне сеткі значэнняў гіперпараметраў і вычарпальную спробу кожнай камбінацыі. Нягледзячы на тое, што пошук па сетцы просты, ён можа быць дарагім з пункту гледжання вылічэнняў, асабліва з вялікай колькасцю гіперпараметраў.
2. Выпадковы пошук: Замест таго, каб спрабаваць усе магчымыя камбінацыі, выпадковы пошук выбірае выпадковыя камбінацыі гіперпараметраў. Гэты падыход часта больш эфектыўны, чым пошук па сетцы, і можа прывесці да лепшых вынікаў, асабліва калі ўплывовымі з'яўляюцца толькі некалькі гіперпараметраў.
3. Байесовская аптымізацыя: Гэта больш дасканалы падыход, які мадэлюе прадукцыйнасць гіперпараметраў як імавернасную функцыю і імкнецца знайсці найлепшы набор гіперпараметраў, ураўнаважваючы даследаванні і эксплуатацыю.
4. Аўтаматычнае машыннае навучанне (AutoML): Такія платформы, як Google Cloud AutoML, выкарыстоўваюць перадавыя алгарытмы для аўтаматычнага пошуку найлепшых гіперпараметраў. Гэта можа зэканоміць час і рэсурсы, асабліва для спецыялістаў-практыкаў, якія могуць не мець глыбокіх ведаў у машынным навучанні.
Практычныя прыклады
Разгледзім сцэнар, у якім сверточная нейронавая сетка (CNN) навучаецца класіфікацыі відарысаў з дапамогай Google Cloud Machine Learning. Гіперпараметры могуць уключаць у сябе:
– Колькасць свертачных слаёў і іх адпаведныя памеры фільтра, якія з'яўляюцца гіперпараметрамі архітэктуры.
– Хуткасць навучання і памер партыі, якія з'яўляюцца гіперпараметрамі аптымізацыі.
– Метады павелічэння дадзеных, такія як паварот і перагортванне, якія з'яўляюцца гіперпараметрамі апрацоўкі даных.
Сістэматычна наладжваючы гэтыя гіперпараметры, можна значна палепшыць дакладнасць мадэлі і магчымасці абагульнення.
У іншым прыкладзе пры выкарыстанні класіфікатара дрэва рашэнняў гіперпараметры могуць уключаць максімальную глыбіню дрэва, мінімальную колькасць узораў, неабходных для падзелу вузла, і крытэрый, які выкарыстоўваецца для падзелу. Кожны з гэтых гіперпараметраў можа паўплываць на складанасць мадэлі і яе здольнасць да абагульнення.
Па сутнасці, гіперпараметры з'яўляюцца асновай працэсу машыннага навучання, уплываючы як на эфектыўнасць, так і на эфектыўнасць навучання мадэлі. Іх дбайны выбар і налада могуць прывесці да мадэляў, якія не толькі добра працуюць з навучальнымі данымі, але і эфектыўна абагульняюць новыя, нябачныя даныя.
Іншыя апошнія пытанні і адказы адносна EITC/AI/GCML Google Cloud Machine Learning:
- Якія паказчыкі ацэнкі прадукцыйнасці мадэлі?
- Што такое лінейная рэгрэсія?
- Ці можна аб'яднаць розныя мадэлі ML і стварыць майстар ІІ?
- Якія алгарытмы найбольш часта выкарыстоўваюцца ў машынным навучанні?
- Як стварыць версію мадэлі?
- Як прымяніць 7 этапаў ML у кантэксце прыкладу?
- Як машыннае навучанне можна прымяніць да даных аб дазволах на будаўніцтва?
- Чаму AutoML Tables былі спынены і што іх замяняе?
- У чым заключаецца задача інтэрпрэтацыі дудлаў, намаляваных гульцамі, у кантэксце ІІ?
- Калі ў матэрыялах для чытання гаворыцца пра «выбар правільнага алгарытму», ці азначае гэта, што практычна ўсе магчымыя алгарытмы ўжо існуюць? Як мы ведаем, што алгарытм з'яўляецца "правільным" для канкрэтнай праблемы?
Больш пытанняў і адказаў глядзіце ў EITC/AI/GCML Google Cloud Machine Learning