Машыннае навучанне, падмноства штучнага інтэлекту, прадугледжвае выкарыстанне алгарытмаў і статыстычных мадэляў, якія дазваляюць камп'ютарам выконваць задачы без відавочных інструкцый, абапіраючыся замест гэтага на шаблоны і вывад. У гэтай галіне былі распрацаваны шматлікія алгарытмы для вырашэння розных тыпаў задач, пачынаючы ад класіфікацыі і рэгрэсіі і заканчваючы кластарызацыі і памяншэннем памернасці. Ніжэй я абмяркую некаторыя з найбольш распаўсюджаных і шырока выкарыстоўваюцца алгарытмаў у машынным навучанні, даючы поўнае тлумачэнне кожнага з іх.
1. Лінейная рэгрэсія
Лінейная рэгрэсія - адзін з самых простых і фундаментальных алгарытмаў машыннага навучання. Ён выкарыстоўваецца для прагнастычнага мадэлявання і прадугледжвае лінейны падыход да мадэлявання ўзаемасувязі паміж залежнай зменнай і адной або некалькімі незалежнымі зменнымі. Калі ёсць толькі адна незалежная зменная, гэта называецца простай лінейнай рэгрэсіяй, а калі ёсць некалькі незалежных зменных, гэта называецца множнай лінейнай рэгрэсіяй.
Асноўная мэта лінейнай рэгрэсіі - знайсці найбольш прыдатную прамую лінію праз кропкі даных. Гэтая лінія прадстаўлена раўнаннем:
дзе з'яўляецца залежнай зменнай,
з'яўляюцца незалежнымі зменнымі,
гэта перахоп,
— каэфіцыенты незалежных зменных, і
гэта тэрмін памылкі.
Лінейная рэгрэсія шырока выкарыстоўваецца дзякуючы сваёй прастаце і магчымасці інтэрпрэтацыі. Гэта асабліва карысна ў сцэнарыях, дзе сувязь паміж зменнымі прыкладна лінейная. Аднак ён можа дрэнна працаваць з нелінейнымі дадзенымі або калі існуюць складаныя адносіны паміж зменнымі.
2. Лагістычная рэгрэсія
Нягледзячы на сваю назву, лагістычная рэгрэсія выкарыстоўваецца для класіфікацыі, а не задач рэгрэсіі. Гэта дастасавальна, калі залежная зменная катэгарычная. Лагістычная рэгрэсія прадказвае верагоднасць таго, што дадзены ўвод належыць да пэўнай катэгорыі. Алгарытм выкарыстоўвае лагістычную функцыю, таксама вядомую як сігмаідная функцыя, для мадэлявання двайковай залежнай зменнай:
дзе гэта верагоднасць таго, што залежная зменная
роўна 1 з улікам незалежных зменных
.
Лагістычная рэгрэсія шырока выкарыстоўваецца ў задачах двайковай класіфікацыі, такіх як выяўленне спаму, крэдытны бал і медыцынская дыягностыка. Яе можна пашырыць да шматкласавай класіфікацыі з дапамогай такіх метадаў, як рэгрэсія "адзін супраць усіх" або softmax.
3. Дрэвы рашэнняў
Дрэвы рашэнняў - гэта непараметрычны метад навучання пад наглядам, які выкарыстоўваецца для класіфікацыі і рэгрэсіі. Мадэль пабудавана ў выглядзе дрэвападобнай структуры, дзе кожны ўнутраны вузел уяўляе тэст на атрыбут, кожная галіна ўяўляе вынік тэсту, а кожны ліставы вузел уяўляе метку класа або бесперапыннае значэнне.
Працэс пабудовы дрэва рашэнняў уключае ў сябе выбар лепшай функцыі для падзелу даных у кожным вузле. Звычайна гэта робіцца з дапамогай такіх крытэрыяў, як прымешка Джыні або прырост інфармацыі (энтрапія). Дрэвы рашэнняў лёгка інтэрпрэтаваць і могуць апрацоўваць як лікавыя, так і катэгарыяльныя дадзеныя. Аднак яны схільныя да пераабсталявання, асабліва са складанымі дрэвамі.
4. Падтрымка вектарных машын (SVM)
Support Vector Machines - гэта магутныя і ўніверсальныя мадэлі навучання пад наглядам, якія выкарыстоўваюцца як для задач класіфікацыі, так і для рэгрэсіі. Яны асабліва эфектыўныя ў шматмерных прасторах і вядомыя сваёй надзейнасцю ў апрацоўцы лінейных і нелінейных даных.
Асноўная ідэя SVM - знайсці гіперплоскасць, якая найлепшым чынам падзяляе даныя на розныя класы. У выпадку нелінейна раздзяляемых даных SVM выкарыстоўвае тэхніку, званую хітрасцю ядра, каб пераўтварыць даныя ў больш вымяральную прастору, дзе яны становяцца лінейна раздзяляльнымі. Агульныя ядра ўключаюць лінейную, паліномную і радыяльную базісную функцыю (RBF).
SVM шырока выкарыстоўваюцца ў такіх праграмах, як класіфікацыя малюнкаў, біяінфарматыка і катэгарызацыі тэксту.
5. K-бліжэйшыя суседзі (KNN)
K-Nearest Neighbors - гэта просты алгарытм навучання на аснове асобнікаў, які выкарыстоўваецца для класіфікацыі і рэгрэсіі. Ён робіць прагнозы на аснове бліжэйшыя прыклады навучання ў прасторы функцый. Для класіфікацыі абраны клас большасці сярод бліжэйшых суседзяў, у той час як для рэгрэсіі выкарыстоўваецца сярэдняе або медыяна бліжэйшых суседзяў.
KNN непараметрычны і лянівы, што азначае, што ён не робіць ніякіх здагадак аб базавым размеркаванні даных і не патрабуе навучання. Аднак гэта можа быць дарагім з пункту гледжання вылічэнняў, асабліва з вялікімі наборамі даных, бо патрабуе вылічэння адлегласці паміж тэставым экземплярам і ўсімі навучальнымі экземплярамі.
6. Наіўны Байес
Наіўны Байес - гэта сямейства імавернасных алгарытмаў, заснаваных на тэарэме Байеса, з дапушчэннем незалежнасці паміж кожнай парай функцый з меткай класа. Нягледзячы на гэтае "наіўнае" меркаванне, наіўныя класіфікатары Байеса былі паспяховымі ў розных прыкладаннях, асабліва ў класіфікацыі тэксту і фільтрацыі спаму.
Алгарытм разлічвае апостэрыорную верагоднасць кожнага класа з улікам уваходных характарыстык і выбірае клас з найбольшай верагоднасцю. Наіўны Байес з'яўляецца вылічальна эфектыўным і добра працуе з данымі высокай памернасці, хоць яго прадукцыйнасць можа пагоршыцца, калі парушаецца здагадка аб незалежнасці.
7. Выпадковы лес
Выпадковы лес - гэта ансамблевы метад навучання, які будуе некалькі дрэў рашэнняў падчас навучання і выводзіць рэжым класаў (класіфікацыя) або сярэдняе прадказанне (рэгрэсія) асобных дрэў. Ён з'яўляецца пашырэннем пакетавання (агрэгавання пры загрузцы) і вырашае праблему пераабсталявання, звязаную з дрэвамі рашэнняў.
Выпадковы лес уводзіць выпадковасць шляхам выбару выпадковай падмноства функцый для кожнага дрэва, што павялічвае разнастайнасць і памяншае карэляцыю паміж дрэвамі. У выніку атрымліваецца надзейная мадэль, якая добра працуе з рознымі тыпамі даных і менш схільная да пераабсталявання.
8. Машыны для павышэння градыенту (GBM)
Машыны ўзмацнення градыенту - гэта яшчэ адна групавая тэхніка, якая стварае мадэлі паслядоўна. У адрозненне ад Random Forest, які будуе дрэвы незалежна, GBM будуе кожнае дрэва, каб выправіць памылкі папярэдніх. Гэта дасягаецца падгонкай новага дрэва да адмоўнага градыенту функцыі страт.
GBM вельмі эфектыўны як у задачах класіфікацыі, так і ў задачах рэгрэсіі і стаў асновай для многіх пераможных рашэнняў у спаборніцтвах па машынным навучанні. Аднак ён адчувальны да налады параметраў і можа патрабаваць інтэнсіўных вылічэнняў.
9. Нейронавыя сеткі
Нейронавыя сеткі - гэта клас мадэляў, натхнёных чалавечым мозгам, які складаецца з узаемазвязаных слаёў вузлоў (нейронаў). Яны здольныя мадэляваць складаныя нелінейныя ўзаемасувязі і знаходзяцца ў авангардзе многіх апошніх дасягненняў машыннага навучання.
Самая простая форма нейронавай сеткі - гэта нейронавая сетка з апераджальнай перадачай, дзе дадзеныя пераходзяць ад уваходнага ўзроўню да выхаднога праз адзін або некалькі схаваных слаёў. Кожнае злучэнне мае адпаведную вагу, і сетка вучыцца, рэгулюючы гэтыя вагі, каб мінімізаваць памылку ў прагнозах.
Нейронныя сеткі з'яўляюцца асновай глыбокага навучання з такімі архітэктурамі, як згорткавыя нейронавыя сеткі (CNN) і рэкурэнтныя нейронавыя сеткі (RNN), якія выкарыстоўваюцца для даных малюнкаў і паслядоўнасці адпаведна.
10. Алгарытмы кластарызацыі
Алгарытмы кластарызацыі выкарыстоўваюцца ў некантраляваным навучанні для групоўкі падобных кропак даных. Некаторыя з найбольш распаўсюджаных алгарытмаў кластарызацыі ўключаюць:
- Кластарызацыя K-сярэдніх: Гэты алгарытм разбівае дадзеныя на кластары шляхам мінімізацыі дысперсіі ўнутры кожнага кластара. Гэта проста і эфектыўна для вялікіх набораў даных, але патрабуе загадзя ўказаць колькасць кластараў.
- Іерархічная кластэрызацыя: Гэты метад будуе іерархію кластараў, выкарыстоўваючы падыход знізу ўверх (агламератыўны) або зверху ўніз (раздзяляльны). Гэта не патрабуе ўказання колькасці кластараў, але з пункту гледжання вылічэнняў даражэй.
- DBSCAN (Прасторавая кластэрызацыя прыкладанняў з шумам на аснове шчыльнасці): Гэты алгарытм групуе кропкі, якія шчыльна размешчаны адна да адной, і пазначае кропкі ў рэгіёнах з нізкай шчыльнасцю як выкіды. Гэта асабліва карысна для ідэнтыфікацыі кластараў розных формаў і памераў.
Выбар алгарытму ў машынным навучанні залежыць ад характару праблемы, характарыстык даных і жаданага выніку. Кожны алгарытм мае свае моцныя бакі і недахопы, і разуменне гэтых нюансаў важна для эфектыўнага пабудовы мадэлі. Па меры таго, як сфера машыннага навучання працягвае развівацца, распрацоўваюцца новыя алгарытмы і метады, што яшчэ больш пашырае набор інструментаў, даступных навукоўцам па апрацоўцы дадзеных і практыкам машыннага навучання.
Іншыя апошнія пытанні і адказы адносна EITC/AI/GCML Google Cloud Machine Learning:
- У чым розніца паміж машынным навучаннем у камп'ютэрным зроку і машынным навучаннем у LLM?
- Якія асноўныя праблемы ўзнікаюць на этапе папярэдняй апрацоўкі даных у машынным навучанні і як рашэнне гэтых праблем можа павысіць эфектыўнасць вашай мадэлі?
- Чаму налада гіперпараметраў лічыцца найважнейшым этапам пасля ацэнкі мадэлі і якія агульныя метады выкарыстоўваюцца для пошуку аптымальных гіперпараметраў для мадэлі машыннага навучання?
- Як выбар алгарытму машыннага навучання залежыць ад тыпу праблемы і характару вашых даных, і чаму важна разумець гэтыя фактары перад навучаннем мадэлі?
- Чаму ў працэсе машыннага навучання важна падзяліць набор даных на наборы для навучання і тэсціравання, і што можа пайсці не так, калі вы прапусціце гэты крок?
- Наколькі неабходныя веды Python або іншай мовы праграмавання для ўкаранення ML на практыцы?
- Чаму этап ацэнкі прадукцыйнасці мадэлі машыннага навучання на асобным наборы тэставых даных важны і што можа адбыцца, калі гэты крок прапусціць?
- Якая сапраўдная каштоўнасць машыннага навучання ў сучасным свеце, і як мы можам адрозніць яго сапраўдны ўплыў ад простай тэхналагічнай шуміхі?
- Якія крытэрыі выбару правільнага алгарытму для дадзенай задачы?
- Калі нехта выкарыстоўвае мадэль Google і навучае яе на ўласным асобніку, ці захоўвае Google паляпшэнні, зробленыя з даных навучання?
Больш пытанняў і адказаў глядзіце ў EITC/AI/GCML Google Cloud Machine Learning