У кантэксце машыннага навучання, асабліва пры абмеркаванні пачатковых этапаў праекта машыннага навучання, важна разумець разнастайнасць відаў дзейнасці, якімі можна займацца. Гэтыя дзеянні складаюць аснову распрацоўкі, навучання і разгортвання мадэляў машыннага навучання , і кожны служыць унікальнай мэты ў працэсе пераўтварэння неапрацаваных даных у дзейную інфармацыю. Ніжэй прыведзены вычарпальны спіс гэтых дзеянняў, які суправаджаецца тлумачэннямі для высвятлення іх ролі ў канвееры машыннага навучання.
1. Collecte de données : Гэта асноватворны крок у любым праекце машыннага навучання. Збор даных прадугледжвае збор неапрацаваных даных з розных крыніц, якія могуць уключаць базы даных, вэб-скрабаванне, даныя датчыкаў або змесціва, створанае карыстальнікамі. Якасць і колькасць сабраных даных непасрэдна ўплываюць на прадукцыйнасць мадэлі машыннага навучання. Напрыклад, калі ствараецца мадэль для прагназавання коштаў на жыллё, даныя могуць быць сабраны са спісаў нерухомасці, гістарычных запісаў продажаў і эканамічных паказчыкаў.
2. Падрыхтоўка дадзеных: Пасля збору дадзеных іх трэба падрыхтаваць для аналізу. Гэты этап уключае ў сябе ачыстку даных для выдалення шуму і памылак, апрацоўку адсутных значэнняў і пераўтварэнне даных у прыдатны фармат. Падрыхтоўка даных таксама ўключае распрацоўку функцый, дзе новыя функцыі ствараюцца з існуючых даных для павышэння прадукцыйнасці мадэлі. Напрыклад, у наборы дадзеных кліенцкіх транзакцый можна стварыць функцыю, якая прадстаўляе сярэдні кошт транзакцыі на кліента.
3. Даследаванне дадзеных: Таксама вядомы як даследчы аналіз даных (EDA), гэты этап уключае ў сябе аналіз даных для выяўлення заканамернасцей, узаемасувязяў і ідэй. Інструменты візуалізацыі даных і статыстычныя метады выкарыстоўваюцца для разумення размеркавання даных, выяўлення анамалій і выяўлення карэляцыі. Гэтая дзейнасць дапамагае прымаць абгрунтаваныя рашэнні аб папярэдняй апрацоўцы даных і выбары функцый. Напрыклад, пабудова гістаграм або кропкавых дыяграм можа выявіць размеркаванне даных і магчымыя выкіды.
4. Выбар мадэлі: На гэтым этапе выбіраюцца адпаведныя алгарытмы машыннага навучання ў залежнасці ад разгляданай праблемы і характару даных. Выбар мадэлі вельмі важны, бо розныя алгарытмы маюць розныя моцныя і слабыя бакі. Для праблем класіфікацыі можна разгледзець дрэвы рашэнняў, апорныя вектарныя машыны або нейронавыя сеткі. Для задач рэгрэсіі можа падысці лінейная рэгрэсія або выпадковыя лясы. Працэс выбару мадэлі часта ўключае ў сябе параўнанне некалькіх мадэляў, каб знайсці тую, якая найбольш адпавядае дадзеным.
5. Навучанне мадэлі: Пасля выбару мадэлі яе трэба навучыць з выкарыстаннем падрыхтаваных даных. Навучанне мадэлі прадугледжвае карэкціроўку параметраў мадэлі, каб мінімізаваць памылку паміж прадказанымі і фактычнымі вынікамі. Звычайна гэта дасягаецца метадамі аптымізацыі, такімі як градыентны спуск. Падчас навучання мадэль вывучае шаблоны і ўзаемасувязі ў дадзеных. Напрыклад, навучанне нейроннай сеткі прадугледжвае карэкціроўку вагаў і зрушэнняў сеткі, каб мінімізаваць функцыю страт.
6. Ацэнка мадэлі: Пасля навучання прадукцыйнасць мадэлі павінна быць ацэнена, каб пераканацца, што яна добра абагульняе нябачныя даныя. Гэта робіцца з дапамогай асобнага праверкі або тэставага набору даных, які не выкарыстоўваўся падчас навучання. Агульныя паказчыкі ацэнкі ўключаюць дакладнасць, дакладнасць, запамінанне, адзнаку F1 для класіфікацыйных задач і сярэднюю квадратычную памылку або R-квадрат для задач рэгрэсіі. Ацэнка мадэлі дапамагае выявіць такія праблемы, як пераабсталяванне або недастатковае абсталяванне, калі мадэль альбо занадта добра працуе на навучальных даных, але дрэнна на новых даных, альбо, адпаведна, не можа ўлавіць асноўныя тэндэнцыі ў даных.
7. Разгортванне мадэлі: Апошні этап прадугледжвае разгортванне падрыхтаванай і ацэненай мадэлі ў вытворчае асяроддзе, дзе яна можа рабіць прагнозы на аснове новых даных. Разгортванне можа быць выканана рознымі спосабамі, такімі як інтэграцыя мадэлі ў вэб-прыкладанне, разгортванне яе ў якасці REST API або ўбудаванне ў мабільную праграму. Пастаянны маніторынг неабходны для забеспячэння дакладнасці мадэлі з цягам часу, паколькі рэальныя даныя могуць змяняцца, што прыводзіць да дрэйфу мадэлі.
Акрамя гэтых асноўных відаў дзейнасці, ёсць некалькі спецыялізаваных задач машыннага навучання, якія варта згадаць:
- Класіфікацыя: Гэта дзеянне прадугледжвае прысваенне цэтлікаў ўваходным даным на аснове вывучаных шаблонаў. Задачы класіфікацыі пераважаюць у розных прыкладаннях, такіх як выяўленне спаму, аналіз пачуццяў і распазнаванне малюнкаў. Напрыклад, сістэма выяўлення спаму класіфікуе электронныя лісты як спам ці не як спам на падставе такіх характарыстык, як адрас адпраўніка, змест электроннага ліста і метададзеныя.
- Рэгрэсія: Задачы рэгрэсіі ўключаюць прагназаванне бесперапыннай выходнай зменнай на аснове ўваходных функцый. Гэта звычайна выкарыстоўваецца ў такіх праграмах, як прагназаванне коштаў на жыллё, тэндэнцый фондавага рынку або прагназавання продажаў. Мэта складаецца ў тым, каб змадэляваць сувязь паміж незалежнымі зменнымі і пастаяннай залежнай зменнай.
- кластарызацыя: Кластэрызацыя - гэта метад некантралюемага навучання, які выкарыстоўваецца для групоўкі падобных кропак даных. Гэта карысна для выяўлення асноўных заканамернасцей або структур у дадзеных без загадзя вызначаных метак. Прыкладанні кластарызацыі ўключаюць сегментацыю кліентаў, сціск малюнкаў і выяўленне анамалій. K-сярэднія і іерархічная кластэрызацыя - папулярныя алгарытмы для гэтай задачы.
- Памяншэнне памернасці: Гэтая дзейнасць прадугледжвае памяншэнне колькасці ўваходных зменных або функцый у наборы даных пры захаванні яго асноўных характарыстык. Метады памяншэння памернасці, такія як аналіз галоўных кампанентаў (PCA) і t-размеркаванае стахастычнае ўбудаванне суседзяў (t-SNE), выкарыстоўваюцца для спрашчэння мадэляў, скарачэння часу вылічэнняў і змякчэння праклёну памернасці.
- Выяўленне анамаліі: Выяўленне анамалій - гэта працэс выяўлення рэдкіх або незвычайных шаблонаў у дадзеных, якія не адпавядаюць чаканым паводзінам. Гэта асабліва карысна для выяўлення махлярства, бяспекі сеткі і выяўлення памылак. Такія метады, як ізаляцыйныя лясы і аўтакадавальнікі, часта выкарыстоўваюцца для задач выяўлення анамалій.
- Армаванне навучання: У адрозненне ад навучання пад наглядам і не пад наглядам, навучанне з падмацаваннем прадугледжвае падрыхтоўку мадэляў для прыняцця паслядоўнасці рашэнняў шляхам узаемадзеяння з навакольным асяроддзем. Мадэль, або агент, вучыцца дасягаць мэты, атрымліваючы зваротную сувязь у выглядзе ўзнагароджання або пакарання. Прыкладанні навучання з падмацаваннем ўключаюць гульні, робататэхніку і аўтаномнае кіраванне.
- Апрацоўка натуральнай мовы (NLP): НЛП ахоплівае шэраг дзеянняў, звязаных з узаемадзеяннем паміж кампутарам і чалавечай мовай. Гэта ўключае ў сябе такія задачы, як класіфікацыя тэксту, аналіз пачуццяў, пераклад на мову і распазнаванне названых аб'ектаў. У мадэлях НЛП часта выкарыстоўваюцца такія метады, як токенізацыя, стымінг і выкарыстанне папярэдне падрыхтаваных моўных мадэляў, такіх як BERT або GPT.
Гэтыя віды дзейнасці прадстаўляюць разнастайны спектр задач, якія практыкі выконваюць пры працы з машынным навучаннем. Кожны від дзейнасці патрабуе глыбокага разумення асноўных прынцыпаў і метадаў для эфектыўнага праектавання, укаранення і разгортвання рашэнняў машыннага навучання. Асвоіўшы гэтыя віды дзейнасці, можна выкарыстоўваць магчымасці машыннага навучання для вырашэння складаных задач і прасоўвання інавацый у розных сферах.
Іншыя апошнія пытанні і адказы адносна EITC/AI/GCML Google Cloud Machine Learning:
- Якія паказчыкі ацэнкі прадукцыйнасці мадэлі?
- Што такое лінейная рэгрэсія?
- Ці можна аб'яднаць розныя мадэлі ML і стварыць майстар ІІ?
- Якія алгарытмы найбольш часта выкарыстоўваюцца ў машынным навучанні?
- Як стварыць версію мадэлі?
- Як прымяніць 7 этапаў ML у кантэксце прыкладу?
- Як машыннае навучанне можна прымяніць да даных аб дазволах на будаўніцтва?
- Чаму AutoML Tables былі спынены і што іх замяняе?
- У чым заключаецца задача інтэрпрэтацыі дудлаў, намаляваных гульцамі, у кантэксце ІІ?
- Калі ў матэрыялах для чытання гаворыцца пра «выбар правільнага алгарытму», ці азначае гэта, што практычна ўсе магчымыя алгарытмы ўжо існуюць? Як мы ведаем, што алгарытм з'яўляецца "правільным" для канкрэтнай праблемы?
Больш пытанняў і адказаў глядзіце ў EITC/AI/GCML Google Cloud Machine Learning