У сферы машыннага навучання, асабліва пры працы з такімі платформамі, як Google Cloud Machine Learning, падрыхтоўка і ачыстка даных з'яўляецца найважнейшым этапам, які непасрэдна ўплывае на прадукцыйнасць і дакладнасць мадэляў, якія вы распрацоўваеце. Гэты працэс уключае ў сябе некалькі этапаў, кожны з якіх прызначаны для таго, каб даныя, якія выкарыстоўваюцца для навучання, былі якаснымі, актуальнымі і прыдатнымі для запланаванай задачы машыннага навучання. Давайце разгледзім комплексныя этапы падрыхтоўкі і ачысткі даных перад навучаннем мадэлі машыннага навучання.
Разуменне важнасці падрыхтоўкі і ачысткі даных
Падрыхтоўка і ачыстка даных з'яўляюцца асноватворнымі этапамі канвеера машыннага навучання. Якасць вашых даных можа істотна паўплываць на прадукцыйнасць вашых мадэляў машыннага навучання. Дрэнна падрыхтаваныя даныя могуць прывесці да недакладных мадэляў, у той час як добра падрыхтаваныя даныя могуць павысіць дакладнасць мадэлі, скараціць час навучання і палепшыць інтэрпрэтацыю вынікаў. Працэс падрыхтоўкі і ачысткі даных з'яўляецца ітэрацыйным і можа запатрабаваць перагляду некалькі разоў на працягу жыццёвага цыкла распрацоўкі мадэлі.
Этапы падрыхтоўкі і ачысткі даных
1. Збор і інтэграцыя даных
Пачатковым этапам падрыхтоўкі даных з'яўляецца збор даных з розных крыніц. Гэта можа ўключаць базы даных, электронныя табліцы, API, вэб-скрапінг, прылады IoT і многае іншае. Пасля збору даныя павінны быць інтэграваны ў адзін набор даных. Падчас інтэграцыі важна пераканацца, што даныя з розных крыніц сумяшчальныя і паслядоўныя. Гэта можа ўключаць вырашэнне такіх праблем, як розныя фарматы даных, адзінкі вымярэння і тыпы даных.
Прыклад: выкажам здагадку, што вы ствараеце прагназуючую мадэль адтоку кліентаў, выкарыстоўваючы даныя розных аддзелаў, такіх як продажы, падтрымка і маркетынг. Вам трэба было б аб'яднаць гэтыя наборы даных у згуртаваны набор даных, які прадстаўляе цэласнае ўяўленне аб шляху кліента.
2. ачыстка дадзеных
Ачыстка даных прадугледжвае выяўленне і выпраўленне памылак і неадпаведнасцяў у наборы даных. Гэты крок неабходны для забеспячэння дакладнасці і надзейнасці даных. Задачы ачысткі даных ўключаюць:
- Апрацоўка адсутных значэнняў: Адсутнасць даных можа адбыцца па розных прычынах, такіх як памылкі ўводу даных, няспраўнасць абсталявання або пашкоджанне даных. Агульныя стратэгіі апрацоўкі адсутных значэнняў ўключаюць:
- выдаленне: Выдаленне запісаў з адсутнымі значэннямі, калі іх мала і істотна не ўплываюць на набор даных.
- Умененне: Запаўненне адсутных значэнняў з дапамогай статыстычных метадаў, такіх як сярэдняе, медыяна або мода, або з выкарыстаннем больш складаных метадаў, такіх як K-бліжэйшыя суседзі або рэгрэсіўнае ўмененне.
- Выдаленне дублікатаў: Дублікаты запісаў могуць сказіць аналіз і павінны быць выяўлены і выдалены. Гэта асабліва важна ў наборах даных, дзе кожны запіс павінен прадстаўляць унікальную сутнасць.
- Выпраўленне неадпаведнасцяў: гэта прадугледжвае стандартызацыю запісаў даных, якія павінны быць аднолькавымі, напрыклад, фарматы дат, катэгарыяльныя пазнакі або рэгістр тэксту.
Прыклад: у наборы дадзеных, які змяшчае інфармацыю аб кліенце, вы можаце сустрэць адсутныя значэнні ў слупку «Узрост». Вы можаце запоўніць гэтыя адсутныя значэнні сярэднім узростам набору даных, каб захаваць размеркаванне.
3. Пераўтварэнне дадзеных
Пераўтварэнне даных прадугледжвае пераўтварэнне даных у фармат, прыдатны для аналізу і мадэлявання. Гэты этап можа ўключаць:
- Нармалізацыя і стандартызацыя: Гэтыя метады выкарыстоўваюцца для маштабавання лікавых функцый да агульнага дыяпазону або размеркавання, што асабліва важна для алгарытмаў, адчувальных да маштабавання функцый, такіх як Support Vector Machines або K-Means кластарызацыі.
- Нармалізацыя: Змяненне маштабу функцый у дыяпазоне [0, 1] з выкарыстаннем мінімальна-максімальнага маштабавання.
- стандартызацыя: трансфармацыя функцый, каб мець сярэдняе значэнне 0 і стандартнае адхіленне 1.
- Кадаванне катэгарыяльных зменных: Алгарытмы машыннага навучання патрабуюць уводу лікаў. Такім чынам, катэгарыяльныя зменныя павінны быць пераўтвораны ў лікавыя значэнні. Метады ўключаюць:
- Кадзіроўка этыкетак: Прысваенне ўнікальнага цэлага ліку кожнай катэгорыі.
- One-Hot Кадзіраванне: Стварэнне двайковых слупкоў для кожнай катэгорыі, што пераважней, калі паміж катэгорыямі няма парадкавай сувязі.
- Інжынірынг функцый: Стварэнне новых функцый або змяненне існуючых для павышэння прадукцыйнасці мадэлі. Гэта можа ўключаць:
- Асаблівасці паліномаў: Стварэнне тэрмінаў узаемадзеяння або паліномаў з існуючых функцый.
- Биннинг: Пераўтварэнне бесперапынных зменных у катэгарыяльныя шляхам групоўкі іх у бункеры.
Прыклад: у наборы даных са слупком «Горад», які змяшчае катэгарыяльныя даныя, вы можаце выкарыстоўваць аднаразовае кадаванне для стварэння двайковых слупкоў для кожнага горада, дазваляючы мадэлі інтэрпрэтаваць іх як лікавыя ўваходныя дадзеныя.
4. Скарачэнне дадзеных
Метады скарачэння даных выкарыстоўваюцца для памяншэння аб'ёму даных пры захаванні іх цэласнасці. Гэта можа павысіць эфектыўнасць вылічэнняў і прадукцыйнасць мадэлі. Метады ўключаюць:
- Памяншэнне памернасці: Такія метады, як аналіз галоўных кампанентаў (PCA) або t-размеркаванае стахастычнае ўбудаванне суседзяў (t-SNE), выкарыстоўваюцца для памяншэння колькасці функцый пры захаванні дысперсіі або структуры дадзеных.
- Выбар функцый: Вызначэнне і захаванне толькі найбольш актуальных функцый на аснове статыстычных тэстаў, карэляцыйнага аналізу або вымярэнняў важнасці на аснове мадэлі.
Прыклад: калі набор даных змяшчае 100 функцый, PCA можна выкарыстоўваць, каб скараціць гэта да меншага набору асноўных кампанентаў, якія ахопліваюць большую частку дысперсіі, такім чынам спрашчаючы мадэль без значнай страты інфармацыі.
5. Раздзяленне даных
Перш чым навучыць мадэль машыннага навучання, вельмі важна падзяліць даныя на асобныя наборы для навучання, праверкі і тэсціравання. Гэта гарантуе, што прадукцыйнасць мадэлі можа быць ацэнена на непраглядных дадзеных, зніжаючы рызыку пераабсталявання.
- Навучальны набор: Частка даных, якія выкарыстоўваюцца для навучання мадэлі.
- Набор праверкі: асобнае падмноства, якое выкарыстоўваецца для налады параметраў мадэлі і прыняцця рашэнняў адносна архітэктуры мадэлі.
- Набор тэстаў: апошняе падмноства, якое выкарыстоўваецца для ацэнкі прадукцыйнасці мадэлі пасля навучання і праверкі.
Звычайнай практыкай з'яўляецца выкарыстанне падзелу 70-15-15, але гэта можа адрознівацца ў залежнасці ад памеру набору даных і канкрэтных патрабаванняў праекта.
6. Пашырэнне дадзеных
Для пэўных тыпаў даных, у прыватнасці малюнкаў і тэксту, павелічэнне даных можа выкарыстоўвацца для штучнага павелічэння памеру навучальнага набору даных шляхам стварэння мадыфікаваных версій існуючых даных. Гэта можа дапамагчы палепшыць трываласць і абагульненне мадэлі. Метады ўключаюць:
- Павелічэнне выявы: Прымяненне пераўтварэнняў, такіх як паварот, маштабаванне, перагортванне і рэгуляванне колеру для стварэння новых навучальных узораў.
- Павелічэнне тэксту: выкарыстанне такіх метадаў, як замена сінонімаў, выпадковая ўстаўка або зваротны пераклад для стварэння новых тэкставых даных.
Прыклад: у задачы па класіфікацыі відарысаў вы можаце прымяніць да відарысаў выпадковыя павароты і перавароты, каб стварыць больш разнастайны навучальны набор, дапамагаючы мадэлі лепш абагульняць нябачныя даныя.
Інструменты і платформы для падрыхтоўкі і ачысткі даных
Google Cloud прапануе некалькі інструментаў і сэрвісаў, якія палягчаюць падрыхтоўку і ачыстку даных:
- Google Cloud Dataprep: Візуальны інструмент для вывучэння, ачысткі і падрыхтоўкі даных для аналізу. Ён забяспечвае інтуітыўна зразумелы інтэрфейс і аўтаматызаваныя прапановы для аптымізацыі працэсу падрыхтоўкі даных.
- BigQuery: цалкам кіраванае бессервернае сховішча даных, якое дазваляе выконваць хуткія SQL-запыты да вялікіх набораў даных. Яго можна выкарыстоўваць для папярэдняй апрацоўкі і ачысткі даных перад тым, як уводзіць іх у мадэлі машыннага навучання.
- Cloud Datalab: інтэрактыўны інструмент для вывучэння, аналізу і візуалізацыі даных, які можна выкарыстоўваць для падрыхтоўкі і ачысткі даных з дапамогай Python і SQL.
- Воблачны паток даных: цалкам кіраваны сэрвіс для патокавай і пакетнай апрацоўкі даных, які можна выкарыстоўваць для стварэння складаных канвеераў падрыхтоўкі даных.
Працэс падрыхтоўкі і ачысткі даных з'яўляецца найважнейшым кампанентам працоўнага працэсу машыннага навучання. Гэта ўключае ў сябе некалькі этапаў, уключаючы збор даных, ачыстку, пераўтварэнне, скарачэнне, раздзяленне і павелічэнне. Кожны этап патрабуе ўважлівага разгляду і прымянення адпаведных метадаў, каб пераканацца, што даныя маюць высокую якасць і падыходзяць для падрыхтоўкі надзейных і дакладных мадэляў машыннага навучання. Выкарыстоўваючы такія інструменты і платформы, як тыя, што прапануе Google Cloud, навукоўцы па апрацоўцы дадзеных і інжынеры машыннага навучання могуць упарадкаваць і аптымізаваць гэты працэс, што ў канчатковым выніку прывядзе да больш эфектыўнай і эфектыўнай распрацоўкі мадэляў.
Іншыя апошнія пытанні і адказы адносна EITC/AI/GCML Google Cloud Machine Learning:
- Якія паказчыкі ацэнкі прадукцыйнасці мадэлі?
- Што такое лінейная рэгрэсія?
- Ці можна аб'яднаць розныя мадэлі ML і стварыць майстар ІІ?
- Якія алгарытмы найбольш часта выкарыстоўваюцца ў машынным навучанні?
- Як стварыць версію мадэлі?
- Як прымяніць 7 этапаў ML у кантэксце прыкладу?
- Як машыннае навучанне можна прымяніць да даных аб дазволах на будаўніцтва?
- Чаму AutoML Tables былі спынены і што іх замяняе?
- У чым заключаецца задача інтэрпрэтацыі дудлаў, намаляваных гульцамі, у кантэксце ІІ?
- Калі ў матэрыялах для чытання гаворыцца пра «выбар правільнага алгарытму», ці азначае гэта, што практычна ўсе магчымыя алгарытмы ўжо існуюць? Як мы ведаем, што алгарытм з'яўляецца "правільным" для канкрэтнай праблемы?
Больш пытанняў і адказаў глядзіце ў EITC/AI/GCML Google Cloud Machine Learning