AutoML Vision — гэта прадукт машыннага навучання, распрацаваны Google Cloud, спецыяльна прызначаны для стварэння карыстальніцкіх мадэляў для класіфікацыі, выяўлення і інтэрпрэтацыі дадзеных малюнкаў. Яго асноўная функцыянальнасць сканцэнтравана на аўтаматызацыі працэсу навучання, ацэнкі і разгортвання мадэляў глыбокага навучання для задач, заснаваных на выявах, такіх як класіфікацыя малюнкаў, выяўленне аб'ектаў і сегментацыя малюнкаў. Каб вырашыць, ці можна выкарыстоўваць AutoML Vision для аналізу тыпаў дадзеных, адрозных ад малюнкаў, неабходна вывучыць яго архітэктуру, спосабы ўводу і больш шырокі кантэкст прапаноў AutoML ад Google Cloud.
Візія AutoML: аб'ём і дызайн
AutoML Vision працуе на прынцыпе аўтаматызаванага аналізу малюнкаў. Яго карыстальніцкі інтэрфейс, механізмы прыёму дадзеных, этапы папярэдняй апрацоўкі, архітэктура мадэляў і паказчыкі ацэнкі адаптаваны для візуальных дадзеных. Сэрвіс чакае ўваходных дадзеных у выглядзе файлаў малюнкаў (напрыклад, JPEG, PNG) і адпаведных метак для задач навучання з кантролем. Карыстальнік загружае наборы дадзеных малюнкаў праз кансоль Google Cloud або API, вызначае патрэбную задачу (класіфікацыю або выяўленне аб'ектаў), а сістэма кіруе падзелам дадзеных, вылучэннем прыкмет, выбарам мадэлі, наладкай гіперпараметраў і навучальным канвеерам без неабходнасці глыбокіх ведаў у галіне машыннага навучання ад карыстальніка.
Базавы тэхналагічны стэк выкарыстоўвае згортачныя нейронныя сеткі (CNN) і падобныя архітэктуры, якія асабліва добра спраўляюцца з вылучэннем прыкмет з прасторава карэляваных дадзеных, такіх як масівы пікселяў на выявах. Вынікам AutoML Vision звычайна з'яўляецца навучаная мадэль, якую можна выкарыстоўваць для прагназавання класаў малюнкаў або каардынат абмежавальнай рамкі для нябачных малюнкаў.
Аналіз тыпаў дадзеных
Улічваючы спецыфіку праектавання AutoML Vision, яго карыснасць абмежаваная дадзенымі тыпу выявы. Спроба ўвесці невыяўныя дадзеныя (напрыклад, таблічныя дадзеныя, дадзеныя часовых шэрагаў, аўдыёфайлы або тэкставыя дакументы) прывядзе да несумяшчальнасці на некалькіх узроўнях, пачынаючы ад прыёму дадзеных і заканчваючы апрацоўкай мадэлі. Сістэма не прадугледжвае механізмаў для парсінгу, распрацоўкі аб'ектаў або мадэлявання невыяўных дадзеных.
Напрыклад, дапусцім, што карыстальнік спрабуе загрузіць у AutoML Vision файл CSV, які прадстаўляе таблічныя дадзеныя (напрыклад, транзакцыі кліентаў або паказанні датчыкаў). Сэрвіс не прыме гэты фармат, бо не распазнае яго як сапраўдны ўваходны відарыс. Нават калі б таблічныя дадзеныя былі нейкім чынам пераўтвораны ў фармат выявы (напрыклад, шляхам рэндэрынгу цеплавой карты або дыяграмы і захавання яе ў фармаце PNG), семантычнае значэнне дадзеных не будзе захавана, і навучаныя мадэлі не будуць прыдатныя для першапачатковых аналітычных мэтаў, звязаных з таблічнымі дадзенымі.
Падобным чынам, аўдыядадзеныя (напрыклад, маўленне або гукі навакольнага асяроддзя) або тэкставыя дадзеныя (дакументы, электронныя лісты, паведамленні ў сацыяльных сетках) патрабуюць спецыялізаванай папярэдняй апрацоўкі і архітэктуры мадэляў. Нягледзячы на тое, што існуюць метады даследавання, якія пераўтвараюць аўдыясігналы ў спектраграмы для аналізу на аснове CNN або кадуюць тэкставыя дадзеныя ў выглядзе матрыц, падобных на выявы, гэтыя падыходы не падтрымліваюцца ў AutoML Vision, і іх рэалізацыя запатрабуе карыстальніцкага канвеера папярэдняй апрацоўкі па-за межамі меркаванага выкарыстання прадукту.
Сямейства AutoML: мадальнасці па-за межамі малюнкаў
Нягледзячы на тое, што AutoML Vision абмежаваны дадзенымі малюнкаў, Google Cloud AutoML ахоплівае набор прадуктаў, кожны з якіх прызначаны для розных тыпаў дадзеных:
1. Табліцы AutoMLРаспрацавана для структураваных таблічных дадзеных, такіх як электронныя табліцы, базы дадзеных і файлы CSV. AutoML Tables забяспечвае аўтаматызаваную распрацоўку прыкмет, выбар мадэляў (у тым ліку градыентнае ўзмацненне, выпадковыя лясы і нейронныя сеткі) і метрыкі ацэнкі, прыдатныя для задач рэгрэсіі і класіфікацыі на таблічных дадзеных.
2. Натуральная мова AutoMLРаспрацаваны спецыяльна для тэкставых дадзеных і падтрымлівае такія задачы, як аналіз настрояў, вылучэнне аб'ектаў і класіфікацыя тэксту. Ён выкарыстоўвае мадэлі апрацоўкі натуральнай мовы (NLP), аптымізаваныя для інтэрпрэтацыі на ўзроўні дакументаў і сказаў.
3. Відэаінтэлект AutoMLПрызначана для відэададзеных, што дазваляе выконваць такія задачы, як класіфікацыя відэа, адсочванне аб'ектаў і распазнаванне дзеянняў. Выкарыстоўвае метады часовага і прасторавага мадэлявання.
4. Пераклад AutoMLСпрыяе аўтаматызаванаму навучанню карыстальніцкіх мадэляў перакладу тэкставых дадзеных на розных мовах.
Кожны з гэтых прадуктаў AutoML мае агульную мэту дэмакратызацыі машыннага навучання шляхам аўтаматызацыі складаных этапаў распрацоўкі мадэляў. Аднак кожны з іх распрацаваны з улікам унікальных патрабаванняў і праблем, якія ўзнікаюць у адпаведнасці з яго адпаведнай мадальнасцю дадзеных.
Дыдактычны прыклад: Выпадкі выкарыстання і выбар прадукту
Уявіце сабе бізнес, які імкнецца аўтаматызаваць кантроль якасці ў вытворчым працэсе шляхам праверкі малюнкаў прадуктаў на наяўнасць дэфектаў. AutoML Vision ідэальна падыходзіць для гэтага выпадку выкарыстання, бо яго можна навучыць распазнаваць нязначныя адрозненні ў знешнім выглядзе прадукту і класіфікаваць або лакалізаваць дэфекты. Карыстальнік загружае пазначаны набор дадзеных малюнкаў прадуктаў, а AutoML Vision займаецца навучаннем мадэлі выяўлення дэфектаў.
Параўнайце гэта са сцэнарыем, калі кампанія хоча прагназаваць адток кліентаў на аснове структураваных дадзеных, такіх як дэмаграфічныя дадзеныя, гісторыя пакупак і паказчыкі ўзаемадзеяння. У гэтым выпадку дадзеныя цалкам невізуальныя і найлепш прадстаўлены ў табліцах. Табліцы AutoML з'яўляюцца адпаведным інструментам, бо яны могуць апрацоўваць таблічныя дадзеныя, выконваць аўтаматычную распрацоўку функцый (напрыклад, апрацоўку адсутных значэнняў, кадаванне катэгарыяльных зменных) і выбіраць аптымальныя мадэлі для класіфікацыі.
Для аналізу аўдыё, напрыклад, класіфікацыі гукаў навакольнага асяроддзя або транскрыпцыі маўлення, Google Cloud прапануе такія паслугі, як Speech-to-Text і AutoML Natural Language (для наступнага аналізу тэксту), але AutoML Vision не падыходзіць, калі аўдыёдадзеныя спачатку не будуць пераўтвораны ў фармат выявы (напрыклад, спектраграму), і нават тады вынікі будуць моцна залежаць ад прыдатнасці такой інжынерыі функцый для аналітычнай мэты.
Тэхнічны пункт гледжання: чаму AutoML Vision нельга пашырыць на невыяўляльныя дадзеныя
Архітэктурная спецыялізацыя AutoML Vision грунтуецца на некалькіх тэхнічных аспектах:
- Уводны пласт даныхAPI і карыстальніцкія інтэрфейсы AutoML Vision прызначаны для атрымання файлаў малюнкаў у пэўных фарматах. Няма магчымасці разбору фарматаў дадзеных, якія не з'яўляюцца выявамі.
- Канвеер папярэдняй апрацоўкіЭтапы папярэдняй апрацоўкі адаптаваны для малюнкаў, у тым ліку змяненне памеру, нармалізацыя значэнняў пікселяў і метады дапаўнення дадзеных, такія як паварот, пераварот і абрэзка. Дадзеныя, якія не з'яўляюцца выявамі, не атрымліваюць карысці ад такіх пераўтварэнняў.
- Архітэктура мадэліАрхітэктуры мадэляў (CNN, магчыма, з карыстальніцкімі пластамі для выяўлення або сегментацыі) распрацаваны для выкарыстання прасторавай лакальнасці і інварыянтнасці ў дадзеных выяваў. Дадзеныя, якія не з'яўляюцца выявамі, такія як табліца запісаў аб продажах, не валодаюць гэтымі ўласцівасцямі і таму дрэнна падыходзяць для такіх мадэляў.
- Маркіроўка і ацэнкаІнструменты маркіроўкі і паказчыкі ацэнкі (дакладнасць, прэцызійнасць, паўнатальнасць для класаў малюнкаў; сярэдняя дакладнасць для выяўлення аб'ектаў) вызначаюцца вакол задач, заснаваных на малюнках.
- Экспарт і разгортваннеМадэлі, навучаныя ў AutoML Vision, экспартуюцца ў фарматы, прыдатныя для вываду малюнкаў (напрыклад, TensorFlow SavedModel, Edge TPU). Уваходныя сігнатуры прадугледжваюць выявы ў якасці ўваходных дадзеных.
Па гэтых прычынах AutoML Vision нельга наладзіць для аналізу невізуальных дадзеных без кардынальнай змены інфраструктуры папярэдняй апрацоўкі, мадэлявання і разгортвання, і ў гэтым выпадку ён перастане быць AutoML Vision у сваім цяперашнім выглядзе.
Найлепшыя практыкі: выбар правільнага прадукту AutoML
Пры вырашэнні праблемы машыннага навучання тып дадзеных павінен кіраваць выбарам адпаведнага прадукту AutoML:
– Для дадзеных малюнкаў (напрыклад, фатаграфій, медыцынскіх сканаў, спадарожнікавых здымкаў): выкарыстоўвайце AutoML Vision.
– Для структураваных таблічных дадзеных (напрыклад, электронных табліц, табліц баз дадзеных): выкарыстоўвайце табліцы AutoML.
– Для тэксту ў вольнай форме або структураванага тэксту (напрыклад, дакументаў, водгукаў, электронных лістоў): выкарыстоўвайце натуральную мову AutoML.
– Для відэа (напрыклад, відэазапісаў з камер назірання, спартыўных запісаў): выкарыстоўвайце AutoML Video Intelligence.
– Для задач перакладу: выкарыстоўвайце AutoML Translation.
Спроба выкарыстоўваць прадукт па-за межамі яго прызначанай мадальнасці апрацоўкі дадзеных прыводзіць да неаптымальных вынікаў, праблем несумяшчальнасці або поўнай немагчымасці апрацоўкі дадзеных.
Прыклады налады мадэлі ў AutoML Vision
Хоць у AutoML Vision магчыма выкарыстоўваць карыстальніцкія функцыі ў сэнсе вызначэння карыстальніцкіх метак, указання карыстальніцкіх падзелаў малюнкаў і карэкціроўкі крытэрыяў ацэнкі, гэтыя налады абмежаваныя дадзенымі малюнкаў. Напрыклад, даследчык, які вывучае хваробы раслін, можа загрузіць выявы лісця, класіфікаваныя па тыпу хваробы, і карэктаваць падзелы для навучання і праверкі або дапаўняць выявы з дапамогай спецыфічных для дамена пераўтварэнняў (напрыклад, карэкціроўка каляровых каналаў для імітацыі розных умоў асвятлення). Гэтыя налады паляпшаюць прадукцыйнасць мадэлі ў галіне аналізу малюнкаў, але не пашыраюць карыснасць прадукту на дадзеныя, якія не з'яўляюцца выявамі.
Альтэрнатыўныя стратэгіі для невізуальных дадзеных
Арганізацыям, якія жадаюць аўтаматызаваць машыннае навучанне для невізуальных дадзеных, варта выкарыстоўваць адпаведны прадукт AutoML або разгледзець наступныя альтэрнатывы:
- Распрацоўка індывідуальнай мадэліКалі тып дадзеных або задача не ахопліваюцца існуючымі прадуктамі AutoML, арганізацыям можа спатрэбіцца распрацаваць уласныя канвееры з выкарыстаннем бібліятэк з адкрытым зыходным кодам (напрыклад, scikit-learn, TensorFlow, PyTorch) або іншых кіраваных сэрвісаў, якія падтрымліваюць больш шырокія магчымасці налады.
- Пераўтварэнне дадзеныхУ рэдкіх выпадках дадзеныя можна пераўтварыць у падобнае да выявы прадстаўленне (напрыклад, дадзеныя часовых шэрагаў, пераўтвораныя ў рэкурэнтныя графікі або вуглавыя палі Грама), а затым апрацаваць з дапамогай мадэляў на аснове выяваў. Аднак гэта патрабуе значнай экспертызы ў прадметнай вобласці і стараннай праверкі для забеспячэння значных вынікаў.
- Рашэнні іншых вытворцаўІснуюць рашэнні AutoML ад іншых вытворцаў (напрыклад, H2O.ai, DataRobot), якія прапануюць падтрымку больш шырокага спектру мадальнасцей дадзеных у рамках адзінага інтэрфейсу.
AutoML Vision распрацаваны для аўтаматызаванага машыннага навучання толькі на дадзеных малюнкаў і не можа быць выкарыстаны для аналізу тыпаў дадзеных па-за візуальнай сферай. Для дадзеных, якія не з'яўляюцца выявамі, такіх як табліцы, тэкст, аўдыё або відэа, Google Cloud прапануе спецыялізаваныя прадукты AutoML з адаптаванымі канвеерамі, інтэрфейсамі і архітэктурамі мадэляў. Выбар правільнага прадукту AutoML у адпаведнасці з тыпам дадзеных мае вырашальнае значэнне для паспяховых вынікаў машыннага навучання.
Іншыя апошнія пытанні і адказы адносна Поспехі ў машынным навучанні:
- Як спецыяліст па апрацоўцы дадзеных можа выкарыстоўваць Kaggle для прымянення перадавых эканаметрычных мадэляў, строгага дакументавання набораў дадзеных і эфектыўнага супрацоўніцтва па агульных праектах з супольнасцю?
- У чым розніца паміж выкарыстаннем CREATE MODEL з LINEAR_REG у BigQuery ML і навучаннем карыстальніцкай мадэлі з TensorFlow у Vertex AI для прагназавання часовых шэрагаў?
- Як я магу практыкаваць AutoML Vision без Google Cloud Platform (у мяне няма крэдытнай карты)?
- Ці аўтаматычна ўключаецца рэжым Eager у новых версіях TensorFlow?
- Як стварыць мадэль і версію на GCP пасля загрузкі model.joblib у bucket?
- Ці можна ўсталяваць Kubeflow на ўласныя серверы?
- Ці аўтаматычна выключаецца рэжым нецярплівасці пры пераходзе да новай ячэйкі ў нататніку?
- Ці можна працаваць з прыватнымі мадэлямі, доступ да якіх абмежаваны толькі супрацоўнікам кампаніі, у TensorFlowHub?
- Ці можна пераўтварыць мадэль з фармату JSON назад у H5?
- Ці дазваляе бібліятэка Keras прымяняць працэс навучання падчас працы над мадэллю для пастаяннай аптымізацыі яе прадукцыйнасці?
Больш пытанняў і адказаў глядзіце ў раздзеле "Пашырэнне машыннага навучання".

