Машыннае навучанне, падгрупа штучнага інтэлекту, прымянялася ў розных галінах, у тым ліку ў мадэлях камп'ютэрнага зроку і вывучэння мовы (LLM). Кожнае з гэтых палёў выкарыстоўвае метады машыннага навучання для вырашэння праблем, звязаных з даменам, але яны істотна адрозніваюцца з пункту гледжання тыпаў даных, архітэктур мадэляў і прыкладанняў. Разуменне гэтых адрозненняў вельмі важна для таго, каб ацаніць унікальныя праблемы і магчымасці, якія прадстаўляе кожная сфера.
У камп'ютэрным зроку машыннае навучанне ў першую чаргу звязана з тым, каб дазволіць машынам інтэрпрэтаваць і разумець візуальныя дадзеныя з свету, такія як выявы і відэа. Асноўная мэта - аўтаматызаваць задачы, якія можа выконваць чалавечая зрокавая сістэма, такія як распазнаванне аб'ектаў, выяўленне твараў, сегментацыя малюнкаў і інтэрпрэтацыя сцэн. Дадзеныя, якія выкарыстоўваюцца ў камп'ютэрным зроку, як правіла, шматмерныя і структураваныя ў выглядзе масіваў пікселяў. Такім чынам, задачы камп'ютэрнага зроку часта патрабуюць мадэляў, якія могуць апрацоўваць гэтую вялікую памернасць і прасторавую структуру.
Згорткавыя нейронавыя сеткі (CNN) з'яўляюцца краевугольным каменем машыннага навучання ў камп'ютэрным зроку. CNN спецыяльна распрацаваны для апрацоўкі дадзеных у выглядзе сеткі, такіх як выявы. Яны выкарыстоўваюць згорткавыя пласты, якія прымяняюць фільтры да ўваходных даных для вылучэння функцый. Затым гэтыя функцыі выкарыстоўваюцца для прагназавання або прыняцця рашэнняў адносна ўваходных даных. CNN асабліва эфектыўныя ў ідэнтыфікацыі шаблонаў і структур на малюнках дзякуючы сваёй здольнасці фіксаваць прасторавыя іерархіі. Напрыклад, у задачах класіфікацыі малюнкаў CNN вучацца ідэнтыфікаваць краю, тэкстуры і больш складаныя структуры па меры праходжання слаёў.
Прыкладам машыннага навучання ў камп'ютэрным зроку з'яўляецца выяўленне аб'ектаў. У гэтай задачы мадэль павінна не толькі класіфікаваць аб'екты на малюнку, але і вызначыць іх месцазнаходжанне. Такія метады, як CNN на аснове рэгіёнаў (R-CNN), You Look Only Once (YOLO) і Single Shot MultiBox Detector (SSD), папулярныя для выяўлення аб'ектаў. Гэтыя мадэлі былі навучаны на вялікіх наборах даных, такіх як ImageNet або COCO, і прадэманстравалі выдатную дакладнасць выяўлення і лакалізацыі аб'ектаў на малюнках.
Наадварот, машыннае навучанне ў мадэлях вывучэння мовы (LLM) факусуюць на апрацоўцы і разуменні дадзеных натуральнай мовы. Гэта ўключае ў сябе такія задачы, як моўны пераклад, аналіз пачуццяў, рэзюмаванне тэксту і адказы на пытанні. Дадзеныя ў гэтым дамене звычайна неструктураваныя і складаюцца з паслядоўнасцей слоў ці сімвалаў. Такім чынам, LLMs павінны быць дасведчанымі ў апрацоўцы паслядоўных дадзеных і захопу кантэксту і семантыкі мовы.
Трансфарматары сталі дамінуючай архітэктурай для LLM, дзякуючы іх здольнасці эфектыўна апрацоўваць паслядоўнасці даных і захопліваць залежнасці на доўгім дыяпазоне. Мадэль трансфарматара выкарыстоўвае механізмы самаканцэнтрацыі, каб узважыць важнасць розных слоў у паслядоўнасці, што дазваляе зразумець кантэкст і адносіны паміж словамі. Гэтая архітэктура прывяла да распрацоўкі магутных моўных мадэляў, такіх як BERT (двунакіраваны кадавальнік прадстаўленняў з трансфарматараў), GPT (генератыўны папярэдне падрыхтаваны трансфарматар) і T5 (трансфарматар перадачы тэксту ў тэкст).
Прыкметным прымяненнем LLM з'яўляецца машынны пераклад. У гэтай задачы мадэль перакладае тэкст з адной мовы на іншую. У адрозненне ад традыцыйных сістэм перакладу, заснаваных на правілах, LLM вывучаюць шаблоны перакладу з вялікіх двухмоўных корпусаў. Напрыклад, сістэма Neural Machine Translation ад Google выкарыстоўвае LLM для перакладу цэлых прапаноў адначасова, а не па частках, што паляпшае бегласць і дакладнасць.
Праблемы, з якімі сутыкаюцца машыннае навучанне ў галіне камп'ютэрнага зроку і LLM, таксама адрозніваюцца. У камп'ютэрным зроку адной з асноўных праблем з'яўляецца зменлівасць асвятлення, арыентацыі і аклюзіі на малюнках. Мадэлі павінны быць дастаткова трывалымі, каб спраўляцца з гэтымі варыяцыямі, захоўваючы пры гэтым дакладнасць. Акрамя таго, высокая памернасць даных відарысаў можа прывесці да неэфектыўнасці вылічэнняў, што патрабуе такіх метадаў, як перадача навучання і дапаўненне даных для павышэння прадукцыйнасці мадэлі.
З іншага боку, магістранты сутыкаюцца з праблемамі, звязанымі з неадназначнасцю і зменлівасцю натуральнай мовы. Мова па сваёй сутнасці неадназначная, словы часта маюць некалькі значэнняў у залежнасці ад кантэксту. LLM павінны быць у стане ліквідаваць гэтыя значэнні, каб зразумець і стварыць чалавечы тэкст. Акрамя таго, мова пастаянна развіваецца, што патрабуе абнаўлення мадэляў новымі дадзенымі, каб заставацца актуальнымі.
Нягледзячы на гэтыя праблемы, у абедзвюх галінах дасягнуты значны прагрэс дзякуючы наяўнасці вялікіх набораў даных і павелічэнню вылічальнай магутнасці. У галіне камп'ютэрнага зроку такія наборы даных, як ImageNet, COCO і Open Images, згулялі важную ролю ў падрыхтоўцы надзейных мадэляў. Аналагічным чынам магістранты атрымалі карысць ад такіх набораў даных, як Common Crawl, якія забяспечваюць велізарную колькасць тэкставых даных для навучання.
Прымяненне машыннага навучання ў камп'ютэрным зроку і магістэрскіх праграмах разнастайныя і эфектыўныя. У ахове здароўя мадэлі камп'ютэрнага зроку выкарыстоўваюцца для аналізу медыцынскіх малюнкаў, дапамагаючы ў дыягностыцы захворванняў па рэнтгенаўскіх прамянях і МРТ. Пры аўтаномным кіраванні камп'ютэрны зрок дазваляе транспартным сродкам успрымаць наваколле і прымаць абгрунтаваныя рашэнні. LLM, з іншага боку, трансфармуюць такія галіны, як абслугоўванне кліентаў, дзе чат-боты і віртуальныя памочнікі становяцца ўсё больш дасканалымі ў разуменні запытаў карыстальнікаў і адказах на іх.
У той час як машыннае навучанне ў камп'ютэрным зроку і магістэрскія праграмы маюць агульную мэту - дазволіць машынам разумець і інтэрпрэтаваць даныя, яны значна адрозніваюцца з пункту гледжання тыпаў даных, архітэктур мадэляў і праблем. Камп'ютэрны зрок факусуюць на візуальных дадзеных, выкарыстоўваючы CNN для апрацоўкі і разумення малюнкаў, у той час як магістранты маюць справу з натуральнай мовай, выкарыстоўваючы трансфарматары, каб захапіць тонкасці чалавечай мовы. Абедзве сферы працягваюць развівацца дзякуючы прагрэсу ў метадах машыннага навучання і наяўнасці вялікіх набораў даных.
Іншыя апошнія пытанні і адказы адносна EITC/AI/GCML Google Cloud Machine Learning:
- Ці можна ў працэсе машыннага навучання выкарыстоўваць больш за адну мадэль?
- Ці можа машыннае навучанне адаптаваць, які алгарытм выкарыстоўваць у залежнасці ад сцэнарыя?
- Які самы просты шлях да навучання і разгортвання найбольш базавай дыдактычнай мадэлі штучнага інтэлекту на платформе Google AI з выкарыстаннем бясплатнага ўзроўню/пробнай версіі з выкарыстаннем кансолі графічнага інтэрфейсу пакрокава для абсалютнага пачаткоўца без вопыту праграмавання?
- Як практычна навучыць і разгарнуць простую мадэль штучнага інтэлекту на платформе Google Cloud AI праз графічны інтэрфейс кансолі GCP у пакрокавым кіраўніцтве?
- Якая самая простая пакрокавая працэдура для практыкавання размеркаванага навучання мадэлі штучнага інтэлекту ў Google Cloud?
- Якая першая мадэль, над якой можна працаваць, і якая мае некалькі практычных парад для пачатку?
- Ці заснаваныя алгарытмы і прагнозы на дадзеных, атрыманых ад чалавека?
- Якія асноўныя патрабаванні і найпрасцейшыя метады стварэння мадэлі апрацоўкі натуральнай мовы? Як можна стварыць такую мадэль з дапамогай даступных інструментаў?
- Ці патрабуецца штомесячная ці штогадовая падпіска для выкарыстання гэтых інструментаў, ці ёсць пэўны бясплатны перыяд?
- Што такое эпоха ў кантэксце параметраў мадэлі навучання?
Больш пытанняў і адказаў глядзіце ў EITC/AI/GCML Google Cloud Machine Learning