Пры працы з праектамі навукі аб дадзеных на такіх платформах, як Kaggle, канцэпцыя "разгалінавання" ядра прадугледжвае стварэнне вытворнай працы на аснове існуючага ядра. Гэты працэс можа выклікаць пытанні аб прыватнасці даных, асабліва калі зыходнае ядро з'яўляецца прыватным. Каб вырашыць пытанне аб тым, ці можа разгалінаванае ядро быць агульнадаступным, калі арыгінал з'яўляецца прыватным, і ці з'яўляецца гэта парушэннем прыватнасці, вельмі важна разумець асноўныя прынцыпы, якія рэгулююць выкарыстанне даных і канфідэнцыяльнасць на такіх платформах, як Kaggle.
Kaggle, даччыная кампанія Google, забяспечвае платформу, на якой навукоўцы па апрацоўцы дадзеных і аматары машыннага навучання могуць супрацоўнічаць, спаборнічаць і дзяліцца сваёй працай. Платформа падтрымлівае выкарыстанне ядраў, якія, па сутнасці, з'яўляюцца сшыткамі, якія змяшчаюць код, дадзеныя і дакументацыю, звязаную з канкрэтным праектам навукі аб дадзеных. Гэтыя ядра могуць быць адкрытымі або прыватнымі, у залежнасці ад пераваг карыстальніка і характару задзейнічаных даных.
Калі ядро разгалінавана, гэта азначае, што ствараецца новая версія ядра, якая дазваляе карыстачу абапірацца на існуючую працу. Гэта падобна да стварэння галіны ў сістэмах кантролю версій, такіх як Git, дзе карыстальнік можа змяняць і пашыраць арыгінальную працу, не закранаючы яе. Аднак пытанне аб тым, ці можа разгалінаванае ядро быць агульнадаступным, калі арыгінал з'яўляецца прыватным, залежыць ад некалькіх фактараў:
1. Палітыка прыватнасці даных: Kaggle мае дакладныя рэкамендацыі і палітыку адносна прыватнасці даных. Калі даныя загружаюцца ў Kaggle, карыстальнік павінен пазначыць узровень канфедэнцыйнасці даных. Калі даныя пазначаны як прыватныя, гэта азначае, што яны не прызначаны для агульнага доступу без відавочнага дазволу ўладальніка даных. Гэта абмежаванне важна для захавання канфідэнцыяльнасці і цэласнасці канфідэнцыйных даных.
2. Разгалінаванне дазволаў: Пры разгалінаванні ядра, якое змяшчае прыватныя дадзеныя, разгалінаваная версія ўспадкоўвае налады прыватнасці зыходнага ядра. Гэта азначае, што калі зыходнае ядро з'яўляецца прыватным, разгалінаванае ядро таксама павінна заставацца прыватным, калі ўладальнік даных не дае відавочнага дазволу на змяненне яго статусу. Гэта мера абароны ад несанкцыянаванага абмену прыватнымі данымі.
3. Інтэлектуальная ўласнасць і права ўласнасці на дадзеныя: Дадзеныя, якія змяшчаюцца ў ядры, часта з'яўляюцца аб'ектамі правоў інтэлектуальнай уласнасці. Уладальнік даных захоўвае кантроль над тым, як даныя выкарыстоўваюцца і абагульваюцца. Калі карыстальнік разгалужвае ядро, ён павінен паважаць гэтыя правы і не можа ў аднабаковым парадку прыняць рашэнне зрабіць разгалінаванае ядро агульнадаступным, калі яно змяшчае прыватныя дадзеныя.
4. Прымяненне платформы: Kaggle забяспечвае выкананне гэтых параметраў прыватнасці праз сваю архітэктуру платформы. Сістэма распрацавана, каб не даць карыстальнікам змяніць статус прыватнасці разгалінаванага ядра, якое змяшчае прыватныя дадзеныя без неабходных дазволаў. Гэта робіцца для забеспячэння захавання правілаў канфідэнцыяльнасці даных і абароны інтарэсаў уладальнікаў даных.
5. этычныя меркаванні: Акрамя тэхнічных і юрыдычных аспектаў, варта прыняць да ўвагі этычныя меркаванні. Навукоўцы па апрацоўцы дадзеных нясуць адказнасць за этычнае абыходжанне з данымі і захаванне прыватнасці і канфідэнцыяльнасці даных, з якімі яны працуюць. Публікацыя разгалінаванага ядра без згоды можа падарваць давер да супольнасці навукі аб дадзеных і прывесці да патэнцыйнай шкоды ў выпадку раскрыцця канфідэнцыяльнай інфармацыі.
Каб праілюстраваць гэтыя прынцыпы, разгледзім гіпатэтычны сцэнар, калі навуковец па дадзеных, Аліса, працуе над прыватным ядром Kaggle, якое змяшчае канфідэнцыяльныя фінансавыя даныя. Ядро Alice з'яўляецца прыватным, таму што дадзеныя з'яўляюцца прыватнымі і не павінны раскрывацца публічна. Боб, яшчэ адзін спецыяліст па апрацоўцы дадзеных, лічыць працу Алісы каштоўнай і вырашае стварыць разгалінаванне яе ядра, каб абапірацца на яго. Згодна з палітыкай Kaggle, разгалінаванае ядро Боба таксама будзе прыватным, паколькі яно змяшчае асабістыя даныя Алісы.
Калі Боб жадае зрабіць сваё разгалінаванае ядро агульнадаступным, ён павінен спачатку атрымаць відавочны дазвол ад Алісы, уладальніка дадзеных. Гэты дазвол прадугледжвае згоду Алісы абагуліць свае даныя публічна, што можа запатрабаваць дадатковых мер, такіх як ананімізацыя даных або забеспячэнне адсутнасці канфідэнцыяльнай інфармацыі. Без згоды Алісы Боб не можа змяніць налады прыватнасці свайго разгалінаванага ядра на агульнадаступныя, бо гэта парушыць палітыку канфідэнцыяльнасці даных Kaggle і патэнцыйна парушыць законы аб канфедэнцыйнасці даных.
У гэтым выпадку механізмы забеспячэння выканання платформы ў спалучэнні з этычнымі меркаваннямі забяспечваюць захаванне прыватнасці зыходных даных. Няздольнасць Боба зрабіць разгалінаванае ядро агульнадаступным без дазволу прадухіляе патэнцыйнае парушэнне прыватнасці і падтрымлівае цэласнасць выкарыстання даных на Kaggle.
Адказ на пытанне заключаецца ў тым, што разгалінаванае ядро, якое змяшчае асабістыя даныя зыходнага прыватнага ядра, не можа быць зроблена агульнадаступным без відавочнага дазволу ўладальніка даных. Гэта абмежаванне дзейнічае для прадухілення парушэння прыватнасці і забеспячэння захавання палітыкі прыватнасці даных. Архітэктура платформы Kaggle разам з рэкамендацыямі па канфідэнцыяльнасці даных забяспечвае выкананне гэтага правіла, каб абараніць інтарэсы ўладальнікаў даных і захаваць давер супольнасці навукі аб даных.
Іншыя апошнія пытанні і адказы адносна Поспехі ў машынным навучанні:
- Якія абмежаванні ёсць у працы з вялікімі наборамі даных у машынным навучанні?
- Ці можа машыннае навучанне аказаць некаторую дапамогу ў дыялогу?
- Што такое гульнявая пляцоўка TensorFlow?
- Ці перашкаджае рэжым Eager функцыянальнасці размеркаваных вылічэнняў TensorFlow?
- Ці можна выкарыстоўваць воблачныя рашэнні Google для аддзялення вылічэнняў ад сховішча для больш эфектыўнага навучання мадэлі ML з вялікімі дадзенымі?
- Ці забяспечвае Google Cloud Machine Learning Engine (CMLE) аўтаматычнае атрыманне і канфігурацыю рэсурсаў і апрацоўвае іх адключэнне пасля завяршэння навучання мадэлі?
- Ці можна навучыць мадэлі машыннага навучання на як заўгодна вялікіх наборах даных без збояў?
- Ці патрабуе пры выкарыстанні CMLE стварэнне версіі ўказання крыніцы экспартаванай мадэлі?
- Ці можа CMLE счытваць дадзеныя з воблачнага сховішча Google і выкарыстоўваць для вываду вызначаную падрыхтаваную мадэль?
- Ці можна Tensorflow выкарыстоўваць для навучання і вываду глыбокіх нейронавых сетак (DNN)?
Больш пытанняў і адказаў глядзіце ў раздзеле "Пашырэнне машыннага навучання".