Выяўленне прадузятасцей у мадэлях машыннага навучання з'яўляецца найважнейшым аспектам забеспячэння справядлівых і этычных сістэм штучнага інтэлекту. Адхіленні могуць узнікаць на розных этапах канвеера машыннага навучання, уключаючы збор даных, папярэднюю апрацоўку, выбар функцый, навучанне мадэлі і разгортванне. Выяўленне прадузятасцей прадугледжвае спалучэнне статыстычнага аналізу, ведаў аб дамене і крытычнага мыслення. У гэтым адказе мы вывучым метады выяўлення прадузятасцей у мадэлях машыннага навучання і стратэгіі іх прадухілення і змякчэння.
1. Збор дадзеных:
Прадузятасці ў машынным навучанні часта вынікаюць з неаб'ектыўных даных навучання. Вельмі важна ўважліва вывучыць навучальныя даныя на наяўнасць якіх-небудзь уласцівых зрушэнняў. Адным з распаўсюджаных падыходаў з'яўляецца правядзенне дбайнага даследчага аналізу даных (EDA) для выяўлення заканамернасцей і дысбалансаў у даных. Такія метады візуалізацыі, як гістаграмы, скрынкавыя дыяграмы і дыяграмы рассеяння, могуць дапамагчы выявіць зрушэнні, звязаныя з размеркаваннем класаў, адсутнымі значэннямі, выкідамі або карэляцыяй.
Напрыклад, у наборы даных, які выкарыстоўваецца для прагназавання зацвярджэння крэдытаў, калі існуе значны дысбаланс у колькасці зацверджаных крэдытаў паміж рознымі дэмаграфічнымі групамі, гэта можа сведчыць аб прадузятасці. Аналагічным чынам, калі некаторыя групы недастаткова прадстаўлены ў дадзеных, мадэль можа дрэнна абагульніць гэтыя групы, што прывядзе да прадузятых прагнозаў.
2. Папярэдняя апрацоўка:
Падчас папярэдняй апрацоўкі даных можна ненаўмысна ўнесці зрушэнні праз ачыстку даных, нармалізацыю або кадзіраванне. Напрыклад, неаб'ектыўная апрацоўка адсутных значэнняў або выкідаў можа сказіць працэс навучання мадэлі. Вельмі важна задакументаваць усе этапы папярэдняй апрацоўкі і забяспечыць празрыстасць таго, як выконваюцца пераўтварэнні даных.
Адным з распаўсюджаных метадаў папярэдняй апрацоўкі для ліквідацыі зрушэнняў з'яўляецца дапаўненне даных, калі сінтэтычныя кропкі даных ствараюцца для балансавання размеркавання класаў або паляпшэння прадукцыйнасці мадэлі ў розных групах. Аднак вельмі важна праверыць уплыў павелічэння даных на памяншэнне зрушэння і справядлівасць мадэлі.
3. Выбар функцыі:
Прадузятасці таксама могуць выяўляцца праз функцыі, якія выкарыстоўваюцца ў мадэлі. Такія метады выбару прыкмет, як карэляцыйны аналіз, узаемная інфармацыя або балы важнасці прыкмет, могуць дапамагчы выявіць дыскрымінацыйныя прыкметы, якія спрыяюць прадузятасці. Выдаленне або змяшчэнне такіх функцый можа змякчыць несправядлівыя прагнозы і палепшыць справядлівасць мадэлі.
Напрыклад, у мадэлі найму, калі мадэль у значнай ступені абапіраецца на такі дыскрымінацыйны прыкмета, як пол або раса, гэта можа ўвекавечыць прадузятасці ў працэсе найму. Выключаючы такія асаблівасці або выкарыстоўваючы такія метады, як спаборніцкае адхіленне, мадэль можа даведацца пра больш справядлівыя межы рашэння.
4. Мадэль Навучанне:
Зрушэнне можа быць укаранёна ў працэс навучання мадэлі з-за алгарытмічнага выбару, гіперпараметраў або мэтаў аптымізацыі. Рэгулярная ацэнка прадукцыйнасці мадэлі ў розных падгрупах або адчувальных атрыбутах можа выявіць розныя ўздзеяння і прадузятасці. Такія паказчыкі, як разнастайны аналіз уздзеяння, выраўнаваныя шанцы або дэмаграфічны парытэт, могуць колькасна ацаніць справядлівасць і накіраваць паляпшэнне мадэлі.
Больш за тое, уключэнне абмежаванняў справядлівасці або ўмоў рэгулярызацыі падчас навучання мадэлі можа дапамагчы змякчыць прадузятасці і спрыяць справядлівым вынікам. Такія метады, як спаборніцкае навучанне, выдаленне рознага ўздзеяння або пераўзважванне, могуць павысіць справядлівасць мадэлі шляхам пакарання за дыскрымінацыйныя паводзіны.
5. Ацэнка мадэлі:
Пасля навучання мадэлі вельмі важна ацаніць яе прадукцыйнасць у рэальных сітуацыях, каб ацаніць яе справядлівасць і магчымасці абагульнення. Правядзенне аўдыту прадузятасці, аналізу адчувальнасці або тэставання A/B можа выявіць прадузятасці, якія не былі відавочныя падчас навучання. Маніторынг прагнозаў мадэлі з цягам часу і зваротная сувязь ад розных зацікаўленых бакоў могуць даць каштоўную інфармацыю аб яе ўплыве на розныя групы карыстальнікаў.
Выяўленне і змякчэнне зрушэнняў у мадэлях машыннага навучання патрабуе цэласнага падыходу, які ахоплівае ўвесь канвеер машыннага навучання. Праяўляючы пільнасць падчас збору даных, папярэдняй апрацоўкі, выбару функцый, навучання мадэлі і ацэнкі, спецыялісты-практыкі могуць ствараць больш празрыстыя, падсправаздачныя і справядлівыя сістэмы штучнага інтэлекту, якія прыносяць карысць усім зацікаўленым бакам.
Іншыя апошнія пытанні і адказы адносна EITC/AI/GCML Google Cloud Machine Learning:
- Што такое тэкст у маўленне (TTS) і як ён працуе з AI?
- Якія абмежаванні ёсць у працы з вялікімі наборамі даных у машынным навучанні?
- Ці можа машыннае навучанне аказаць некаторую дапамогу ў дыялогу?
- Што такое гульнявая пляцоўка TensorFlow?
- Што насамрэч азначае большы набор даных?
- Якія прыклады гіперпараметраў алгарытму?
- Што такое ансамблевае навучанне?
- Што рабіць, калі абраны алгарытм машыннага навучання не падыходзіць, і як пераканацца, што выбраны правільны?
- Ці патрэбна мадэль машыннага навучання пад наглядам падчас навучання?
- Якія ключавыя параметры выкарыстоўваюцца ў алгарытмах нейронных сетак?
Больш пытанняў і адказаў глядзіце ў EITC/AI/GCML Google Cloud Machine Learning