5 mënyra për të përmirësuar cilësinë e modelit

Ju nuk mund të merrni një formë të shkëlqyer fizike nëse bëni vetëm abs. Në vend të kësaj, ju mund të shfaqeni në plazh shumë më shpejt dhe me një buzëqeshje në fytyrë nëse krijoni një plan me trajnerin tuaj të fitnesit dhe e ndiqni me zell.

E njëjta gjë me modelet e mësimit të makinerive. Të gjithë e dinë që ju duhet të ndryshoni parametrat e modelit (p.sh. peshat e rrjetit nervor) për të marrë një model të mirë. Por nuk është opsioni i vetëm për të ndikuar në cilësinë e modelit. Ne do të bëjmë një hap prapa për të eksploruar mënyra të tjera përmirësimi. Disa prej tyre po përdoren gjerësisht në disa probleme të mësimit të makinerive, por të tjera mbeten nën radar.

Më poshtë është reflektimi im mbi një punim të shkëlqyeshëm nga J. Kukačka, V. Golkov dhe D. Cremers, Rregullimi për të mësuarit e thellë: Një taksonomi(2017) [1].

Cila është përshtatja optimale?

Kur shikojmë foton më poshtë, bëhet e qartë se çfarë është një përshtatje "e mirë": modeli kap modele të përgjithshme të të dhënave, por nuk është shumë i ndjeshëm ndaj modeleve të pajustifikuara nga të dhënat e dhëna.

Kompleksiteti i modelit, d.m.th. numri i parametrave të modelit, kontrollon kapacitetin e modelit për të mësuar modele të sofistikuara të të dhënave. Por kur ushqeni një të dhënë të thjeshtë në një model kompleks, rezulton në përshtatje — modeli përpiqet të përdorë parametrat e tij "të tepërt" dhe përfundimisht "memorizon" pikat e të dhënave. Dhe memorizimi është përgjithësisht i keq kur modeli bën një përfundim/parashikim për një pikë të re të dhënash. Nënpërshtatja ndodh në situatën e kundërt - kur një model i thjeshtë ushqehet me të dhëna komplekse. Është gjithashtu e keqe sepse modeli i papërshtatshëm nuk është në gjendje të kapë modele komplekse të të dhënave.

Përshtatja optimalepërftohet kur kompleksiteti i modelit është në ekuilibër me kompleksitetin e të dhënave. Arritja e ekuilibrit është një sfidë pasi modeli mëson modelet në kampionin e të dhënave të trenit, por objektivi përfundimtar është që të ketë një cilësi të mirë të parashikimeve në mostrat e reja të të dhënave, d.m.th. të dhënat e testimit, shpërndarja e të cilave mund të jetë e ndryshme. Por siç e shohim më poshtë ka shumë mënyra për t'iu afruar këtij ekuilibri.

Parimi udhëzues i arritjes së përshtatjes optimale/më të mirë quhet Minimizim i rrezikut strukturor [2]. Ai kontrollon një shkëmbim ndërmjet kompleksitetit të modelit (rregullimit) dhe cilësisë së përshtatjes së të dhënave të trajnimit (rreziku/gabimi empirik). Fjala rrezik i referohet çmimit abstrakt që mund të duhet të paguajmë për pasaktësitë e parashikimeve.

Si të matet cilësia e përshtatjes?

Ne mund të përcaktojmë sasinë e perceptimit tonë të përshtatjes duke grumbulluar devijimet midis të dhënave aktuale dhe parashikimeve të modelit. Çdo devijim, d.m.th., gabim përfaqëson një distancë në një hapësirë ​​të veçorive dhe përcaktimi i distancës varet nga konteksti dhe fusha e problemit.

Ne jemi mjaft fleksibël në zgjedhjen e funksionit të gabimit/humbjes. Sidoqoftë, në praktikë ka kufizime të shkaktuara nga algoritmet e optimizimit që ne përdorim për rregullimin e parametrave të modelit për të minimizuar gabimin - zakonisht ato mund të funksionojnë vetëm me funksione globale të vazhdueshme dhe të diferencueshme të humbjes.

Përveç gabimeve, mund të duam të marrim parasysh preferencat tona të arkitekturës së modelit ose parametrave nëpërmjet një rregullimi/dënimipër strukturën e padëshiruar të modelit.

Duke kombinuar gabimet dhe dënimin së bashku, marrim një masë të performancës së modelit në një të dhënë të caktuar — funksioni i kostos. Ai pasqyron edhe mënyrën se si modeli përshtatet me të dhënat dhe preferencat tona për vetë modelin. Gjatë fazës së trajnimit ne synojmë ta minimizojmë këtë funksion për të pasur një përshtatje më të mirë.

Më poshtë mund të shihni një funksion të njohur të kostos që përdoret në shumë probleme regresioni: funksioni i humbjes së MSE i kombinuar me rregullimin e peshës L2.

Lundrimi në funksionin Kosto

Le të shqyrtojmë opsione të ndryshme të ridizajnimit të funksionit të kostos në mënyrë që të adresojmë sfida të ndryshme në rrugën drejt përshtatjes optimale.

(1) Transformimi i të dhënave

Ekzistojnë dy koncepte të transformimit të të dhënave: ruajtja e paraqitjes së të dhënave (shtimi i të dhënave) dhe jo (inxhinieria e veçorive). Të dyja mund të aplikohen në hyrjen e modelit, parametrat e brendshëm dhe daljen gjatë trenit dhe testimit.

Nga ky këndvështrim, teknika të tilla si Droupout dhe Normalizimi Batch burojnë nga të njëjtat parime si para-përpunimi i të dhënave ose parashikimet e grumbullimit në inputet e shtuara.

Shumë teknika të inxhinierisë së veçorive dhe të shtimit të të dhënave janë specifike për domenin, por rezultate mbresëlënëse mund të arrihen gjithashtu duke aplikuar një teknikë nga një domen në një problem nga një domen tjetër. Për shembull, përkthimi i sinjaleve audio në imazhe nëpërmjet transformimit të Furierit ose valëve dhe më pas aplikimi i rrjeteve nervore konvolucionale (CNN) të dizajnuara për problemet e shikimit kompjuterik.

Një nga teknikat më kundërintuitive të listuara në punim është shtimi i zhurmës së rastësishme në të dhënat e trajnimit— në mënyrë paradoksale, në kushte të caktuara në shpërndarjen e zhurmës, përmirëson cilësinë e modelit dhe rrit qëndrueshmërinë e tij.

(2) Model

Fantazia juaj është kufiri i vetëm i arketipit/arkitekturës së rrjetit të modelit. Për më tepër, ju mund të krijoni një meta-model që kombinon parashikime të modeleve të ndryshme bazë nëpërmjet teknikave të ndryshme të ansamblit: përbërja, shtimi dhe grumbullimi.

Shpesh modelet janë fokusi i diskutimeve, ndaj le ta anashkalojmë për sot. Unë sugjeroj vetëm të reflektoni mbi kopshtin zoologjik të rrjeteve nervore nga Fjodor van Veen.

(3) Funksioni i humbjes (gabim në një mostër)

Siç u diskutua më lart, fusha e problemit nënkupton zgjedhjen e funksionit të humbjes. Sidoqoftë, cilësia e mjaftueshme e modelit shpesh mund të arrihet edhe me funksionet e humbjes agnostike të domenit, p.sh. MSE për regresion dhe ndër-entropi për klasifikim.

Në rast të të dhënave të çekuilibruara, ka kuptim të merret parasysh ndikimi i peshave të klasës — mund të arrihet gjithashtu duke zbritur/mbikampionuar në nivelin e transformimit të të dhënave (1).

Ndikimi i peshave të mostrës është veçanërisht i rëndësishëm për parashikimin e serive kohore - është një mënyrë e përshtatshme për të zbutur anomalitë e të dhënave ose për t'i kushtuar vëmendje modeleve më të fundit në të dhëna.

(4) Termi i rregullimit

Termi i rregullimit është i pavarur nga objektivi, prandaj mund të llogaritet për një mostër të paetiketuar, ndërsa funksioni i humbjes jo. Ky dallim lejon përmirësimin e qëndrueshmërisë së modelit duke kombinuar të dhënat e etiketuara dhe të paetiketuara në një mënyrë gjysmë të mbikqyrurmësimore.

Termat e rregullimit të bazuara në rënien e peshës janë më të njohurit: L1, L2.

Ideja e rregullimit zbatohet edhe në kriteret e informacionit për përzgjedhjen e modelit. Për shembull, në kriterin Akaike ne mund të vëzhgojmë ndëshkimin për numrin e parametrave të modelit [4].

(5) Algoritmi i optimizimit

Algoritmi i optimizimit është në thelb mjeti që kërkon parametrat e modelit duke dhënë vlerën minimale të funksionit të kostos në grupin e të dhënave të trajnimit.

Algoritmi më themelor i optimizimit është Zbritja e gradientit (GD). Ai bazohet në idenë se derivati ​​i një funksioni është një vektor që tregon drejtimin e një maksimumi lokal të atij funksioni. Prandaj, hapat në drejtim të kundërt çojnë në minimumin lokal - pikërisht atë që dëshirohet.

Në klasike Gradient Descent, të gjitha mostrat e trajnimit përdoren për çdo përditësim të parametrave - atje zakonisht kemi një rrugë në drejtimin e duhur, por mësimi mund të jetë mjaft i ngadaltë. Përdorimi i një shembulli ose nënshembulli të të gjithë shembujve të trajnimit në vend të kësaj rrit shpejtësinë e stërvitjes, por ne kemi një udhëtim më me gunga deri në funksionin minimal të kostos. Ky variacion algoritmi quhet Zbritja Stochastic Gradient (SGD).

Ka shumë mënyra për të përmirësuar njëoptimizer bazë të gradientit Stochastic. Disa prej tyre marrin parasysh momentet e para dhe të dyta të gradientëve në bazë të parametrave: Adaptive Gradient Algorithm (AdaGrad), Root Mean Square Propagation (RMSProp) dhe < fortë>Adam.

Një tjetër qasje interesante e nivelit më të lartë është metoda e ansamblit të fotografive. Ai synon të përdorë minimumet e shumëfishta lokale të funksionit të kostos sesa një minimum global - modeli i marrë është një grup modelesh me parametra që korrespondojnë me minimumet lokale (fotografitë). Kërkimi i shpejtë dhe efikas i minimumit lokal arrihet duke ndryshuar shkallën e të mësuarit në cikle: në vend të normës konstante të të mësuarit këtu, ne fillimisht ulim shkallën e të mësuarit për të përfunduar në një minimum lokal, ruajmë pamjen e modelit dhe më pas rrisim në mënyrë dramatike shkallën e të mësuarit për të dalë nga minimale dhe kaloni në minimumin tjetër lokal duke përsëritur procesin.

Siç e pamë në metodën e mësipërme, kriteret e ndalimit për optimizuesit është një temë jo e qartë. Inicializimi i parametrave të modelit mund të jetë gjithashtu jetik dhe mund të përshpejtojë ndjeshëm procedurën e trajnimit.

Përveç optimizuesve të mësipërm, ekziston një klasë optimizuesish që e trajtojnë funksionin e kostos si një "kuti të zezë" dhe përdorin modele zëvendësuese për ta përafruar atë. Është e dobishme kur gradientët e funksionit të kostos janë të vështira për t'u llogaritur ose ato nuk ekzistojnë. Teknika më popullore në këtë klasë është Optimizimi Bayesian — ajo përditëson besimet e mëparshme rreth funksionit të kostos me çdo mostër të re të nxjerrë duke përafruar funksionin e kostos me proceset Gaussian [6].

Ekuivalenca e teknikave

Një gjë e jashtëzakonshme është se ndonjëherë metodat që ndikojnë në komponentë të ndryshëm të funksionit të kostos janë ekuivalente. Për shembull, injektimi i zhurmës Gaussian me variancë të vogël është një përafrim i dënimit Jacobian. Ka shumë shembuj të tjerë në punim [1].

konkluzioni

Shpesh ne fokusohemi në një komponent specifik që mund të përmirësojë cilësinë e modelit, p.sh. peshat e modelit. Por zakonisht kur zgjidhni një problem të vërtetë, nuk ka një kufizim të tillë. Funksioni i kostos është vetëm një mjet që na ndihmon të përcjellim objektivin tonë tek kompjuterët/algoritmi i optimizimit. Ne kemi fuqinë për të manipuluar të gjithë përbërësit e tij për sa kohë që 1) na ndihmon të përgjithësojmë më mirë modelet e të dhënave dhe 2) mund të futet në algoritme optimizimi. Kështu që herën tjetër që do të ndiheni të mbërthyer pas orëve të gjata të trajnimit modelin — kontrolloni opsionet e tjera që mund t'ju japin një përfitim cilësor.

Referencat

[1] Jan Kukačka, Vladimir Golkov dhe Daniel Cremers,Rregullimi për të mësuarit e thellë: Një taksonomi (2017)

[2] Google, Kursi i përplasjes së mësimit të makinerisë, Rregullimi

[3] Guozhong An, Efektet e shtimit të zhurmës gjatë trajnimit të përhapjes së pasme në një performancë të përgjithësimit (1996)

[4] Rob J Hyndman, George Athanasopoulos, "Parashikimi: Parimet dhe Praktika"

[5] Huang, G., Li, Y., Pleiss, G., Liu, Z., Hopcroft, J. E., & Weinberger, K. Q., Snapshot Ansembles: Train 1, merrni M falas (2017)

[6] Martin Krasser, "Optimizimi Bayesian" (2018)

Faleminderit të veçantë për Stepan Zaretsky, i cili më njohu atë ditë me punimin [1] dhe madje vërtetoi disa rezultate në lidhje me modelet që përfitojnë nga injektimi i zhurmës.