Të dhënat e etiketuara dobët vendosin një kufi të shmangshëm në performancën e algoritmeve të mësimit të makinerive. Si e përdorim votimin me konsensus për detyrat komplekse të etiketimit?

Një metodë për të përmirësuar korrektësinë e të dhënave të etiketuara është votimi me konsensus. Votimi me konsensus përfshin etiketimin e të dhënave të trajnimit disa herë dhe përdorimin e këtyre të dhënave vetëm nëse të gjithë etiketuesit bien dakord për etiketën e të dhënave. Kështu, për shembull, pretendoni se po trajnoni një klasifikues për të njohur fotot e mollëve. Fatkeqësisht, disa nga mollët u etiketuan si portokall. Për të përmirësuar korrektësinë e grupit të të dhënave, thjesht vini një etiketues të dytë të etiketojë imazhet. Më pas, hiqni shembujt për të cilët etiketuesit nuk pajtohen. Tani mund t'i krahasojmë mollët me portokallet me aftësinë tonë të ML.

Pretendoni se kemi dy etiketues që gabimisht dhe rastësisht etiketojnë mollët si portokall 10% të rasteve, por janë të sakta 90% të rasteve. Me etiketimin me konsensus, mund të presim që saktësia 90% të bëhet saktësi 99%, me 1% të mbetur të mbetur kur të dy etiketuesit gabimisht etiketojnë një mollë si portokall.

Pra, kjo është e mrekullueshme. Ne mund të përmirësojmë korrektësinë e të dhënave tona dhe rrjedhimisht performancën e algoritmeve tona. Sidoqoftë, si me çdo drekë falas, nuk është falas, etiketimi i konsensusit do të zvogëlojë madhësinë e mostrës tuaj (gjithashtu kushton më shumë, por kjo është një pikë tjetër). Në shembullin e mësipërm, do të kishim 82% të të dhënave tona origjinale.

Ju mund të thoni: 'Mirë!' sepse ne kemi hequr qafe mostrat e etiketuara keq, gjë që është sigurisht më mirë sesa t'i kemi ato në grupin e trajnimit. Megjithatë, tani pretendoni se mostrat tuaja janë fotografi të sekuencave tekstuale me 100 karaktere dhe detyra juaj është të trajnoni një makinë për t'i lexuar ato. Nëse etiketuesit tanë kanë një shkallë gabimi për karakter prej 1%, shanset për të mos pasur gabime në etiketën e plotë janë 37%. Kjo do të thotë se grupi i të dhënave përkatëse do të ishte ~13,7% e madhësisë origjinale. Tani, ky është një problem i mundshëm.

Të dhënat e renditjes

Për të përdorur votimin me konsensus për të dhënat e sekuencës, duhet të rregullojmë atë që llogaritet si konsensus në mënyrë që të mos reduktojmë shumë të dhënat tona të të dhënave. Në shembullin e mësipërm, ne mund të jemi të kënaqur me vetëm një gabim për çdo kampion trajnimi. Në këtë rast, ne mund të përdorim një metrikë të ngjashmërisë midis dy sekuencave. Për tekstin, ekziston një metrikë për matjen e ndryshimit midis dy grupeve të karaktereve të quajtur distanca Levenshtein. Ai mat ndryshimin në hapësirën e shkronjave për dy vargje.

Për fjalën "mollë" dhe gabimin drejtshkrimor të saj "pple", distanca absolute Levenshtein midis fjalëve është vetëm 1, sepse vetëm një personazh është i gabuar. Prandaj ne mund të hiqnim vetëm mostrat për të cilët secila etiketë është më shumë se 1 largësi Levenshtein. Në rastin tonë të leximit të karaktereve, grupi ynë i të dhënave zvogëlohet vetëm në ~ 54% të madhësisë së tij origjinale. Kjo është shumë më mirë. Është shumë e mundur, në varësi të detyrës, që të arrijmë performancë më të mirë në ~ 4 herë më shumë të dhëna, edhe nëse ka një gabim të vogël në disa nga mostrat. (Gjithmonë mund të gjendet një kompromis i mirë.)

Kutitë kufizuese

Pretendoni se detyra jonë e etiketimit është tani të vizatojmë kuti kufizuese rreth mollëve në mënyrë që t'i zbulojmë ato në fotografi - një përpjekje e frytshme. Ndoshta kërkohet shumë që etiketuesit të përputhen me kutitë e tyre kufizuese pikërisht që fotografia të kalojë. Mund të përfundojmë pa mostra fare nëse ky është kriteri ynë. Pra, çfarë të bëni? E pra, ne mund të kemi mjaft lehtë një kriter kalues ​​ku nëse kutitë mbivendosen në një shkallë të mjaftueshme, ne mund ta kalojmë atë. Për shembull, nëse 95% e sipërfaqes për secilën kuti kufizuese janë brenda kutisë tjetër kufizuese, atëherë mund të kalojmë njërën nga etiketat.

Segmentimi semantik

Në një mënyrë shumë të ngjashme me kutitë kufizuese, ne gjithashtu mund të bëjmë të njëjtën gjë për maskat e përdorura për segmentimin semantik.

Për shembull, merrni parasysh përpjekjen time për të krijuar një maskë për një mollë. Ne thjesht mund të matim numrin e pikselëve të bardhë në të dyja maskat si një përqindje e numrit të përgjithshëm të pikselëve të bardhë. Kjo gjithashtu mund të funksionojë për shumë rajone semantike në të njëjtin imazh.

Pra ja ku e kemi! Ne mund të aplikojmë votimin me konsensus për të përmirësuar korrektësinë e grupeve tona të të dhënave, edhe me detyra komplekse etiketimi.

Faleminderit per leximin.