Google lanceerde Crowdsourcing Adverse Test Sets for Machine Learning (CATS4ML) Challenge

Onlangs heeft Google AI een data-uitdaging gelanceerd genaamd CATS4ML (Crowdsourcing Adverse Test Sets for Machine Learning). Deze uitdaging verbetert de evaluatiegegevenssets voor Machine Learning door het zoeken in de bestaande ML-benchmarks aan te moedigen.

CATS4ML Data Challenge loopt tot 30 april 2021

Google lanceerde CATS4ML-gegevensuitdaging

CATS4ML data challenge vraagt de challengers om verschillende methoden te gebruiken om de voorbeelden van Unknown Unknowns in ML-modellen te vinden. Dus wanneer deze technologie meer ervaring krijgt, zal de objectherkenningstechnologie van Google beter presteren.

In de objectherkenningstaken zal CATS4ML het vermogen van machine learning uitdagen. De testset heeft veel voorbeelden die moeilijk met algoritmen op te lossen zijn. Het belangrijkste doel van CATS4ML is om de ontwikkelaars een dataset te geven om de zwakke punten van het algoritme te onderzoeken.

Veel evaluatiedatasets hebben gemakkelijk te evalueren items, maar missen de natuurlijke ambiguïteit van de echte context. Het evalueren van ML-modellen zonder praktijkvoorbeelden is moeilijk om de prestaties van machine learning te testen. En dit zorgt ervoor dat ML-modellen "zwakke plekken" ontwikkelen.

De CATS4ML Data Challenge van Google AI op HCOMP 2020 laat zien hoe moeilijk het is om de zwakke punten van het ML-model te identificeren. Het belangrijkste doel van deze uitdaging is om de lat in ML-evaluatiesets te leggen om nieuwe gegevensvoorbeelden te herkennen en daar is machine learning zeker van. De resultaten van deze uitdagingen zullen toekomstige fouten helpen identificeren en voorkomen.

Zwakke plekken in modellen voor machine learning

Zwakke plekken zijn voorbeelden die voor een model moeilijk goed te beoordelen zijn. Dit gebeurt omdat de dataset niet de klassen van voorbeelden bevat.

De onderzoekers blijven de 'Known Unknowns' bestuderen in een Active Learning-domein. De community heeft een oplossing gevonden om op willekeurige voorbeelden een nieuw label te krijgen van mensen. Als een model bijvoorbeeld niet zeker weet of het onderwerp van een foto een kat is of niet, wordt een persoon gevraagd om die foto te verifiëren. En als het model zeker is van de foto, dan wordt de persoon niet gevraagd.

De praktijkvoorbeelden kunnen betere resultaten opleveren voor de tekortkomingen van een model in zijn prestaties. Daarom probeert de CATS4ML-gegevensuitdaging ongemanipuleerde monsters te verzamelen die mensen kunnen lezen, maar de modellen maken fouten.

De CATS4ML-data-uitdaging staat open tot 30 april 2021 voor onderzoekers en ontwikkelaars wereldwijd. De deelnemers kunnen zich inschrijven op de Uitdagingswebsite, download de doelafbeeldingen en dataset en lever de afbeeldingen.