Di recente, Google AI ha lanciato una sfida sui dati chiamata CATS4ML (Crowdsourcing Adverse Test Sets for Machine Learning). Questa sfida migliora i set di dati di valutazione per l'apprendimento automatico incoraggiando la ricerca dei benchmark ML esistenti.
La sfida dei dati CATS4ML chiede agli sfidanti di utilizzare metodi diversi per trovare gli esempi di Sconosciuti sconosciuti nei modelli ML. Quindi, quando questa tecnologia avrà più esperienza, la tecnologia di riconoscimento degli oggetti di Google funzionerà meglio.
Nelle attività di riconoscimento degli oggetti, CATS4ML metterà alla prova la capacità dell'apprendimento automatico. Il set di test ha molti esempi difficili da risolvere con algoritmi. Lo scopo principale di CATS4ML è fornire un set di dati agli sviluppatori per esaminare i punti deboli dell'algoritmo.
Molti set di dati di valutazione hanno elementi facili da valutare, ma mancano della naturale ambiguità del contesto reale. Valutare i modelli ML senza esempi reali è difficile da testare le prestazioni di machine learning. E questo fa sì che i modelli ML sviluppino "punti deboli".
La sfida sui dati CATS4ML di Google AI a HCOMP 2020 mostra la difficoltà di identificare i punti deboli del modello ML. L'obiettivo principale di questa sfida è mettere la barra nei set di valutazione ML per individuare nuovi esempi di dati e su questo l'apprendimento automatico è sicuro. I risultati di queste sfide aiuteranno a identificare ed evitare errori futuri.
I punti deboli sono esempi difficili da valutare correttamente per un modello. Ciò accade perché il set di dati non include le classi di esempi.
I ricercatori continuano a studiare le "ignote conosciute" in un dominio di apprendimento attivo. La community ha trovato una soluzione per ottenere una nuova etichetta da persone su esempi casuali. Ad esempio, se un modello non è sicuro che il soggetto di una foto sia un gatto o meno, una persona viene invitata a verificare quella foto. E se il modello è sicuro della foto, non viene chiesto alla persona.
Gli esempi del mondo reale possono dare risultati migliori ai fallimenti di un modello nelle sue prestazioni. Quindi, la sfida dei dati CATS4ML cerca di raccogliere campioni non manipolati che gli esseri umani possono leggere ma i modelli commettono errori.
La sfida dati CATS4ML è aperta fino al 30 aprile 2021 per ricercatori e sviluppatori a livello globale. I partecipanti possono registrarsi sul Sito web della sfida, scarica le immagini di destinazione e il set di dati e fornisci le immagini.