Objectif du défi
L'objectif est de créer et de valider des solutions d'IA qui réduisent radicalement le besoin d'énormes quantités de données étiquetées et démontrent de fortes capacités de généralisation pour permettre aux entreprises disposant de moins de données étiquetées de présenter des solutions d'IA compétitives. par rapport aux principaux acteurs (GAFAM)
Les enjeux et challenges
Les performances obtenues par les systèmes basés sur l'IA reposent principalement sur l'apprentissage supervisé à partir d'une très grande quantité de données soigneusement annotées. Cependant, d'une part, les problèmes liés à la collecte des données (existence, accès, occurrence, manque de représentativité) rendent difficile l'acquisition de grandes bases de données dans de nombreux domaines. D'autre part, le processus d'étiquetage est coûteux, en termes de temps et d'argent. Il est donc important de mettre en œuvre des méthodes d'apprentissage pour minimiser le besoin d'annotation ou pour augmenter artificiellement la quantité de données annotées.
Solutions proposées : les méthodes d'apprentissage faiblement supervisé
Réduire la quantité de données labellisées
Pré-entrainement avec "Self-supervised learning" + Fine-Tuning sur la tache cible
Semi supervised learning (utilisation des données avec ET sans labels)
Améliorer le processus d'apprentissage
Active learning (Oracle-in-the loop)
Augmentation 'artificielle' de la quantité de données
Transformation
Génération de données par simulation ou par des modèles d'IA générative
Utilisation de données avec des labels de moindre qualités
Multiple labels (consensus)
Label with errors (noisy data labelling)
Weak labels ( données partielle )
L'adaptation au domaine ciblé