Challenge Weakly-Supervised Machine Learning, Towards a More General AI

Objectif du défi

L'objectif est de créer et de valider des solutions d'IA qui réduisent radicalement le besoin d'énormes quantités de données étiquetées et démontrent de fortes capacités de généralisation pour permettre aux entreprises disposant de moins de données étiquetées de présenter des solutions d'IA compétitives. par rapport aux principaux acteurs (GAFAM)

Les enjeux et challenges

Les performances obtenues par les systèmes basés sur l'IA reposent principalement sur l'apprentissage supervisé à partir d'une très grande quantité de données soigneusement annotées. Cependant, d'une part, les problèmes liés à la collecte des données (existence, accès, occurrence, manque de représentativité) rendent difficile l'acquisition de grandes bases de données dans de nombreux domaines. D'autre part, le processus d'étiquetage est coûteux, en termes de temps et d'argent. Il est donc important de mettre en œuvre des méthodes d'apprentissage pour minimiser le besoin d'annotation ou pour augmenter artificiellement la quantité de données annotées.

Solutions proposées : les méthodes d'apprentissage faiblement supervisé

Réduire la quantité de données labellisées

Pré-entrainement avec "Self-supervised learning" + Fine-Tuning sur la tache cible
Semi supervised learning (utilisation des données avec ET sans labels)

Améliorer le processus d'apprentissage

Active learning (Oracle-in-the loop)

Augmentation 'artificielle' de la quantité de données

Transformation
Génération de données par simulation ou par des modèles d'IA générative
Utilisation de données avec des labels de moindre qualités
- Multiple labels (consensus)
- Label with errors (noisy data labelling)
- Weak labels ( données partielle )

L'adaptation au domaine ciblé

Responsable(s) du grand défi

Emmanuel Jean

Collaborateurs

Alberto Franzin