Aller au contenu principal

Objectif du défi

L'objectif est de créer et de valider des solutions d'IA qui réduisent radicalement le besoin d'énormes quantités de données étiquetées et démontrent de fortes capacités de généralisation.

Les enjeux

Ces dernières années, l'IA a apporté des contributions positives en matière de qualité et d'efficacité des produits, d'économie des ressources, de personnalisation des services ou d'amélioration de la prise de décision. Cependant, il y a une limite à ce que les technologies actuelles de l'IA peuvent réaliser car elles reposent sur une énorme quantité de données soigneusement annotées par des experts humains. La constitution de ces ensembles de données prend du temps et est coûteuse, ce qui constitue un frein à l'adoption de l'IA.

Challenges

Les ensembles de données étiquetées exploités par les technologies d'IA actuelles, dominées par l'apprentissage supervisé, nécessitent une annotation humaine experte, ce qui est un processus coûteux et long. Il peut même s'avérer impossible pour les algorithmes d'IA avancés de généraliser à des contextes nouvellement découverts puisque le monde entier ne peut être annoté. De nouvelles technologies réduisant radicalement le besoin de données annotées par l'homme sont indispensables pour diminuer le coût et le temps de développement des applications d'IA. Elles favoriseront l'adoption de l'IA et ouvriront la voie à des technologies d'IA plus avancées.

Solution proposées : l'apprentissage faiblement supervisé

Réduire la quantité de données labellisées​

  • Pré-entrainement avec "Self-supervised learning"  + Fine-Tuning sur la tache cible​

  • Semi supervised learning (utilisation des données avec ET sans labels)​

Améliorer le processus d'apprentissage​

  • Active learning (Oracle-in-the loop)​

Augmentation 'artificielle' de la quantité de données​

  • Transformation​

  • Génération de données (Synthetic Data Model Generator / Simulation (physic-based))​

  • Utilisation de données avec des labels de moindre qualités​

  • Multiple labels (consensus)​

  • Label with errors (noisy data labelling)​

  • Weak labels ( données partielle )​

Domain generalization (+ Fine Tuning) / Domain adaptation​