Cette équipe animée par Alain Trouvé, Robert Azencott et Nicolas Vayatis travaille sur
Présentation générale
L'apprentissage statistique est une approche qui se développe depuis le milieu des années 90 au carrefour de la communauté informatique autour du « machine learning » et de la statistique mathématique. C'est la confrontation entre un corpus de résultats théoriques (Vapnik, 1995 - Devroye, Györfi, Lugosi, 1996) et l'irruption d'algorithmes révolutionnaires pour la classification de données tels que les Support Vector Machines (Cortes et Vapnik, 1995) et le Boosting (Freund, 1995) qui a fondé ce nouveau domaine de recherche. Les spécificités de l'approche de type « apprentissage » pour l'analyse de données sont les suivantes :
Durant ces dernières années, les liens avec la statistique mathématique ont été explorés. En particulier, la sélection de modèles et la sélection de variables ont été revisitées sous un angle totalement nouveau. L'approche de l'apprentissage statistique repose sur des concepts théoriques difficiles (complexités combinatoires, processus stochastiques indexés par des espaces fonctionnels) mais elle se veut avant tout pragmatique en évitant une idéalisation extrême du cadre de travail. La motivation principale est l'étude et le développement d'algorithmes prédictifs concrets.
L'expertise du CMLA
Une des grandes avancées récentes en apprentissage a été l'analyse des algorithmes de classification de données de très grande dimension. Dans le problème de classification, il y a un critère de performance naturel qui est le taux de mauvaise classification. Or, même dans les cas élémentaires, ce critère ne se prête pas à une optimisation directe (problème NP-difficile). Les algorithmes performants (SVM, boosting) peuvent être interprétés comme des méthodes d'optimisation de critères convexes. Comprendre le lien entre les critères de performance pour une application donnée et les critères d'optimisation permettant la mise en oeuvre d'algorithmes concrets constitue un enjeu majeur de la recherche et la clé pour le développement d'outils prédictifs dans les applications. Les travaux actuels au CMLA se concentrent (1) sur le problème de l'ordonnancement (ou «ranking») qui intéresse de nombreuses applications telles que le scoring (analyse de données biomédicales, risque de crédit) ou l'apprentissage de préférences (moteurs de recherche ou de recommandations), ainsi que (2) sur les problèmes d'apprentissage séquentiel (ou «on line») dans lesquels les données sont délivrées en-ligne ce qui requiert d'adapter les méthodes existantes.
Principaux problèmes statistiques
Applications industrielles et projets