Mathématiques et big data

EURÊKA! # 15


Rédigé par Fabien PANLOUP, enseignant-chercheur en mathématiques, professeur à l’Université d’Angers - Angers, le 30/03/2017 - 07:45 / modifié le 30/03/2017 - 13:44


Avec cette rubrique bimensuelle, la rédaction d’Angers Mag et l’Université d’Angers (UA) s’associent pour éclairer autrement le débat public et les questions de notre temps, en confiant la plume à quelques-uns des 560 enseignants-chercheurs et 518 doctorants de l’institution, qui travaillent au sein des 25 laboratoires de l'UA.
Pour ce 15e volet d’Eurêka, Fabien Panloup, professeur de mathématiques, nous emmène dans l’univers du big data, les « données massives » dont l’exploitation est devenue un enjeu majeur de notre ère numérique.



L’Université d’Angers ouvrira à la rentrée 2017 un master de mathématiques appliquées dirigé vers la data science.
L’Université d’Angers ouvrira à la rentrée 2017 un master de mathématiques appliquées dirigé vers la data science.
la rédaction vous conseille
« Big data », « data science », « machine learning », « deep learning »… sont des expressions qui, au cœur de ladite « révolution numérique », viennent de manière de plus en plus prégnante occuper le paysage médiatique. Mais de quelle science s’agit-il réellement ? Et quel rôle jouent les mathématiques dans tout cela ?

La terminologie « big data » est généralement traduite en français par « données massives ».  La « data science » (ou « science des données ») désigne, quant à elle, la ou l’ensemble des discipline(s) scientifique(s) permettant de « traiter » ces masses de données.
En premier lieu, il faut imaginer un immense tableau constitué de données diverses dont on cherche à extraire de l’information. À ce stade, il est important de comprendre que le terme « big data » n’est pas seulement associé à la taille de la population étudiée, mais aussi et surtout au nombre de paramètres en jeu (relatifs à la complexité du phénomène considéré). Celui-ci implique un modèle dit de « grande dimension ».

Citons par exemple la modélisation de certaines maladies comme le cancer, pour lesquelles l’efficacité du traitement thérapeutique peut dépendre d’un grand nombre de facteurs génétiques ou environnementaux. On peut aussi penser à la propagation d’une épidémie, à la tentative de prédiction de catastrophes naturelles ou de l’évolution économique, à la reconnaissance d’images, à la fabrication de logiciels de traduction ou encore, pour citer un exemple qui a récemment eu un retentissement médiatique important, à la modélisation du jeu de Go. À des fins potentiellement plus « mercantiles », on peut enfin citer le e-commerce et l’exploitation des données clients….

Faire parler des jeux de données
 
Le rôle de la science des données va être en substance de concevoir, d’analyser et de mettre en œuvre des algorithmes à même de procurer une compréhension, un « apprentissage » de ces jeux de données. Ceci implique généralement l’interaction entre plusieurs disciplines scientifiques : le domaine d’application concerné, l’informatique et les mathématiques. En ce qui concerne les deux dernières, on peut citer certains thèmes de recherche associés à la science des données tels que les intelligences artificielles, le calcul haute performance, le traitement du signal, l’algorithmique, la théorie des graphes, l’optimisation, les probabilités et, bien sûr, les statistiques.
"De manière générale, le mathématicien apporte sa pierre à l’édifice en formalisant les problèmes issus de la modélisation et en tentant d’apporter des réponses théoriques relatives au problème posé"

Si les thèmes ci-dessus peuvent faire écho au lecteur, elles n’expliquent pas clairement le rôle du mathématicien dans la science des données. On pourrait tenter de le résumer ainsi. De manière générale, le mathématicien apporte sa pierre à l’édifice en formalisant les problèmes issus de la modélisation et en tentant d’apporter des réponses théoriques relatives au problème posé.
D’un point de vue probabilités et statistiques, il s’agit de proposer et d’étudier des modèles aléatoires adaptés au problème, puis d’évaluer la qualité de la prédiction obtenue en fonction du nombre de données et du nombre de variables estimées. Comme on peut l’imaginer, ces sciences ne sont pas nées avec le big data. Les fondements statistiques restent d’ailleurs les mêmes que dans un cadre « classique ». Néanmoins, l’évolution rapide de la taille des jeux de données a généré un certain nombre de questions nouvelles dues à la « grande dimension » du problème.

Sur le plan de l’optimisation, le mathématicien se concentre plutôt sur la proposition et l’étude d’algorithmes (souvent aléatoires) conçus pour calculer numériquement les prédictions statistiques. Plus précisément, le calcul effectif de ces dernières peut être numériquement     difficile en raison de la dimension du problème, et il est donc primordial de proposer des résultats théoriques pour évaluer la qualité des réponses algorithmiques après un nombre fixé d’itérations.

Enfin, un autre défi du mathématicien consiste à tenter de mesurer l’efficacité des modèles d’apprentissage. On pense, par exemple, au deep learning dont le principe, issu du domaine de l’intelligence artificielle, revient à modéliser un problème par un « réseau de neurones artificiels». Ce dernier a donné des réponses étonnantes en reconnaissance d’images, et est à l’origine du logiciel Alphago  qui a vaincu un des meilleurs joueurs de Go du monde. Néanmoins, son efficacité semble encore mal comprise mathématiquement.
 
Un master mathématiques orienté big data
 
Aujourd’hui, le besoin d’ingénieurs ou de chercheurs dans le domaine de la  science des données est croissant. Pour y répondre, le département de Mathématiques de l’Université d’Angers ouvrira à la rentrée 2017 un master de mathématiques appliquées dirigé vers la data science. Il permettra de former en 2 ans des data scientists capables de mettre en œuvre les techniques mathématiques et informatiques nécessaires au traitement et à l’exploitation des données du big data.

Fabien Panloup.
Fabien Panloup.
À propos de l’auteur
Fabien Panloup est enseignant-chercheur en mathématiques, professeur à l’Université d’Angers depuis septembre 2017. Titulaire d’un doctorat de l’Université Paris VI en probabilités appliquées, il a ensuite été maître de conférences à l’Institut de  mathématiques de Toulouse  et à l’INSA Toulouse  de 2007 à 2016.

Membre du Laboratoire angevin de recherche en mathématiques (Larema), il s’intéresse aux algorithmes d’optimisation stochastique, à l’étude de la convergence « en temps long » de dynamiques aléatoires complexes telles que les Équations différentielles fractionnaires, ainsi qu’à la Statistique des processus aléatoires.

En parallèle, Fabien Panloup  s’implique dans le développement interdisciplinaire de projets en lien avec la science des données tels que le projet Vittoria, porté par Mario Campone du Cancéropôle Grand Ouest, sur le traitement thérapeutique du cancer du sein.

Enfin, Fabien Panloup est responsable de la 2e année du nouveau master Data science, lancé à partir de septembre 2017 à l’UA.









1.Posté par ech le 30/03/2017 14:33 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Nous connaissons le "gaillard" et ses théories fumeuses.
Sans aucun intérêt.

Bonjour chez vous !

Nouveau commentaire :

Vous pouvez réagir et commenter cet article. Toutefois, si l’éditeur vous donne la possibilité de faire part de votre opinion, votre commentaire ne doit pas contenir des propos haineux, diffamatoires ou des injures caractérisées, inciter aux crimes et aux délits punis par la législation française, contester les crimes contre l’humanité, être offensant envers les chefs d’État, de gouvernement et diplomates étrangers , faire état de fausses nouvelles ou faire l’objet de discrimination raciale ou sexiste.

Au sens de la loi du 21 juin 2004 pour la confiance dans l'économie numérique (LCEN) la société Ouest eMedia presse éditeur de ce site web est responsable des contenus qu’elle publie, mais aussi des commentaires des internautes s’exprimant sur le sujet. Si la publication est laissée libre, un commentaire dont le contenu est en opposition avec les textes de loi, ou faisant l'objet d'une poursuite, peut à tout moment être modéré par le Directeur de publication.

Dans tous les cas, restez polis et courtois, les lecteurs vous en sauront gré.

Le Comité de Rédaction d'Angers Mag Info










Angers Mag















Angers Mag : #Angers ChroniK'Ô Noir - #23 - "Calcaire", de Caroline de Mulder @ActesSud https://t.co/YL7UQwDfbx https://t.co/ViaD6OXshU
Dimanche 30 Avril - 08:34
Angers Mag : #Angers Le jour d'après : Ivresse et Flacon #SCOOL @AngersSCO @IncroyableSCO @MagicSCOP https://t.co/OODXYvTUsm https://t.co/mmTsOnUfnS
Samedi 29 Avril - 18:18
Angers Mag : Séance critique : "Cessez le feu" d'Emmanuel Courcol: Dans Séance critique, deux fois... https://t.co/RxM41yi3SR https://t.co/ry31AOuMiP
Samedi 29 Avril - 11:53
Angers Mag : #Angers #MaineetLoire Macron-Le Pen, le débat télé de leurs représentants angevins... https://t.co/rsQUc2pfcu https://t.co/QZZ17cFfCf
Samedi 29 Avril - 08:33