Le média de la transformation digitale

Taoufik Amri, Data Scientist : « Attention à ne pas faire du Big Data une big cata » !

Le Big Data représente une manne que tout le monde s’arrache. Gare pourtant à bien les analyser pour éviter une bulle de la donnée. Explication avec Taoufik Amri, data scientist et Research Quant.

TaoufikVous êtes normalien, docteur en physique quantique, et maintenant Data Scientist. Comment définissez-vous votre métier ?
Un slogan bien connu définit le Big Data par les « trois V » pour « Volume, Vélocité et Variété ». L’analyse et l’exploitation des données existent depuis longtemps, c’est même le travail des statisticiens et des actuaires en banque et en assurance. Le volume et la vélocité ne représentent pas vraiment un nouveau phénomène, ils sont même d’usage courant en finance de marché, où le trading haute fréquence est la parfaite illustration de la « vélocité ».

En revanche, l’information s’est fortement diversifiée avec la digitalisation d’un grand nombre de services et les réseaux sociaux, qui regorgent de données. L’enjeu est donc de raffiner ce « pétrole brut », les Big Data, en « Smart Data », c’est-à-dire en données créatrices de valeur. Ces Smart Data permettront alors d’établir des modèles prédictifs sur les comportements des internautes, qui deviennent de fait des prospects et « clients-pontentiels[1]  ». C’est cela la Data Science.

Peut-on vraiment prédire les achats des individus avec le Big Data ?
Oui et Non. Je dis souvent à certains de mes clients que je ne suis pas un devin ! Certaines choses ne peuvent pas être prédites, avec un taux d’erreur raisonnable, on le sait en physique depuis la théorie du chaos. En revanche, il est possible d’établir des modèles prédictifs. En effet, chacun d’entre nous laisse des « traces » sous une forme digitale par des actions sur Internet : achats, recherches, like sur Facebook, etc… En analysant toutes ces informations, nous pouvons établir ce que l’on appelle des « patterns » comportementaux. Par exemple, nous savons qu’un utilisateur d’un smart phone plutôt haut de gamme est moins sensible au prix que les autres consommateurs, qui choisissent des smartphones de gammes inférieures. Ainsi, un tel client se retrouve plus enclin à acheter un même produit légèrement plus cher qu’un autre client, qui lui ressemble, mais qui utilise une marque de smartphone plus « cheap ». Cette simple information permet de créer une petite marge supplémentaire, positive ou négative, qui croisée avec le volume, engendrera au global de la valeur.

Vous voulez dire que les prix sont fixés en fonction de notre « empreinte » digitale ?
Non, les prix sont modulés – très finement – en fonction de votre empreinte digitale, et c’est là toute la nuance. Finalement, avec le Big Data et la digitalisation, on revient à une sorte de « Souk Digital », dans le bons sens du terme : il n’existe plus de prix fixé à l’avance, mais des prix qui sont modulés en fonction de votre empreinte digitale. Il faut se rappeler que c’est ainsi que l’Humanité a inventé le commerce, par le marchandage direct et le fait que le commerçant pouvait moduler son prix à la hausse comme à la baisse, selon votre tenue vestimentaire ou votre monture ! On en revient un peu au même stade, mais dans un monde digital. Cela peut être très positif, car ce que l’on cherche à optimiser, c’est la valeur dégagée sur les clients au global, et donc le profit de l’entreprise qui vend des produits certes, mais qui emploie également des salariés, qui à leur tour font travailler l’économie. Au final, tout le monde peut y gagner, car les clients ont également les moyens de comparer les prix, ils ne sont pas obliger d’acheter et pourront même gérer leur empreinte digitale en maîtrisant ce qu’ils laisseront ou non en naviguant sur le web. C’est toute la force de ce nouveau monde digital : tout le monde peut être gagnant, à condition que les choses soient bien faites afin d’éviter que le Big Data ne soit pas qu’un buzz word ou une bulle…

Qu’entendez-vous par « bulle du Big Data » et quels sont les risques ?
Il y a plusieurs aspects à une telle bulle, que je ne souhaite pas, mais je pense qu’il est utile de les identifier et de les nommer pour justement les éviter. L’économie française, qui est en quête désespérée de sources de croissance, a vraiment des opportunités dans le digital et le Big Data.
La premier risque concerne l’éthique vis-à-vis de la data, et cela sera particulièrement important sur des sujets comme la santé connectée et l’assurance digitale. Apple introduira au printemps prochain une montre connectée qui est vraiment ce que l’on peut appeler une « innovation par la redéfinition ». En redéfinissant un objet de la vie courante, une montre, Apple va en faire un véritable coach d’activité physique, entre autres fonctions. On peut déjà imaginer à quoi pourront servir ces données en matière d’assurance santé ou de crédit à long terme.  L’éthique sera alors primordiale, et je pense que seul l’Etat et les régulateurs peuvent et doivent intervenir sur de tels sujets.

La seconde raison pour laquelle le Big Data ne pourrait être qu’une bulle, c’est de ne pas faire de la « vraie » Data Science, mais juste ce que l’on faisait déjà, autour de ce que l’on appelle la « Business intelligence ». Je m’explique. Depuis des décennies, les statisticiens et actuaires utilisent des modèles dits linéaires qui ont la fâcheuse tendance de confondre corrélation et causalité. Jusqu’ici pas de problème, cela fonctionne plutôt bien, mais qu’en sera-t-il avec des Big Data ? Qu’en sera-t-il quand les objets connectés – via l’internet des objets (IdO) – nous inonderont de données diverses et variées ? Les modèles linéaires ne sont clairement pas faits pour traiter de telles variétés de données, qui peuvent présenter des corrélations plus subtiles et parcimonieuses que celles captées par ce type de modèles linéaires. Ils ne sont qu’une toute petite panoplie de ce que l’on sait faire en science dite « dure ». Résultat : si l’on conserve les mêmes modèles, en réduisant le monde à des corrélations, les prix risquent de ne pas refléter leur réalité économique.

Pour éviter cet écueil, Les Data Scientists devront avant tout être des « Scientists », c’est-à-dire des adeptes de la démarche scientifique, qui a un coût d’apprentissage. La démarche scientifique, c’est ce qui a permis à l’Humanité d’avancer et d’innover. Elle consiste à se baser sur les données et les faits, mais aussi à lever son nez des données pour formuler des hypothèses de travail, qui idéalement décrivent le mécanisme expliquant les corrélations observées. Si les « Hélène » achètent plus un certain produit que les « Louna » c’est surement parce qu’elles sont issues d’une certaine génération, et que leurs prénoms reflètent la classe sociale de leurs parents et leurs convictions politiques par ailleurs. Tout est dans le mécanisme. Les corrélations peuvent être fallacieuses, et les exemples ne manquent pas.

La troisième raison, qui semble occultée à l’heure actuelle dans l’euphorie entourant le Big Data, repose sur les machines – des ordinateurs – qui auront à digérer  -« cruncher » comme on dit dans le milieu – toutes ces données et en faire des modèles prédictifs. Leur architecture est vieille de plus d’un demi siècle ! Et elles atteindront leur limite matériel aux alentours de 2025. Ce qui signifie qu’à partir de là, vous n’aurez plus de machines plus puissantes, ce qui posera des problèmes aux Data Scientists, car les algorithmes dits de Machine Learning, ceux qui apprennent d’eux-mêmes et se corrigent seuls, sont aussi très gourmands en ressources de calcul.

Existe-il une solution à cette limite ?
Oui, l’informatique quantique, et plus modestement à court terme les calculateurs quantiques. J’ai écrit avec Bruno Teboul, Directeur Scientifique, R&D et Innovation du Groupe Keyrus, et qui gouverne – entre autres – la Chaire « Data Scientist » nouvellement fondée à l’Ecole Polytechnique, une analyse prospective intitulée « Les Machines pour le Big Data » dans laquelle nous montrons que les deux mutations majeures que subiront l’informatique prochainement seront « quantique » et « cognitive », dans des sens que nous précisons [1].

Si cela parait relever de la science-fiction, notons que Google, la NASA, et le numéro 1 de la défense et sécurité américaine sont déjà sur le coup ! Ils ont acheté les premiers prototypes auprès de la société canadienne D-Wave Inc, qui a fait la une du Time Magazine en février 2014 avec son système D-Wave Two. Ces calculateurs sont faits pour résoudre des problèmes d’optimisation combinatoire, parmi les plus complexes, dont  certains de ceux qui interviennent dans beaucoup de sujets en Data Science …

La formation des data scientists est-elle adaptée ?
La France a de sérieux atouts, car elle a toujours été reconnue pour sa tradition et son excellence en mathématique. Mais mon intime conviction est que les vrais « Data Scientists » ne sortiront plus qu’avec un Bac + 5 ou un diplôme d’ingénieur généraliste, même de grandes écoles. Pour certaines fonctions, il faudra plus et la France a des bataillons prêts à l’emploi : il s’agit simplement des docteurs en sciences dites « dures » comme la physique, les mathématiques appliquées etc … qui ont été jusqu’ici mal considérés par les entreprises en France, alors qu’ils sont plébiscités en Allemagne, aux USA ou en Grande-Bretagne. Les géants Google, Facebook et Amazon emploient au sein de leurs départements de Data Science beaucoup de ces profils, pourquoi la France n’en ferait-elle pas de même ? Il est temps que cette spécificité franco-française change, comme une kyrielle d’autres choses si on veut profiter de ces opportunités de croissance.

Interview réalisée par Laure Kepes

« Les Machines pour le Big Data : Vers une Informatique Quantique et Cognitive », par Bruno Teboul et Taoufik AMRI, Phd.

Messages connectés

1 Commentaire

  1. Pingback: Assureurs vs courtiers : le digital change-t-il la donne ?

Poster une réponse

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *