Quelles questions posent le développement des Big data ?

François Silva - 29 octobre 2020

« La science informatique n’est pas plus la science des ordinateurs que l’astronomie n’est celle des télescopes »

Hal Abelson

Pourquoi les big data sont en train de devenir un élément majeur du développement de nos sociétés ? C’est l’objectif de cet article de faire comprendre les raisons pour lesquelles les big data posent à la fois des questions nouvelles tout autant que nous retrouvons des interrogations qui ont émergé dès le début de la naissance des sciences et en particulier des mathématiques.

La numérisation de notre société correspond à la multiplication à la fois de nouvelles pratiques se développent autour de l’utilisation de multiples applications sur les différents outils mais aussi sur la prolifération des machines et autres robots communiquant entre eux. Ainsi, il existe un nombre exponentiel d’informations qui sont potentiellement utilisables.

L’informatique1 est « le traitement de l’information permettant de conserver, d’élaborer et de restituer des données sans intervention humaine en effectuant sous le contrôle de programmes enregistrés des opérations arithmétiques et logiques. ». Cette définition du Robert souligne la dimension automatique, c’est-à-dire sans intervention humaine. C’est le croisement des mathématiques (calcul et algorithme) avec la technologie électronique. L’informatique se situe dans la continuité des « mathématiques ». En une quarantaine d’années, il a été utilisé alternativement la notion d’informatique puis celle de systèmes d’information, puis des NTIC et maintenant de numérique. A chaque fois, ce sont des évolutions technologiques qui donnent plus d’ampleur et élargissent le périmètre sur lequel elles peuvent intervenir.

Mais il faudrait maintenant plutôt utiliser le terme de NBIC, car le monde de la technologie numérique entre dans des dimensions qui donnent le vertige. En effet, les Nanotechnologies, les biotechnologies, l’informatique (l’intelligence artificielle) et les sciences cognitives (NBIC) désignent la convergence de champs qui jusqu’alors étaient indépendants entre eux. Nous sommes en train de voir se fondre dans une seule matrice et s’interconnectant entre eux, le numérique, ces domaines jusqu’alors cloisonnés. C’est ainsi que « l’infiniment petit (N), la fabrication du vivant (B), les machines pensantes (I) et l’étude du cerveau humain (C)2» convergent entre eux.

La mathématisation de la réalité

Les questions concernant les big data sont au cœur de l’émergence de la science moderne à partir du 16ème siècle. Cette science s’est développée sur l’idée que les mathématiques constituent une science universelle (mathesis universalis) sur laquelle il est possible de fonder l’ensemble des connaissances. Galilée, au 17ème siècle, affirme que les mathématiques sont l’outil idéal pour décrire le monde physique. Il développe l’idée que les lois de la Nature sont écrites en langage mathématique. Ce que Pythagore, déjà 20 siècles avant, avait résumé dans cette formule, Toute chose est nombre. C’est dans cette continuité que les grands scientifiques créateurs de la science moderne ont repris cette idée pythagoricienne en l’étendant sous la forme « Tout est mathématique ». Galilée dit ainsi « Le livre de la nature est écrit en langage mathématique. »

Ainsi la physique serait un objet mathématique car l’existence physique ne serait pas différente de l’existence mathématique. Ainsi le monde physique pourrait se laisser comprendre par les mathématiques et donc tout pourrait être modélisé et modélisable. Mais les objets mathématiques que nous utilisons pour comprendre l’Univers deviennent de plus en plus efficaces parce qu’ils sont de plus en plus proches de ce qu’est l’Univers. Certains prennent au pied de la lettre l’idée que le monde physique pourrait être un objet mathématique, tout serait mathématisable, dont l’être humain.

Un des leviers du développement de ces big data réside dans la maîtrise algorithmique des calculs arithmétiques avec des nombres de taille de plus en plus grande. Ainsi, les chercheurs ont découvert des nombres premiers records : un nombre premier de deux millions de chiffres en 1999, et, l’an passé, un nombre de plus de 10 millions de chiffres sur lequel s’appuie la cryptographie. Mais surtout, la découverte de ces outils algorithmiques permet des manipulations de données de grande ampleur avec un ordinateur. Les mathématiques sont nécessaires à la maîtrise des ordinateurs, mais, en retour, les ordinateurs conduisent à pratiquer les mathématiques de manière différente et donnent une vision nouvelle des objets abstraits que la machine manipule mieux que l’esprit humain et avec une sûreté incomparable3. Les big data sont devenus un thème d’intérêt majeur pour beaucoup de discipline. L’idée est que le croisement d’informations permettrait de disposer d’indicateurs suffisant pour comprendre des situations cachées.

La révolution du big data

Le volume des données croît de manière exponentielle. Ainsi, chaque jour, 2,5 quintillions4 d’octets de données sont créés. Plus de 90% des données disponibles aujourd’hui ont été créés au cours des deux dernières années. Ces données proviennent d’origines très diverses : des mails, des posts dans des médias sociaux, des partages de photographies, de vidéos, de musique, des traces de visites sur des sites web, des données de transactions sur des sites marchands, des objets connectés…..

Toutes les entreprises du numérique telles Google, Facebook sont de gigantesques entreprises de traitement des données concernant chacun des utilisateurs de sa plateforme, c’est-à-dire une grande majorité d’entre nous. Les requêtes multiples et variées que chacun fait apportent des informations permettant de définir un profil précis sur la personne.

Ainsi, les « Big Data » recouvrent l’ensemble des problématiques associées à la collecte et au traitement de l’ensemble des données (textes, vidéos, images, nombres, clics, signaux, capteurs, données collectées dans des cookies etc.). Mais surtout elles bénéficient de la convergence de toutes les données sur un même format numérique. Pour les collecter et les traiter, il est nécessaire de disposer de plateformes de calcul s’appuyant sur des algorithmes de plus en plus sophistiqués. Mais ces données (souvent plusieurs milliards) n’ont de sens que si on parvient à les valoriser. La difficulté est qu’elles sont de très grande dimension et sont souvent produites par des sources d’information multiples et hétérogènes il est nécessaire de développer de nouvelles architectures de stockage et de calcul réparti à très grande échelle, et de concevoir des méthodes innovantes de traitement pour en extraire les données pertinentes. Ainsi, les données dont a besoin le monde de la bourse correspond à la collecte et la gestion de flux de « haute fréquence » par des algorithmes de trading high frequency pouvant donner et gérer un millier d’ordres par seconde.

Les « Big Data » ont pénétré en quelques années la plupart des activités : santé, finance, grande distribution, banque et assurance, politiques publiques, sécurité, et évidemment la recherche scientifique. Elles ont déjà un impact important dans de nombreux domaines avec des enjeux financiers importants. C’est en quoi la plupart des acteurs économiques considèrent le Big Data comme un axe fondamental de leur stratégie.

Ces différentes caractéristiques, qui sont au cœur même du Big Data, engendrent des difficultés d’analyse : les approches statistiques « classiques » sont souvent inopérantes, ou alors trop coûteuses numériquement tant à cause du volume que de la variété des données. De plus, par opposition aux statistiques « traditionnelles », les données sont collectées de manière aléatoire et non contrôlée. Elles sont donc souvent médiocres, manquantes ou parasitées par des « bruits ». C’est pourquoi ce très grand volume de données et leur vitesse de traitement nécessitent de développer des méthodes très sophistiquées. Les problèmes de Big Data requièrent des solutions spécifiques, reposant sur des théories et des principes radicalement nouveaux.

Pour réussir, on doit intégrer l’approche du Big Data dans une dimension résolument pluridisciplinaire pour associer l’informatique (de l’intelligence artificielle aux bases de données en passant par le calcul algorithmique), les statistiques, le traitement du signal et des images, les sciences humaines et sociales. Il faut faire se côtoyer mathématiciens, informaticiens, économistes et sociologues, mais aussi des philosophes et des sages. En effet, Pascal décrivait déjà le vertige qu’il éprouvait dès le 17ème siècle, avec la découverte de l’existence de l’infiniment petit et en même temps de l’infiniment grand. C’était la conséquence du développement des premiers outils d’observation soit tournés vers l’infiniment petit invisible à l’œil nu, ce furent les microscopes, soit vers l’infiniment grand du cosmos, et ce furent les lunettes d’observation. En échos, à la même époque, Rabelais insista sur le fait de la nécessité de savoir que science sans conscience n’est que ruine de l’âme. Nous devons être très vigilants à la façon dont les technologies vont faire bouger nos modes de représentations et notre relation au monde et à autrui et à nous-mêmes. La phrase de Rabelais, bien au contraire constitue une règle qui devrait dominer tous les praticiens et professionnels opérationnels tout comme les scientifiques.

Quelles sont les conséquences des big data pour chacun ?

Faut-il rappeler les plus de 200 milliards de mails envoyés à chaque jour sur la planète ou les 3,3 millions de requêtes chez Google5 effectués dans le même temps, permettant de générer des données sur ceux qui font ces requêtes. La géolocalisation de nos outils nomades, à priori anodins, permet de connaitre tous nos déplacements. De multiples applications (dont celui de la RATP pour les parisiens) peuvent nous dire combien de temps il nous faut pour aller de chez soi à n’importe quel endroit (à pied, en voiture, en transport en commun). Avec son téléphone portable (quand il est allumé) la personne a sa position instantanément repérée avec une précision de quelques mètres. Tout ce que chacun fait, les personnes rencontrées, leurs différentes activités sont disponibles en particulier pour le milliard et demi de personnes abonnés à Facebook. On peut aussi connaître leurs intérêts culturels (des films aux livres achetés), leurs plats préférés (par leur consultation sur Marmiton)…. On ne sort plus maintenant sans consulter La Fourchette ou TripAdvisor pour leurs commentaires sur un restaurant ou un hôtel concernant leur réputation. Les soins médicaux de chacun, les visites médicales et les traitements sont tracées. Amazon vous suggère l’achat de canapé après une requête faite pour changer le vôtre qui est bien fatigué. Dans tous les cas, à la suite de sa navigation sur Internet chacun subit un harcèlement publicitaire à travers la réception de bandeaux de publicité en lien avec sa recherche précédente. C’est le cœur du business de Google de vendre de la publicité ciblée aux annonceurs par rapport aux requêtes des internautes. Nul besoin de se déplacer vers une bibliothèque, toute la connaissance est disponible sur son iPhone pour répondre à n’importe quelle question. Nous sommes tous devenus des petits poucets. Toutes les chansons, reportages, vidéos ou émissions sont consultables sur Youtube et Dailymotion.

Mais tout ceci n’est que la partie « émergée » d’un iceberg numérique qui s’amplifie de jour en jour. Nous acceptons plus ou moins consciemment de partager nos informations et d’en garder leur traçabilité. Car il se développe une partie plus opaque. Notre société est en train de se remplir de capteurs de toute nature qui engendrent des données en grand nombre et souvent à très haute fréquence. Ces capteurs sont dans nos smartphones, dans nos automobiles (l’électronique embarquée est en train de devenir une part de plus en plus importante de nos véhicules), et quand les véhicules vont avoir une conduite sans chauffeur cette part constituera l’essentiel d’un véhicule. La reconnaissance faciale va constituer un élément important de cette smart city ou ville intelligence qui émerge. C’est ainsi que tous ces capteurs sont en train d’envahir rapidement le quotidien de chacun par l’explosion des objets connectés. Ils ont un rôle important d’intermédiation et sécurisation de la population. L’utopie de Panoptique6 est de développer une société transparente avec des individus sous surveillance s’autorégulant par une discipline sociale. En fait, nous sommes en train de transformer la société démocratique vers une autre société dans laquelle chacun va être soumis à la surveillance généralisée en contrepartie d’une sécurité très hypothétique payée au prix fort par l’assujettissement de chacun de ses membres.

En conclusion

L’usage de ces technologies dans la façon dont chacun peut être surveillé et contrôlé constitue potentiellement un grave danger pour le respect de la personne. Toutes ces questions autour de la relation entre liberté et sécurité se déplace actuellement vers le sécuritaire

Nos démocraties doivent savoir mettre des garde-fous pour protéger leurs citoyens. En effet, ces informations sur chacun constituent plus que des possibilités de contrôle mais peuvent être complétement intrusives dans la vie et l’intimité de chacun. Il semble dangereux de laisser à des acteurs (qu’ils soient publics ou privés) la possession et la gestion de ces données sans avoir sur eux-mêmes des possibilités de contrôle. Se pose donc la question autour du contrôle des personnes en situation d’avoir connaissance de ces informations. Quelles pratiques sont acceptables ? Comment les réguler ? Par qui ? Avec en arrière fond, le contrôle à déployer également par des contre-pouvoirs ?

  1. En anglais on appelle computing science, la science des nombres, ce que l’on trouve maintenant dans la désignation de numérique ou digital (le numéro)
  2. Monique Atlan et Roger-Pol Droit, Humain : une enquête philosophique sur ces révolutions qui changent nos vies, Flammarion, 2012
  3. Cf. le site de Michel Volle
  4. Un quintillion représente le nombre 1030, c’est-à-dire 1 000 000 000 000 000 000 000 000 000 000, soit un milliard de trilliards (109x1021). Un quintillion est égal à un million à la puissance cinq, d’où le terme. (Source Wikipédia)
  5. Google capitalise 93% des « requêteurs » d’Internet au niveau mondial
  6. « Le panoptique est un type d’architecture carcérale imaginée à la fin du XVIIIe siècle. L’objectif de la structure panoptique est de permettre à un gardien, logé dans une tour centrale, d’observer tous les prisonniers, enfermés dans des cellules individuelles autour de la tour, sans que ceux-ci puissent savoir s’ils sont observés. Ce dispositif devait ainsi donner aux détenus le sentiment d’être surveillés constamment et ce, sans le savoir véritablement, c’est-à-dire à tout moment. Michel Foucault, dans Surveiller et punir (1975), en fait le modèle abstrait d’une société disciplinaire, axée sur le contrôle social. » (source Wikipedia)

Repenser le management

Pour une régulation collégiale des communautés de travail

François SILVA, Arnaud LACAN

Couverture du livre

Articles

Quelles questions posent le développement des Big data ?

« La science informatique n’est pas plus la science des ordinateurs que l’astronomie n’est celle des télescopes » Hal Abelson Pourquoi les big data sont en train de devenir un élément majeur du développement de nos sociétés ? C’est l’objectif de cet article de faire comprendre les raisons pour lesquelles les big data posent à […]

Lire la suite

Le management malade des data

19 Oct. 2020

Les systèmes d’informations permettent de récolter une multitude d’informations qui constituent la base des reportings qui sont devenus une activité centrale du manager. En effet, le reporting est un reflet d’une activité quasiment en temps réel et propose ainsi de la suivre. Mais sa construction nécessite du temps tout comme les commentaires qui l’accompagnent. Cet […]

Lire la suite