Le big data fait partie de ses grands termes à la mode, que l’on évoque à tout bout de champ sans pour autant savoir réellement de quoi il s’agit.

Le terme Big Data bénéficie un peu de la même aura que des termes comme le « cloud », le « data warehouse », ou encore « l’urbanisation informatique ». Premier travail pas si évident avec un terme aussi large : sa définition.

Big Data

Qu’est-ce que le big data ?

Le big data est un anglicisme signifiant littéralement « grosses données ». Ce concept tend à décrire l’évolution exponentielle de la création de données numériques. Le big data peut se percevoir d’une part comme un processus d’augmentation de la quantité de données crée, mais aussi comme la nécessité  de trouver des solutions pour analyser ces données d’un point de vue macro, afin de répondre à des situations précises. L’enjeu du big data n’est pas tant dans la capacité a collecter des données, mais plus dans la capacité à les analyser de manière efficace.

Plus un concept est flou, plus la prise d’un exemple permet d’en intégrer facilement le contour. Imaginons qu’une entreprise a mis en place un workflow (circuit de validation des documents et des étapes) pour gérer ses dossiers clients. À la fin de l’année et après avoir traité 1 500 dossiers, elle se rend compte de l’augmentation sensible du traitement de chaque dossier. La solution d’un point de vue micro data sera de regarder ce qui dans chaque dossier a pris du temps. Une solution pas forcément efficace, et surtout très coûteuse en temps d’investigation. Le big data va prendre le temps d’étudier sur l’ensemble des dossiers, le temps de chaque phase de traitement. Il permettra par exemple de mettre en évidence que la phase la plus coûteuse en temps est celle de l’obtention du retour du client.

Le syndrome du poisson rouge

Finalement, l’augmentation du nombre de données numériques est la résultante de la démocratisation de l’informatique, et notamment par la multiplication des supports comme les smartphones, les tablettes, mais aussi via les réseaux sociaux comme Twitter et Facebook. Le Big data ne serait-il pas finalement que la résultante des progrès technologiques en matière de stockage de données ?

Selon l’Étude IDC-EMC, le volume de données créées passera  de 1,2 zettaoctet par an en 2010 à 40 zettaoctets en 2020 soit un rapport de 1 à 33. La capacité des disques durs de stockage est passée d’environ 25 Giga-octets (Go) en 1998 à 1000 Go en 2007, soit un rapport de 1 à 40 dans un laps de temps plus faible. A titre de comparaison, le premier logiciel GED, Taurus, n’exploitait que 22 Go pour l’archivage numérique de la mairie de Bordeaux.

Finalement le big data ne se comporte-t-il pas comme le poisson rouge, qui grandit systématiquement jusqu’à atteindre les limites de son bocal ? Ne s’agit-il pas simplement et de manière plus scientifique d’une application de la loi de Moore, sur l’évolution de la puissance des ordinateurs, à la capacité de stockage de ces mêmes ordinateurs ?

Le Big data est souvent énoncé comme une prouesse technologique ou un des enjeux majeurs de la seconde décennie du XXIe siècle. N’est-il pas finalement une application à plus grande échelle de domaines déjà largement maîtrises depuis plusieurs années ? L’enjeu du Big data semble davantage résider dans la capacité à modéliser les données, à gérer ces données (d’un point de vue du stockage), et à mettre en place un outil capable de gérer ces volumes.

Partager cet article ...Share on FacebookEmail this to someoneShare on Google+Tweet about this on TwitterShare on LinkedIn