Accueil / Actualités / Le Big Data pour les nuls ?

Le Big Data pour les nuls ?

Qu’est-ce que le Big Data ?

Le big data a plusieurs dénominations, littéralement « grosse données », méga données, ou encore données massives, il désigne simplement un ensemble de données. Elles sont si nombreuses et volumineuses qu’elles dépassent l’intuition, les capacités humaines d’analyse et même celles des outils informatiques classiques comme,  les systèmes de gestion de base de données relationnelles.

Les données du Big Data se définissent par le critère des trois V :

  • Le volume (plus ou moins massif)
  • La variété (niveau de structuration et nature : texte, vidéo, audio, base de données, etc)
  • La vélocité (production, collecte et analyse)

Dans certains contextes précis, un quatrième V vient compléter la série, celui de la véracité des données : elles ne sont pas toujours fiables. Pour pouvoir les exploiter, l’intervention des thématiques de gouvernance, de qualité, très consommatrice de ressources est nécessaire.

Le big data fait aussi référence à l’analyse et l’utilisation de celles-ci. Les défis liés à cette thématique sont représentés par le grand volume de données, la rapidité des traitements et la diversité des informations. Les données sont collectées, stockées et travaillées si possible en temps réel grâce à une infrastructure adéquate.

Comment le big data est apparu ?

Le volume de données numériques a pris une proportion considérable et est dû à la numérisation croissante dans tous les domaines du web. Le big data est né au moyen de la fusion de diverses sources de données structurées ou non structurées  telles que :

L’utilisation d’internet sur les mobiles

  • Les réseaux sociaux
  • La géolocalisation
  • Le cloud
  • La mesure des données vitales
  • Le streaming des médias

Quelle solution pour mettre en place une plateforme Big Data ? 

Pour mettre en place une plateforme Big Data, il est nécessaire d’avoir l’élément de base, Hadoop. Hadoop est un Framework open source, c’est-à-dire un ensemble de composants qui forment un logiciel, conçu pour réaliser des traitements sur des volumes de données massives. Hadoop dispose d’un système qui va permettre de gérer la répartition du stockage des données, HDFS (Hadoop Distributed File System).


Une fois qu’on dispose d’Hadoop, il faut choisir une distribution. Il existe trois distributions leader sur le marché qui sont Cloudera, Hortonworks et MapR. Chaque distribution propose un large catalogue d’outil pour faire du requêtage (Pig, Hive, Impala, Drill), de l’extraction de donnée (Sqoop), du Machine Learning (Spark), etc. 

A qui peut servir le Big Data ?

Le Big data est appliqué dans tous les domaines ayant un rapport au Web. Un exemple d’outil de big data dans le domaine de l’e-commerce est la fameuse phrase « ceux qui ont acheté le produit X ont aussi acheté… ». Ces recommandations naissent à partir de l’évaluation de millions de données d’achats d’autres clients.

Voici quelques domaines qui tirent profit du big data :

La recherche médicale : grâce à l’évaluation des données massives, les médecins peuvent trouver de meilleures solutions de thérapie et de traitement pour leurs patients.

  • L’industrie : grâce à l’utilisation des données de machines, les entreprises peuvent augmenter l’efficacité de leur production et travailler de manière plus durable.
  • Economie : il permet aux entreprises de mieux connaitre leurs clients et de leur proposer des offres mieux adaptées à leurs besoins.
  • Energie : les données sur la consommation d’énergie permettent à long terme d’adapter l’offre aux besoins des utilisateurs dans le but de rendre l’approvisionnement énergétique plus durable.
  • Marketing : le big data est utilisé dans le marketing pour mieux cibler les clients. Le but est d’améliorer les relations avec les consommateurs et d’augmenter le taux de conversion via diverses mesures de marketing.
  • Lutte contre la criminalité : le gouvernement et services de sécurité ont également recours au big data, par exemple dans le cadre de la lutte antiterroriste ou la lutte anti blanchiment.
  • Secteur bancaire : le big data permet à une banque de proposer des services adaptées au profil de ses clients ou de mieux anticiper ses risques

Contact
Enveloppe e-mail