Un Data Lake, lac de données en Français, est employé pour stocker des données, généralement brutes, dans leur format natif. Il n’y a pas de hiérarchie ou même de rangement à proprement dit. Chaque information possède son identifiant et ses métadonnées. Ces data servent ensuite lors de leur étude.

Son histoire

Premièrement, le nom « Data Lake » a été émis par James Dixon, directeur technique dans l’entreprise Pentaho, spécialisée dans la donnée. Il compara cette technologie avec le Data Mart et l’établit en tant qu’héritier. En effet, le Data Mart disposait de quelques difficultés avec son exploitation et le stockage de ses informations. Le Data Lake s’avère être bien plus grand et comporte plus d’utilisations que le Data Mart.

Les avantages :

  • Puisque aucune structure n’existe dans un Data Lake, les données peuvent être stockées comme elles sont, sans modification ou transformation. Cela représente un gain de temps au niveau du traitement des informations.
  • L’analyse et l’étude des data sont également plus rapides grâce à cet accès simple.

Les inconvénients :

  • Les organisations ont vite intégré les Data Lakes à leur système dans le but de remplacer les Data Marts et les Data Warehouses. Cependant, le Data Lake n’était pas réellement opérationnel et possédait des défauts à ses débuts.
  • Le format des informations contenues dans un Data Lake et la possibilité de collecter une quantité illimitée peut engendrer l’extraction de la valeur des données, qui peut être défaillante. Également, avec le manque de hiérarchie de tous ces renseignements, le désordre prédomine vite. Il est important de traiter les bon data au bon moment car leur valeur extraite peut être mauvaise.
  • La localisation des Data Lakes importe. Le délai de transmission peut être élevé si les données sont éloignées. Aussi, cela peut diminuer la qualité de la sécurité des informations et complexifier le processus.

 

Par ailleurs, attention à ne pas métamorphoser son Data Lake en Data Swamp, autrement dit adopter un Data Lake sans savoir l’utiliser et le transformer en « marais ». Cela peut être dû à :

  • Un manque d’expérience et/ou de compétence du Data Lake.
  • De mauvaises capacités techniques.
  • Une gestion inefficace des données d’un Data Lake.

 

Le Data Lake traite et utilise la donnée de façon brute et non transformée. Leur exploitation est simple de par leur manque de structure. Généralement, le Data Lake est nécessaire pour des études organisationnelles régulières. Cependant, de par leur organisation, les spécialistes internes préfèrent utiliser le Data Warehouse.

En marketing, le Data Lake s’inscrit comme pilier dans la réflexion des stratégies incorporant le Big Data. En effet, il ajoute pertinence, efficacité, et exploite et analyse les données clients.