Article

Les 8 étapes pour réussir son DataOps

Livre blanc DataOps

Introduction

La donnée est au centre de l’entreprise et du monde numérique.
Tout le monde est concerné et impacté par les données.
Depuis le Big Data, le volume de données ne cesse de croître. 

Nous générons des données tout le temps et partout. Avec la génération de l’IoT, de la santé numérique et d’une société de plus en plus numérique, les données ne cessent d’exploser que ce soit le volume ou la nature même de cette donnée (structurée, semi-structurée, non structurée). 

Face à cette masse d’informations, comment s’organiser ?
Comment stocker et traiter ?
Où et comment avoir la bonne donnée au bon moment pour avoir la bonne analyse ou tout simplement la bonne information à afficher ? 

Faire du Big Data, de l’analytique ou du machine learning, n’est pas suffisant. Une autre approche est nécessaire. Il faut avoir une vision, une stratégie à 360° : le DataOps. 

Pourquoi le DataOps ? 

Comme nous l’avons dit en introduction, il est nécessaire de revoir en profondeur la manière de penser, de stocker, d’utiliser la donnée. C’est un défi important pour l’entreprise, les DBA, la DSI, les développeurs, les utilisateurs. 

Sans maîtrise de la donnée, la donnée sera perdue ou mal exploitée... 

Le DataOps vise donc à industrialiser cette maîtrise de la donnée, faire en sorte qu’à partir du moment où une donnée est captée, elle puisse être valorisée, et que la chaîne de traitement de la donnée soit monitorée et mise à jour en permanence pour maintenir son niveau de fiabilité. 

Aujourd’hui, avec l’IA (Machine learning / deep learning), la pertinence de la donnée est cruciale. Une mauvaise donnée et c’est le modèle qui ne sera pas pertinent.

Mais pour arriver à cette efficacité, il faut comprendre la donnée : son origine, sa nature, son format. Il faut aussi savoir comment la stocker, la manipuler, l’analyser, la traiter, la sécuriser. 

Le DataOps c’est tout cela. Cette approche doit permettre de mettre en place une stratégie complète autour de la donnée. 

Les 8 étapes pour réussir son DataOps 

Les 8 étapes pour réussir son DataOps 

1. Connaître la donnée 🔎

Soyons clairs : si vous ne connaissez pas les données que vous devez récolter et traiter, vous n’arriverez jamais à l’utiliser efficacement. 

La maîtrise de la donnée passe par sa connaissance. Il faut connaître son origine, sa nature, son type. Il faut savoir si la donnée chaude ou froide et distinguer notamment la génération des données (Batch/Stream/ Microbatch) de son type (TimeSeries, analytics, Text, ...).

À chaque donnée sa spécification qui influence son stockage, son traitement, sa représentation et son affichage. Par exemple, il n'est pas nécessaire de mettre en place des traitements en temps réel si la données est générée une fois par jour.

La représentation est une notion différente de l’affichage car la représentation est une interprétation de la donnée. 

2. Savoir ce que je veux en faire 🧐

Cette question est primordiale, car elle conditionne le stockage, le traitement / l’analyse et le rendu. 

Par définition, il faut savoir ce que l’on veut faire de la donnée et à quel moment. « La bonne donnée au bon moment. » Ce n’est pas une vue de l’esprit, mais une nécessité. 

Avec la masse d’informations, il devient de plus en plus difficile d’extraire la bonne donnée. Ayez une stratégie claire. 

3. a. Avoir la bonne infrastructure : du pragmatisme et de l’anticipation 🛠

Ne sous-estimez pas les besoins en infrastructure matérielle et applicative. Dimensionnez les ressources et prévoyez leur mise à l’échelle (en plus ou en moins). 

Par exemple : en cas de forte collecte d’information, votre infrastructure supporte-t-elle le pic de données à stocker et à traiter ? Pour un site de e-commerce, si l’affluence est très forte, par exemple sur des événements ou une période précise, vous allez solliciter le front, mais aussi le back et donc les données. 

Votre infrastructure, les services cloud, les bases de données, le stockage doivent répondre et monter en charge. 

La donnée doit être traitée comme vous le faites pour les workloads, les serveurs. Un SGBD (Système de gestion de base de données) mal adapté (par exemple : le format de stockage, le moteur de stockage utilisé, les types d’indexations, etc.) et vos performances seront impactées. L’architecture de données doit correspondre à vos besoins et à la nature de la donnée. 

N’oubliez pas, le DataOps couvre l’ensemble des données : de la collecte à son cycle de vie.

 

3. b. Ne pas changer d’infrastructure pour suivre la mode 

Une mauvaise architecture durant la conception et c’est l’ensemble de votre projet qui sera impacté. 

La question de modifier ou de migrer d’architecture reste un sujet délicat : évaluer l’opportunité de changer et l’intérêt de le faire. Quelle conséquence ? Quels changements pour mes données ? Quels avantages ?

La stabilité de l’architecture doit être une préoccupation essentielle. 

4. Maîtriser la notion de complexité 📊

N’oubliez jamais que les projets IT sont des mille-feuilles de plus en plus complexes avec des couches techniques on-premises, hybrides, multicloud, etc. 

Comme dans le DevOps, le DataOps est là pour vous donner une vision 360° et appréhender vos données dans toutes leurs dimensions. 

Ne sous-estimez pas la complexité des architectures et encore moins de la donnée elle-même à cause des sources hétérogènes, de leur temporalité (par exemple en IoT). 

N’oubliez pas les notions de réseaux, de latence réseau, etc. 

La maîtrise de la complexité réduira le risque d’exploitation IT et une mauvaise exploitation de la notion.

5. Garder à l’esprit : Performances, performances, performances 📈

N’oubliez jamais dans une approche DataOps, ou non DataOps, la notion de performances et de qualité de la donnée. Nous entendons ici les accès réseau, les caches, la disponibilité des données, la performance de vos bases. 

Ayez des tableaux de bord pour suivre les métriques. Surveillez attentivement les performances et la bonne exécution des pipelines de données. 

Un mauvais choix de parser impacte directement les performances de vos données et donc de vos applications. 

Les tests en pré-production sont importants, mais de l'A/B testing en production doit aussi être réalisé.

6. Assurer la sécurité & la conformité 🔒

Comme avec le DevSecOps, la sécurité doit être un des piliers du DataOps. La politique de sécurité de l’entreprise doit être appliquée à vos données. Comme pour le développement, le secure by design doit s’appliquer aux données. 

Le DataOps doit intégrer et appliquer la conformité réglementaire selon les usages, les pays, le domaine d’activité. 

7. Modéliser et automatiser 🤖

Tout comme le DevOps, le CI/CD, un des objectifs du DataOps est de “mécaniser”, d’automatiser ce qui est possible d’automatiser. La collecte des données, le stockage, les traitements, le contrôle de cohérence et de la confirmation : tous ces processus peuvent être modélisés et automatisés. Vos experts et développeurs pourront se concentrer sur la valeur de la donnée et en sortir les bonnes informations. 

L’idée derrière cette automatisation est simple : accélérer l’utilisation de la donnée entre le moment où elle est captée et le moment où elle est visualisée. 

Le temps d’analyses est crucial dans certains domaines (retail, supply, industrie, certains IoT, banque / assurance). 

Cette automatisation part de la source puis dans le pipeline de données pour aboutir aux data scientists et aux utilisateurs. 

8. Impliquer toutes les équipes 🤝

À l’instar du DevOps qui doit permettre une fluidité entre les développeurs et les opérationnels, le DataOps doit replacer la donnée au cœur des projets, du métier et des équipes. 

En DataOps, l’ensemble des équipes doit être acteur : la direction générale, le métier, les équipes techniques, la production. 

Le DataOps doit apporter une vue commune et permettre de parler de la même chose. Tout comme il fallait replacer le métier au cœur de l’IT et les développeurs dans l’entreprise, le DataOps doit replacer la donnée dans l’entreprise, car la donnée est au cœur du business et du métier.

Le DataOps aide à casser les silos et à avoir une double approche : transverse et verticale.
Transverse, car la donnée transcende les équipes et les départements de l’entreprise.
Vertical, car on peut « spécialiser » la donnée selon un métier précis, un usage précis. 

 

 

Bonus : Saisir de nouvelles opportunités

Avec l’agilité et le DevOps, nous avons vu émerger de nouveaux profils, de nouvelles compétences : product owner, scrum master, etc. 

Avec le DataOps, la donnée dépasse le développeur et le DBA. Quatre rôles majeurs en découlent : responsable de la transformation, Data owner, Data steward, Data custodians.

Livre blanc DataOps

Les points clés à retenir

👀  DataOps = vue 360° de la donnée et de bout en bout

👥  DataOps = une compréhension pour l’ensemble des départements et des équipes de l’entreprise

🔐  DataOps = sécurité by design et conformité réglementaire

🔨  DataOps = une meilleure maîtrise de l’architecture et des infrastructures

🆕  DataOps = la capacité à intégrer de nouveaux usages

Parlez à un expert

Social

Contact