Data Engineer

Les compétences essentielles pour concevoir et construire des systèmes de traitement de données

Apprenez à concevoir et à construire des systèmes de traitement de données

Décuplez vos chances d'obtenir la certification Google Cloud Professional Data Engineer en suivant notre formation SFEIR Institute. Plus de 90% de taux de réussite au test de certification.

Ce cours de quatre jours, animé par un de nos formateurs certifiés Google Cloud Platform, fournit une introduction pratique à la conception et au développement de systèmes de traitement de données sur Google Cloud Platform. Grâce à un mélange de présentations et de démonstrations et d’exercices pratiques, les participants apprendront à concevoir des systèmes de traitement de données, à créer des pipelines de données de bout en bout, à analyser des données et à utiliser le potentiel du Machine Learning. Le cours couvre les données structurées, non structurées et par flux.

  • Concevoir et développer des systèmes de traitement de données sur Google Cloud Platform
  • Traiter des données par lot ou par flux en implémentant des pipelines de données scalables automatiquement sur Cloud Dataflow
  • Obternir des informations métier à partir d'extrêmement grands ensembles de données en utilisant Google BigQuery
  • Entraîner, évaluer et faire des prédictions en utilisant des modèles de Machine Learning en utilisant Tensorflow et Cloud ML
  • Tirer parti des données non structurées à l'aide de Spark et des API de Machine Learning sur Cloud Dataproc
  • Activer Instant Insights à partir des données par flux

Prix: 2920€ HT
Modalité: Inter en présentiel (demander une formation en intra-entreprise)

Prochaines dates:

21 Janvier

S'inscrire

18 Février

S'inscrire

18 Mars

S'inscrire

15 Avril

S'inscrire

20 Mai

S'inscrire

17 Juin

S'inscrire

15 Juillet

S'inscrire

19 Août

S'inscrire

16 Septembre

S'inscrire

14 Octobre

S'inscrire

18 Novembre

S'inscrire

16 Décembre

S'inscrire

SFEIR Paris

48 Rue Jacques Dulud
92200 Neuilly-sur-Seine

Programme de la formation

Module 1

Présentation de Google Cloud Dataproc

  • Création et gestion des clusters
  • Exploitation des types de machines personnalisés et des nœuds de calcul préemptifs
  • Évolutivité et suppression des clusters
  • Lab : Création de clusters Hadoop avec Google Cloud Dataproc
Module 2

Exécution de tâches sur Dataproc

  • Exécution de tâches Pig et Hive
  • Séparation du stockage et du calcul
  • Lab : Exécution de tâches Hadoop et Spark avec Dataproc
  • Lab : Envoyer et surveiller des tâches
Module 3

Intégrer Dataproc à Google Cloud Platform

  • Personnalisation d'un cluster à l'aide d'actions d'initialisation
  • Assistance BigQuery
  • Lab : Exploiter les services Google Cloud Platform
Module 4

Comprendre les données non-structurées avec les API Machine Learning de Google

  • Les API Machine Learning de Google
  • Cas d'utilisation courants du Machine Learning
  • Appeler des API de Machine Learning
  • Lab : Ajouter les capacités de Machine Learning à l'analyse Big Data
Module 5

Analyse de données en mode serverless avec BigQuery

  • Qu'est-ce que BigQuery ?
  • Requêtes et fonctions
  • Lab : Écrire des requêtes dans BigQuery
  • Charger des données dans BigQuery
  • Exporter des données à partir de BigQuery
  • Lab : Charger et exporter des données
  • Champs imbriqués et répétés
  • Interroger plusieurs tables
  • Lab : Requêtes complexes
  • Performances et tarification
Module 6

Pipelines de données d'autoscaling serverless avec Dataflow

  • Le modèle de programmation Beam
  • Pipelines de données dans Beam Python
  • Pipelines de données dans Beam Java
  • Lab : Écrire un pipeline Dataflow
  • Traitement évolutif du big data avec Beam
  • Lab : MapReduce dans Dataflow
  • Intégrer des données supplémentaires
  • Lab : Entrées secondaires
  • Gestion des données par flux
  • Architecture de référence GCP
Module 7

Bien démarrer avec le Machine Learning

  • Qu'est-ce que le Machine Learning (ML) ?
  • ML efficace : concepts et types
  • Ensembles de données de ML : généralisation
  • Lab : Explorer et créer des ensembles de données de ML
Module 8

Construction de modèles Machine Learning avec Tensorflow

  • Premiers pas avec TensorFlow
  • Lab : Utiliser tf.learn
  • Graphiques et boucles TensorFlow + atelier
  • Lab : Utiliser TensorFlow de bas niveau + arrêt prématuré
  • Surveiller l'entraînement ML
  • Lab : Graphiques d'entraînement TensorFlow
Module 9

Mise à l’échelle de modèles Machine Learning avec Cloud ML

  • Pourquoi utiliser Cloud ML ?
  • Créer le package d'un modèle TensorFlow
  • Entraînement de bout en bout
  • Lab : Exécuter un modèle de ML localement et sur le cloud
Module 10

Extraction de caractéristiques

  • Créer des fonctionnalités pertinentes
  • Transformer les entrées
  • Fonctionnalités synthétiques
  • Pré-traitement avec Cloud ML
  • Lab : Extraction de caractéristiques
Module 11

Architecture des pipelines d’analyse par flux

  • Défis du traitement des données par flux
  • Gestion de volumes de données variables
  • Gestion des données non triées/en retard
  • Lab : Concevoir un pipeline de flux de données
Module 12

Ingérer de volumes de variables

  • Qu'est-ce que Cloud Pub/Sub ?
  • Fonctionnement : Thèmes et abonnements
  • Lab : Simulateur
Module 13

Mettre en place des pipelines par flux

  • Défis du traitement par flux
  • Gestion des données en retard : filigranes, déclenchements et accumulation
  • Lab : Pipeline de traitement des données par flux pour le trafic en direct
Module 14

Analyse de flux de données et tableaux de bords

  • Analyses de flux de données : prendre des décisions à partir des données
  • Interroger les données par flux avec BigQuery
  • Qu'est-ce que Google Data Studio ?
  • Lab : Créer un tableau de bord en temps réel pour visualiser les données traitées
Module 15

Haut débit et faible latence avec Bigtable

  • Qu'est-ce que Cloud Spanner ?
  • Concevoir un schéma Bigtable
  • Ingestion dans Bigtable
  • Lab : Flux dans Bigtable

Formations suivantes

Google Cloud Fundamentals: Core Infrastructure (GCP100A)

1 jour

Google Cloud Fundamentals: Big Data et Machine Learning (GCP100B)

1 jour

Developing Applications with Google Cloud Platform (GCP200DEV)

2 jours

Nous contacter

Paris

48 Rue Jacques Dulud

92200 Neuilly-sur-Seine

+33 1 41 38 52 00

Lille

Bâtiment le Canal, 2 Rue Hegel

59160 Lille

+33 3 66 72 61 32

Strasbourg

Crystal Park, 1 Avenue de l'Europe

67300 Schiltigheim

+33 3 88 47 04 38

Luxembourg

2, rue Drosbach

L-3372 Leudelange, Luxembourg

+352 26 54 47 1

Bordeaux

c/o Mama Works, 51 quai Lawton

33300 Bordeaux

Nantes

Zero Newton, 3 Rue Albert Camus

44000 Nantes

+33 2 55 59 07 00

© SFEIR 2018