• Accueil /
  • Data Engineer + AZ 900 Azure Fundamentals

Data Engineer + AZ 900 Azure Fundamentals

Le Data Engineer gère l'architecture de la donnée et met en production les modèles conçus par le Data Scientist. A l’issue de cette formation, vous maitriserez le CI/CD ainsi que la programmation avancée et serez en mesure de gérer les pipelines data, de l’extraction de données à la mise en production de modèle. L’automatisation et le déploiement auront été au cœur de votre formation grâce à l’approfondissement des concepts et outils utiles (APIs, Airflow, Docker...). Vous disposerez également d’un voucher pour passer la certification officielle AZ 900 Azure Fundamentals.

5 890 € HT

Modalités de la formation Data Engineer + AZ -900 Azure Fundamentals

E-LEARNING + DISTANCIEL
Durée

400 heures

Tarifs

5 890 € HT/pers

Tarif Intra sur demande

Public visé

Personnes ayant une appétence pour la Data souhaitant se reconvertir ou faire évoluer ses compétences.

Prérequis​
  • Avoir un niveau Bac+3 en mathématiques ou un niveau Bac+5 en sciences.
  • Un background en ingénierie ou informatique est conseillé.
Objectifs pédagogiques​​

À l’issue de la formation, l’apprenant sera en mesure de :

  • Maîtriser les langages de données comme SQL, et les outils de gestion de bases de données.
  • Manier les outils de gestion et stockage de données et d’ETL (Extract, Transform, Load).
  • Savoir s’adapter rapidement une technologie nouvelle.
  • Maîtriser des solutions d’analyse basées sur Hadoop, comme Hbase et Hive.
  • Mener un projet concret de Data Engineering permettant d’attester des compétences acquises.
  • D’obtenir la certification AZ 900 Azure Fundamentals
Méthodes pédagogiques
  • Pendant 20 % du temps, vous serez accompagné par votre professeur et votre cohorte pour des sessions de visioconférence. Vous aurez ainsi des points collectifs (masterclass live, cours de soutien) et des points plus individuels avec votre mentor projet.
  • Pour les 85 % restants, vous travaillez sur notre plateforme avec le soutien d’une cellule support disponible par messagerie instantanée et d’un forum disponible à tout moment.
Modalités d’évaluation
  • Test d’entrée et de sortie pour valider les compétences acquises.
  • L’évaluation est réalisée tout au long de la formation grâce à des use cases métiers permettant de vous mettre en situation.
  • A l’issue de la formation, vous devrez soutenir votre projet devant un jury de 3 personnes qui validera vos compétences.
  • Certification Académique : Les Mines ParisTech
  • Certification étatique : validation du bloc de compétences RNCP niveau 7 « Déployer une solution d’intelligence Artificielle » du titre 3612
Délais d’accès

10 jours ouvrés minimum entre la demande du bénéficiaire et le début de la formation .

Accessibilité

Formation accessible aux personnes en situation de handicap.

Programme de la formation Data Engineer + AZ -900 Azure Fundamentals

I/ Introduction à Python

Système Linux & Script Bash 

  • Présentation des Systèmes Linux
  • Prise en main et utilisation d’un terminal
  • Mise en place de scripts Bash

Python & Python orienté objet 

  • Maitrise des variables et des types
  • Présentation des divers opérateurs et de leurs applications
  • Introduction au concept de boucles et aux structures de contrôle
  • Définition d’une fonction sur Python et de leurs applications Initiation aux classes et modules  o Préparation de la mise en place, du paramétrage et de l’enchainement de Décorateurs  o Différenciation et implémentation du multithreading et du multiprocessing sur Python  o Application d’une fonction asynchrone sur Python
  • Introduction aux annotations et utilisation de la bibliothèque MyPy

II/ Base de données

SQL 

  • Introduction aux bases de données relationnelles
  • Présentation de SQL Alchemy et applications
  • Initiation aux bases du langage SQL
  • Approndissement de SQL et de ses applications

MongoDB 

  • Introduction aux bases de données NoSQL (base de données orientée document, colonne, graphe)  o Présentation de MongoDB
  • Familiarisation avec la syntaxe des requêtes MongoDB

Elasticsearch 

  • Description d’un moteur de recherche
  • Présentation d’un index et mode d’emploi
  • Mise au point d’un Mapping
  • Découverte des différentes opérations
  • Prétraitement des données avec Ingest Node
  • Extraction des données avec les Text Analyzer

Neo4j 

  • Introduction aux bases de données orientées graphe
  • Mise en place d’un premier graphe
  • Initiation au langage de requête Cypher
  • Chargement de données dans Neo4J
  • Utilisation d’un client Python pour Neo4J

III/ Data Science

Statistiques 

  • Exploration des variables numériques
  • Exploration des variables catégorielles
  • Étude des relations entre les variables

Machine Learning 

  • Prétraitement de données.
  • Sélection et optimisation d’un algorithme de Machine Learning o Définition et application d’un algorithme de régression
  • Définition et application d’un algorithme de classification
  • Développement d’algorithmes de clustering
  • Introduction au PCA

DataViz avec Matplotlib 

  • Présentation des différents types de graphes
    ▪ Graphiques en barres (Barplots)
    ▪ Nuages de points (Scatter plots)
    ▪ Histogrammes
    ▪ Boîtes à Moustaches (Box Plots)
    ▪ Camemberts (Pie Plots)

IV/ Big Data Volume

Hadoop & Hive 

  • Fonctionnement de Hadoop
  • Installation et configuration de Hadoop
  • Traitement et stockage des données avec HDFS
  • Présentation de MapReduce
  • Utilisation de Hadoop Streaming pour exécuter un fichier Map/Reduce o Mise en place d’entrepôts de données
  • Présentation du fonctionnement de Hive

Hbase 

  • Présentation des bases de données orientée colonne
  • Association de Hadoop (HDFS) et de Hbase
  • Requêtes de données
  • Modification des données par Python et happybase

Spark 

  • Distinction entre Spark et Hadoop
  • Introduction au calclul distribué avec Spark
  • Présentation des APIs RDD et Dataframe de Spark
  • Pipeline de processing de donnée distribuée avec pyspark  o Machine Learning distribué avec Spark MLLib

V/ CI/CD

Git 

  • Introduction au système de gestion de version Git
  • Initialisation d’un dépôt Git
  • Présentation et approfondissement des concepts git :
    ▪ Branches
    ▪ Tag
    ▪ Merge

Github 

  • Découverte de la plateforme Github pour le travail collaboratif sur Git
  • Présentation des fonctionnalités majeures de GitHub :
    ▪ Fork
    ▪ Pull Request
    ▪ Issues
  • Partager ses modifications avec pull et push
  • Participation à l’amélioration de projet public (open source)
  • Présentation des principaux workflows git

Quality Assurance  

  • Mise en place de tests unitaires avec Pytest
  • Introduction aux Tests d’intégration et leurs fonctions
  • Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code

VI/ Big Data Vitesse

Architecture de Streaming  

  • Gestion de flux de données en temps réel
  • Conception d’une architecture Big Data hybride (batch et temps réel)
  • Mise en place d’une architecture Lambda

Kafka  

  • Présentation de la plateforme de streaming distribuée Kafka
    ▪ Architecture
    ▪ Avantages
  • Gestion des paramétrages de Producers
    ▪ Clef de partitionnement
  • Maitrise des paramétrages de Consumers
    ▪ Consumer group

Spark Streaming  

  • Prise en main de Spark Streaming pour le traitement de données temps réel  o Présentation du minibatch streaming nécessaire pour le fonctionnement de Spark Streaming

VII/ Automatisation et Déploiement

APIs 

  • Introduction aux APIs et découverte des architectures micro-services
  • Présentation des différentes méthodes HTTP et de leurs fonctions
  • Utilisation des librairies FastAPI et Flask pour développer des API RESTful
  • Documentation d’une API avec la spécification OpenAPI
  • Gestion des erreurs et des performances d’une API

APIs  

  • Découverte des concepts d’Airflow :
    ▪ Présentation des principes de l’orchestration et utilité
    ▪ Graphe orienté acycliques ou DAG (Directed Acyclic Graphs)
    ▪ Opérateurs
  • Gestion de tâches par le biais d’Operators spécifiques
  • Monitoring des DAGs via l’interface graphique d’Airflow

Docker 

  • Présentation de la conteneurisation et de son utilité par rapport à la virtualisation o Initiation au fonctionnement de Docker
  • Manipulation des images et des conteneurs
  • Communication avec les conteneurs
  • Persistance des données grâce aux volumes
  • Création d’une image Docker via un Dockerfile
  • Partage des images sur le Dockerhub
  • Utilisation de dockercompose

Kubernetes 

  • Déployer et gérer des conteneurs
Demande d'information
Demande d'information