Data Engineer + AZ 900 Azure Fundamentals

Le Data Engineer gère l'architecture de la donnée et met en production les modèles conçus par le Data Scientist. A l’issue de cette formation, vous maitriserez le CI/CD ainsi que la programmation avancée et serez en mesure de gérer les pipelines data, de l’extraction de données à la mise en production de modèle. L’automatisation et le déploiement auront été au cœur de votre formation grâce à l’approfondissement des concepts et outils utiles (APIs, Airflow, Docker...). Vous disposerez également d’un voucher pour passer la certification officielle AZ 900 Azure Fundamentals.

5 890 € HT

Demander un devis

Modalités de la formation Data Engineer + AZ -900 Azure Fundamentals

E-LEARNING + DISTANCIEL

Durée

400 heures

Tarifs

5 890 € HT/pers

Tarif Intra sur demande

Public visé

Personnes ayant une appétence pour la Data souhaitant se reconvertir ou faire évoluer ses compétences.

Prérequis

Avoir un niveau Bac+3 en mathématiques ou un niveau Bac+5 en sciences.
Un background en ingénierie ou informatique est conseillé.

Objectifs pédagogiques

À l’issue de la formation, l’apprenant sera en mesure de :

Maîtriser les langages de données comme SQL, et les outils de gestion de bases de données.
Manier les outils de gestion et stockage de données et d’ETL (Extract, Transform, Load).
Savoir s’adapter rapidement une technologie nouvelle.
Maîtriser des solutions d’analyse basées sur Hadoop, comme Hbase et Hive.
Mener un projet concret de Data Engineering permettant d’attester des compétences acquises.
D’obtenir la certification AZ 900 Azure Fundamentals

Méthodes pédagogiques

Pendant 20 % du temps, vous serez accompagné par votre professeur et votre cohorte pour des sessions de visioconférence. Vous aurez ainsi des points collectifs (masterclass live, cours de soutien) et des points plus individuels avec votre mentor projet.
Pour les 85 % restants, vous travaillez sur notre plateforme avec le soutien d’une cellule support disponible par messagerie instantanée et d’un forum disponible à tout moment.

Modalités d’évaluation

Test d’entrée et de sortie pour valider les compétences acquises.
L’évaluation est réalisée tout au long de la formation grâce à des use cases métiers permettant de vous mettre en situation.
A l’issue de la formation, vous devrez soutenir votre projet devant un jury de 3 personnes qui validera vos compétences.
Certification Académique : Les Mines ParisTech
Certification étatique : validation du bloc de compétences RNCP niveau 7 « Déployer une solution d’intelligence Artificielle » du titre 3612

Délais d’accès

10 jours ouvrés minimum entre la demande du bénéficiaire et le début de la formation .

Accessibilité

Formation accessible aux personnes en situation de handicap.

Demander un devis

Programme de la formation Data Engineer + AZ -900 Azure Fundamentals

I/ Introduction à Python

Système Linux & Script Bash

Présentation des Systèmes Linux
Prise en main et utilisation d’un terminal
Mise en place de scripts Bash

Python & Python orienté objet

Maitrise des variables et des types
Présentation des divers opérateurs et de leurs applications
Introduction au concept de boucles et aux structures de contrôle
Définition d’une fonction sur Python et de leurs applications Initiation aux classes et modules o Préparation de la mise en place, du paramétrage et de l’enchainement de Décorateurs o Différenciation et implémentation du multithreading et du multiprocessing sur Python o Application d’une fonction asynchrone sur Python
Introduction aux annotations et utilisation de la bibliothèque MyPy

II/ Base de données

SQL

Introduction aux bases de données relationnelles
Présentation de SQL Alchemy et applications
Initiation aux bases du langage SQL
Approndissement de SQL et de ses applications

MongoDB

Introduction aux bases de données NoSQL (base de données orientée document, colonne, graphe) o Présentation de MongoDB
Familiarisation avec la syntaxe des requêtes MongoDB

Elasticsearch

Description d’un moteur de recherche
Présentation d’un index et mode d’emploi
Mise au point d’un Mapping
Découverte des différentes opérations
Prétraitement des données avec Ingest Node
Extraction des données avec les Text Analyzer

Neo4j

Introduction aux bases de données orientées graphe
Mise en place d’un premier graphe
Initiation au langage de requête Cypher
Chargement de données dans Neo4J
Utilisation d’un client Python pour Neo4J

III/ Data Science

Statistiques

Exploration des variables numériques
Exploration des variables catégorielles
Étude des relations entre les variables

Machine Learning

Prétraitement de données.
Sélection et optimisation d’un algorithme de Machine Learning o Définition et application d’un algorithme de régression
Définition et application d’un algorithme de classification
Développement d’algorithmes de clustering
Introduction au PCA

DataViz avec Matplotlib

Présentation des différents types de graphes
▪ Graphiques en barres (Barplots)
▪ Nuages de points (Scatter plots)
▪ Histogrammes
▪ Boîtes à Moustaches (Box Plots)
▪ Camemberts (Pie Plots)

IV/ Big Data Volume

Hadoop & Hive

Fonctionnement de Hadoop
Installation et configuration de Hadoop
Traitement et stockage des données avec HDFS
Présentation de MapReduce
Utilisation de Hadoop Streaming pour exécuter un fichier Map/Reduce o Mise en place d’entrepôts de données
Présentation du fonctionnement de Hive

Hbase

Présentation des bases de données orientée colonne
Association de Hadoop (HDFS) et de Hbase
Requêtes de données
Modification des données par Python et happybase

Spark

Distinction entre Spark et Hadoop
Introduction au calclul distribué avec Spark
Présentation des APIs RDD et Dataframe de Spark
Pipeline de processing de donnée distribuée avec pyspark o Machine Learning distribué avec Spark MLLib

V/ CI/CD

Git

Introduction au système de gestion de version Git
Initialisation d’un dépôt Git
Présentation et approfondissement des concepts git :
▪ Branches
▪ Tag
▪ Merge

Github

Découverte de la plateforme Github pour le travail collaboratif sur Git
Présentation des fonctionnalités majeures de GitHub :
▪ Fork
▪ Pull Request
▪ Issues
Partager ses modifications avec pull et push
Participation à l’amélioration de projet public (open source)
Présentation des principaux workflows git

Quality Assurance

Mise en place de tests unitaires avec Pytest
Introduction aux Tests d’intégration et leurs fonctions
Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code

VI/ Big Data Vitesse

Architecture de Streaming

Gestion de flux de données en temps réel
Conception d’une architecture Big Data hybride (batch et temps réel)
Mise en place d’une architecture Lambda

Kafka

Présentation de la plateforme de streaming distribuée Kafka
▪ Architecture
▪ Avantages
Gestion des paramétrages de Producers
▪ Clef de partitionnement
Maitrise des paramétrages de Consumers
▪ Consumer group

Spark Streaming

Prise en main de Spark Streaming pour le traitement de données temps réel o Présentation du minibatch streaming nécessaire pour le fonctionnement de Spark Streaming

VII/ Automatisation et Déploiement

APIs

Introduction aux APIs et découverte des architectures micro-services
Présentation des différentes méthodes HTTP et de leurs fonctions
Utilisation des librairies FastAPI et Flask pour développer des API RESTful
Documentation d’une API avec la spécification OpenAPI
Gestion des erreurs et des performances d’une API

APIs

Découverte des concepts d’Airflow :
▪ Présentation des principes de l’orchestration et utilité
▪ Graphe orienté acycliques ou DAG (Directed Acyclic Graphs)
▪ Opérateurs
Gestion de tâches par le biais d’Operators spécifiques
Monitoring des DAGs via l’interface graphique d’Airflow

Docker

Présentation de la conteneurisation et de son utilité par rapport à la virtualisation o Initiation au fonctionnement de Docker
Manipulation des images et des conteneurs
Communication avec les conteneurs
Persistance des données grâce aux volumes
Création d’une image Docker via un Dockerfile
Partage des images sur le Dockerhub
Utilisation de dockercompose

Kubernetes