I/ Text Mining
Les fondamentaux du Text Mining
- Techniques de manipulation et prétraitement de données textes.
- Règles d’expressions régulières.
- Extraire des indicateurs visuels sur des données de textes.
- Représentation BoW ou TF-IDF pour la représentation vectorielle d’un texte.
- Utiliser un modèle de Machine Learning sur des données de textes.
POS Tagging
- Introduction à la problématique de POS Tagging.
- Implémenter un algorithme Champs aléatoires conditionnels pour résoudre la problématique.
- Améliorer les modèles de Machine Learning en ajoutant la dimension grammaticale.
Text Summarization – Approche extractive
- Maîtriser une approche extractive pour le résumé de texte.
- Mesurer l’importance d’un mot ou d’une phrase avec une approche TF-IDF.
- Comparer les performances avec la métrique ROUGE.
II/ Word Embedding et application sur la Text Similarity
Les fondamentaux du Word Embedding
- Utiliser un réseau de neurones sur des données de textes.
- Obtenir un premier word embedding naïf à partir d’un problème supervisé.
- Fonctionnement et implémentation d’un word2vec sur Keras.
- Notion de distance dans l’espace vectoriel des mots.
- Charger ou entraîner un word embedding avec la librairie Gensim.
- Traduction du français vers l’anglais à partir du word embedding.
Text Similarity
- Qu’est-ce que la Text Similarity ?
- Introduction au package Spacy sur des corpus en français.
- L’indice de Jaccard.
- Approches à base de word embedding et clustering.
- Comparaison entre la similarité cosinus et la distance euclidienne.
- Smooth Inverse Frequency.
- Latent Dirichlet Allocation.
- Variational Auto Encoder (VAE).
- Siamese Manhattan LSTM.
III/ Les réseaux de neurones récurrents
Réseau de neurones récurrents avec TensorFlow
- Comment fonctionnent les réseaux de neurones récurrents : RNN simple, LSTM et GRU.
- Écrire comme Shakespeare à partir d’un réseau de neurones.
- Prédire le sentiment d’un message à partir d’un réseau de neurones récurrent.
- Traiter un problème de reconnaissance d’entité de nom.
- Prédire la légende d’une image en combinant un CNN et un RNN.
Mécanisme d’attention dans les réseaux de neurones récurrents
- Comment fonctionnent les modèles Seq2Seq.
- Implémentation d’un modèle Seq2seq pour traduire du français à l’anglais.
- Notion d’attention pour mieux comprendre la décision d’un modèle.
- Prédire la légende d’une image avec un Seq2seq et des vecteurs d’attention.
IV/ Transformers
Les fondamentaux des Transformers sur TensorFlow
- Notion d’attention dans les Transformers.
- Notion de tête d’attention dans les Transformers.
- Codage de position et embedding.
- Fonctionnement et implémentation de l’encodeur et du décodeur sur TensorFlow.
- Traduction de texte à partir d’un Transformer.
- Rapprochement avec le modèle de BERT.
Hugging Face
- Charger et utiliser des modèles déjà entraînés à partir de Hugging Face.
- Transfer Learning avec Hugging Face.