Big Data - Gestion et traitement des données massives - Avancé
Durée
Durée calendrier
3 semaines
Qu'est-ce que c'est?
Description
Le monde de Hadoop et de Big Data peut être intimidant. Des centaines de technologies avec des noms cryptiques forment l’écosystème Hadoop. Avec ce cours, les participants comprendront non seulement ce que sont ces systèmes et comment ils vont ensemble, mais à les utiliser pour résoudre de vrais problèmes d’affaires. Voici quelques éléments de contenu traités dans la formation :
- Comprendre comment les clusters hadoop sont gérés par YARN, Tez, Mesos, Zookeeper, Zeppelin, Hue et Oozie.
- Choisir une technologie de stockage des données adaptée à l’application.
- Stocker et analyser des données volumineuses avec Sqoop, Hive, MySQl, HBase, Cassandra, MongoDB, Drill, Phoenix et Presto.
- Gérer et analyser des données en streaming en temps réel avec Kafka, Flume, Spark Streaming, Flink et Storm.
- Intégrer ElasticSearch, LogStash et Kibana sur l’écosystème Hadoop et créer des pipelines de données réelles pour des applications Big Data.
Clientèle cible
Analystes et administrateurs de bases de données, analystes et consultants en informatique, programmeurs et développeurs, ingénieurs informaticiens, techniciens de réseau informatique, ainsi que pour tout personne qui a des connaissances en informatique (Algorithmique, base de données).
Préalables
Prérequis : Avoir suivi la formation Big Data - Gestion massive des données - de base
Formule d'enseignement
En ligne
Aucune date annoncée

Formation aussi offerte en entreprise
Nous pouvons adapter cette formation au contexte et aux réalités de votre organisation pour vous l’offrir en groupe privé.
Comment cette formation est-elle reconnue?
Une attestation de participation est remise aux personnes ayant assisté à 75 % des heures de formation.
Que vais-je apprendre?
Contenu
À l’issue du cours, les participants seront en mesure d’effectuer les tâches suivantes :
• Découvrir comment Apache Spark fonctionne sur un cluster.
• Configurer des flux de données avec Spark Streaming et les transformer. PLAN DE COURS Page 2 sur 2
• Connecter Spark Streaming à des sources de données hautement évolutives, notamment Kafka, Nifi, Flume et Kinesis.
• Former des modèles d’apprentissage machine en temps réel avec des données continues, et les utiliser pour faire des prédictions qui s’améliorent avec le temps.
• Empaqueter, déployer et exécuter le code Spark Streaming autonome vers un cluster Hadoop réel.
• Analyser et visualiser des données provenant des médias sociaux (Facebook, Twitter, etc.) en temps réel, dans un environnement Hadoop.
• Ingester de flux de données avec LogStash, Apache Hive et Apache Pig vers ElasticSearch.
• Visualiser des données à l’aide de Kibana et créer des tableaux de bord en temps réel.
Qui va m'accompagner?
Qui offre cette formation?
Pour plus d'informations
Vous ne trouvez pas le bouton pour vous inscrire ? Il n'y a pas de période d'inscription active pour ce cours ? Inscrivez-vous à notre liste d'attente pour être les premiers informés dès que l'inscription sera possible, ou visitez la section Services aux entreprises sur notre site web de la formation continue du Cégep de Sainte-Foy pour connaitre l'ensemble de notre offre !
Inscrivez-vous à notre infolettre pour être informé de nos différentes offres de formation.
Vous avez des questions ou besoin de plus d'informations?
Nous sommes là pour vous aider à trouver la formation qui vous convient.
Formation continue et services aux entreprises
Cégep de Sainte-Foy
sae@csfoy.ca