Big Data - Gestion et traitement des données massives - Avancé

Durée

30 heures

Durée calendrier

3 semaines

Qu'est-ce que c'est?

Description

Le monde de Hadoop et de Big Data peut être intimidant. Des centaines de technologies avec des noms cryptiques forment l’écosystème Hadoop. Avec ce cours, les participants comprendront non seulement ce que sont ces systèmes et comment ils vont ensemble, mais à les utiliser pour résoudre de vrais problèmes d’affaires. Voici quelques éléments de contenu traités dans la formation :

  • Comprendre comment les clusters hadoop sont gérés par YARN, Tez, Mesos, Zookeeper, Zeppelin, Hue et Oozie.
  • Choisir une technologie de stockage des données adaptée à l’application.
  • Stocker et analyser des données volumineuses avec Sqoop, Hive, MySQl, HBase, Cassandra, MongoDB, Drill, Phoenix et Presto.
  • Gérer et analyser des données en streaming en temps réel avec Kafka, Flume, Spark Streaming, Flink et Storm.
  • Intégrer ElasticSearch, LogStash et Kibana sur l’écosystème Hadoop et créer des pipelines de données réelles pour des applications Big Data.

Clientèle cible

Analystes et administrateurs de bases de données, analystes et consultants en informatique, programmeurs et développeurs, ingénieurs informaticiens, techniciens de réseau informatique, ainsi que pour tout personne qui a des connaissances en informatique (Algorithmique, base de données).

Préalables

Prérequis : Avoir suivi la formation Big Data - Gestion massive des données - de base

Formule d'enseignement

Comment cette formation est-elle reconnue?

Une attestation de participation est remise aux personnes ayant assisté à 75 % des heures de formation.

Que vais-je apprendre?

Contenu

À l’issue du cours, les participants seront en mesure d’effectuer les tâches suivantes :

• Découvrir comment Apache Spark fonctionne sur un cluster.
• Configurer des flux de données avec Spark Streaming et les transformer. PLAN DE COURS Page 2 sur 2
• Connecter Spark Streaming à des sources de données hautement évolutives, notamment Kafka, Nifi, Flume et Kinesis.
• Former des modèles d’apprentissage machine en temps réel avec des données continues, et les utiliser pour faire des prédictions qui s’améliorent avec le temps.
• Empaqueter, déployer et exécuter le code Spark Streaming autonome vers un cluster Hadoop réel.
• Analyser et visualiser des données provenant des médias sociaux (Facebook, Twitter, etc.) en temps réel, dans un environnement Hadoop.
• Ingester de flux de données avec LogStash, Apache Hive et Apache Pig vers ElasticSearch.
• Visualiser des données à l’aide de Kibana et créer des tableaux de bord en temps réel.

Formation pouvant être adaptée à vos besoins

Nous pouvons adapter cette formation aux réalités et aux besoins de votre organisation.

Pour plus d'informations

Qui va m'accompagner?

Qui offre cette formation?