TypeFormation en classe
INSCRIVEZ-VOUS

Contactez-Nous

Les champs marqués d'une * sont obligatoires

 

cours de certification big data hadoop

Cours de formation Big Data Hadoop et formation

APERÇU

Public et prérequis

Plan de cours

Horaire et frais

certificat

Présentation du cours de certification Big Data Hadoop

Il s'agit d'un cours de formation complet Hadoop Big Data conçu par des experts de l'industrie, en tenant compte des exigences professionnelles actuelles de l'industrie pour fournir un apprentissage approfondi sur les Big Data et les modules Hadoop. Il s'agit d'un cours de formation à la certification Big Data reconnu par l'industrie, qui combine les cours de formation en développement Hadoop, l'administrateur Hadoop, les tests Hadoop et les analyses. Ce Cloudera La formation Hadoop vous préparera à effacer la certification Big Data.

Objectifs

  • Maîtriser les bases de Hadoop 2.7 et YARN et écrire des applications en les utilisant
  • Configuration de pseudo-nœuds et de cluster multi-nœuds sur Amazon EC2
  • Maître HDFS, MapReduce, Ruche, Cochon, Oozie, Sqoop, Flume, Zookeeper, HBase
  • Apprenez Spark, Spark RDD, Graphx, MLlib écrit des applications Spark
  • Activités d'administration de Master Hadoop telles que la gestion, la surveillance, l'administration et le dépannage des clusters
  • Configuration d'outils ETL comme Pentaho / Talend pour travailler avec MapReduce, Hive, Pig, etc.
  • Compréhension détaillée de l'analyse Big Data
  • Applications de test Hadoop utilisant MR Unit et d'autres outils d'automatisation.
  • Travailler avec les formats de données Avro
  • Pratiquez des projets concrets en utilisant Hadoop et Apache Spark
  • Être équipé pour effacer la certification Big Data Hadoop.

Public visé

  • Programmeurs de développement et administrateurs système
  • Professionnels expérimentés, chefs de projet
  • Les développeurs de Big DataHadoop désireux d'apprendre d'autres secteurs comme les tests, les analyses, l'administration
  • Professionnels de l'ordinateur central, architectes et professionnels du test
  • Intelligence d'affaires, entreposage de données et professionnels de l'analytique
  • Les diplômés, les étudiants désireux d'apprendre la dernière technologie Big Data peuvent prendre cette formation en ligne Big Data Hadoop Certification

Pré-requis

  • Il n'y a pas de pré-requis pour suivre cette formation Big Data et maîtriser Hadoop. Mais les bases d'UNIX, SQL et Java seraient bonnes. A Intellipaat, nous fournissons un cours gratuit Unix et Java avec notre formation de certification Big Data pour parfaire les compétences requises afin que vous soyez bon sur votre chemin d'apprentissage Hadoop.

Durée du cours: 2 Days

Introduction au Big Data & Hadoop et à son écosystème, Map Reduce et HDFS

Qu'est-ce que le Big Data, où s'intègre Hadoop, Hadoop Distributed File System - Réplications, Taille de bloc, Namenode secondaire, Haute disponibilité, Comprendre YARN - ResourceManager, NodeManager, Différence entre 1.x et 2.x

Hadoop Installation et configuration

Architecture de cluster Hadoop 2.x, Fédération et haute disponibilité, Configuration d'un cluster de production type, Modes de cluster Hadoop, Commandes Shell Hadoop communes, Fichiers de configuration Hadoop 2.x, Cloudera Cluster de nœud unique

Deep Dive à Mapreduce

Fonctionnement de Mapreduce, Fonctionnement de Reducer, Fonctionnement du pilote, Combineurs, Partitionneurs, Formats d'entrée, Formats de sortie, Lecture aléatoire et Tri, Assemblages de bord de carte, Réduction des jointures latérales, MRUnit, Cache distribué

Exercices de laboratoire:

Travailler avec HDFS, écrire le programme WordCount, écrire le partitionneur personnalisé, Mapreduce avec le combinateur, joindre la carte, réduire les jointures latérales, tester l'unité Mapreduce, exécuter Mapreduce en mode LocalJobRunner

Résolution de problèmes graphiques

Qu'est-ce que le graphique, la représentation graphique, l'algorithme de recherche en profondeur, la représentation graphique de la réduction de carte, comment faire l'algorithme graphique, l'exemple de réduction de la carte graphique,

    Exercice 1: Exercice 2: Exercice 3:

Compréhension détaillée de Cochon

A. Introduction au porc

Comprendre Apache Pig, les fonctionnalités, les différentes utilisations et apprendre à interagir avec le cochon

B. Déploiement de Cochon pour l'analyse de données

La syntaxe de Pig Latin, les différentes définitions, le tri et le filtrage des données, les types de données, le déploiement de Pig for ETL, le chargement de données, la visualisation de schémas, les définitions de champs, les fonctions couramment utilisées.

C. Pig pour le traitement de données complexes

Divers types de données, y compris imbriqués et complexes, traitement de données avec Pig, itération de données groupées, exercice pratique

D. Exécution d'opérations multi-jeu de données

Regroupement de jeux de données, division de jeux de données, diverses méthodes de combinaison de jeux de données, opérations de définition, exercices pratiques

E. Extension de porc

Comprendre les fonctions définies par l'utilisateur, effectuer le traitement des données avec d'autres langages, importer et macros, utiliser le streaming et les fonctions UDF pour étendre Pig, exercices pratiques

F. Porc Jobs

Travailler avec de véritables ensembles de données impliquant Walmart et Electronic Arts comme étude de cas

Compréhension détaillée de Hive

A. Introduction à la ruche

Comprendre Hive, comparaison de base de données traditionnelle avec la comparaison Hive, Pig and Hive, stockage de données dans le schéma Hive and Hive, interaction Hive et différents cas d'utilisation de Hive

B. Hive pour l'analyse de données relationnelles

Comprendre HiveQL, la syntaxe de base, les différentes tables et bases de données, les types de données, la jonction des ensembles de données, diverses fonctions intégrées, le déploiement des requêtes Hive sur les scripts, shell et Hue.

C. Gestion des données avec Hive

Les différentes bases de données, création de bases de données, formats de données dans Hive, modélisation de données, tables gérées par Hive, tables autogérées, chargement de données, bases de données et tables changeantes, simplification de requête avec Views, stockage de requêtes, contrôle d'accès aux données avec Hive, Hive Metastore et Thrift server.

D. Optimisation de la ruche

Performances d'apprentissage de la requête, de l'indexation des données, du partitionnement et du stockage

E. Extension de la ruche

Déploiement de fonctions définies par l'utilisateur pour étendre Hive

F. Exercices pratiques - travailler avec des ensembles de données volumineux et effectuer des recherches approfondies

Déploiement de Hive pour d'énormes volumes de données et de grandes quantités de requêtes

G. UDF, optimisation des requêtes

Travailler intensivement avec les requêtes définies par l'utilisateur, apprendre à optimiser les requêtes, diverses méthodes pour effectuer l'optimisation des performances.

Impala

A. Introduction à Impala

Qu'est-ce que Impala?, Comment Impala diffère de la ruche et du cochon, Comment Impala diffère des bases de données relationnelles, des limitations et des directions futures, en utilisant le shell Impala

B. Choisir le meilleur (ruche, cochon, impala)

C. Modélisation et gestion des données avec Impala et Hive

Présentation du stockage de données, création de bases de données et de tables, chargement de données dans des tables, HCatalog, mise en cache de métadonnées Impala

D. Partitionnement de données

Partitionnement Aperçu, Partitioning dans Impala et Hive

(AVRO) Formats de données

Sélection d'un format de fichier, prise en charge d'outils pour les formats de fichiers, schémas Avro, utilisation de Avro avec Hive et Sqoop, Avro Schema Evolution, Compression

Introduction à l'architecture Hbase

Qu'est-ce que Hbase? Où est-ce que ça va? Qu'est-ce que NOSQL?

Apache Spark

A. Pourquoi étinceler? Travailler avec Spark et Hadoop Distributed File System

Qu'est-ce que Spark, Comparaison entre Spark et Hadoop, Composants de Spark

B. Composants d'étincelles, Algorithmes d'étincelles communs - Algorithmes itératifs, Analyse de graphes, Apprentissage automatique

Apache Spark - Introduction, Cohérence, Disponibilité, Partition, Étincelle de pile unifiée, Composants d'étincelles, Exemple d'échaudage, mahout, tempête, graphe

C. Exécution de Spark sur un cluster, écriture d'applications Spark à l'aide de Python, Java, Scala

Expliquer l'exemple de python, Montrer l'installation d'une étincelle, Expliquer le programme de pilote, Expliquer le contexte de l'étincelle avec l'exemple, Définir la variable faiblement typée, Combiner scala et java de manière transparente, Expliquer la concurrence et la distribution., Expliquer qu'est ce trait, Expliquer scheduler, Avantages de Spark, Exemple de Lamda using spark, Expliquer Mapreduce avec exemple

Configuration du cluster Hadoop et exécution de la fonction Réduire les travaux

Configuration du cluster multi-nœuds à l'aide d'Amazon ec2 - Création de la configuration du cluster de nœuds 4, Exécution de la fonction Réduire les travaux sur le cluster

Projet majeur - Mettre tout cela ensemble et relier les points

Mettre tout cela ensemble et relier des points, travailler avec de grands ensembles de données, étapes impliquées dans l'analyse de grandes données

Connectivité ETL avec l'écosystème Hadoop

Fonctionnement des outils ETL dans Big Data Industry, Connexion à HDFS depuis l'outil ETL et déplacement des données du système local vers HDFS, transfert de données du SGBD vers HDFS, utilisation de Hive avec l'outil ETL, création de mappe de travail dans l'outil ETL, ETL de bout en bout PoC montrant l'intégration de Big Data avec l'outil ETL.

Configuration du cluster

Présentation de la configuration et fichier de configuration important, paramètres et valeurs de configuration, paramètres HDFS paramètres MapReduce, configuration de l'environnement Hadoop, fichiers de configuration 'Include' et 'Exclude', Lab: MapReduce Performance Tuning

Administration et maintenance

Structures et fichiers du répertoire Namenode / Datanode, image du système de fichiers et journal d'édition, procédure de point de contrôle, procédure d'échec et de récupération de Namenode, mode sans échec, sauvegarde des métadonnées et des données, problèmes et solutions possibles, ajout et suppression de nœuds Récupération du système de fichiers MapReduce

Surveillance et dépannage

Meilleures pratiques de surveillance d'un cluster, Utilisation de journaux et de traces de pile pour la surveillance et le dépannage, Utilisation d'outils open-source pour surveiller le cluster

Job Scheduler: Map réduit le flux de soumission des tâches

Comment planifier des tâches sur le même cluster, FIFO Schedule, Fair Scheduler et sa configuration

La configuration du cluster multi-nœuds et l'exécution de la map réduisent les travaux sur Amazon Ec2

Configuration du cluster multi-nœuds à l'aide d'Amazon ec2 - Création de la configuration du cluster de nœuds 4, Exécution de la fonction Réduire les travaux sur le cluster

ZOOKEEPER

Introduction ZOOKEEPER, cas d'utilisation ZOOKEEPER, Services ZOOKEEPER, Modèle de données ZOOKEEPER, Znodes et ses types, opérations Znodes, Znodes montres, Znodes lit et écrit, Garanties de cohérence, Gestion de cluster, Election Leader, Verrouillage exclusif distribué, Points importants

Advance Oozie

Pourquoi Oozie?, Installation d'Oozie, Exemple d'exécution, Moteur Oozie-workflow, Exemple d'action M / R, Exemple de compte Word, Application Workflow, Soumission de workflow, Transitions d'état de workflow, Oozie, Oozie security, Pourquoi Oozie security? , Multi tenancy and scalability, Ligne de temps du travail Oozie, Coordinateur, Bundle, Couches d'abstraction, Architecture, Cas d'utilisation 1: déclencheurs temporels, Cas d'utilisation 2: déclencheurs de données et de temps, Cas d'utilisation 3: fenêtre roulante

Advance Flume

Vue d'ensemble d'Apache Flume, Sources de données physiquement distribuées, Structure changeante des données, Regard plus étroit, Anatomie de Flume, Concepts de base, Événement, Clients, Agents, Source, Canaux, Éviers, Intercepteurs, Sélecteur de canaux, Processeur de puits, Ingest données, Pipeline d'agents , Échange de données transactionnel, Routage et réplication, Pourquoi les canaux?, Cas d'utilisation - Agrégation de journaux, Ajout d'un agent de canal, Gestion d'une batterie de serveurs, Volume de données par agent, Exemple décrivant un déploiement de canal unique

Advance HUE

Introduction HUE, écosystème HUE, Qu'est-ce que HUE ?, HUE vue du monde réel, avantages de HUE, comment télécharger des données dans le navigateur de fichiers ?, Voir le contenu, Intégration des utilisateurs, l'intégration de HDFS, Fondamentaux de HUE FRONTEND

Advance Impala

Vue d'ensemble d'IMPALA: Buts, Vue d'utilisateur d'Impala: Vue d'ensemble, Vue d'utilisateur d'Impala: SQL, Vue d'utilisateur d'Impala: Apache HBase, architecture d'Impala, magasin d'état d'Impala, service de catalogue Impala, phases d'exécution de requête, comparant Impala à ruche

Test d'application Hadoop

Pourquoi les tests sont importants: tests unitaires, tests d'intégration, tests de performance, diagnostics, tests QA nocturnes, tests Benchmark et de bout en bout, tests fonctionnels, tests de certification des versions, tests de sécurité, tests d'évolutivité, mise en service et désarmement , Lancement des tests

Rôles et responsabilités de Hadoop Testing Professional

Compréhension de l'exigence, préparation de l'estimation de test, cas de test, données de test, création de banc d'essai, exécution de test, rapport de défaut, retest de défaut, livraison de rapport d'état quotidien, test d'ETL à chaque étape (HDFS, HIVE, HBASE) chargement de l'entrée (logs / fichiers / enregistrements etc) en utilisant sqoop / flume qui inclut mais non limité à la vérification des données, Reconciliation, User Authorization et Authentication testing (Groupes, Utilisateurs, Privilèges etc), Signaler les défauts à l'équipe de développement et conduire à la fermeture, consolider tous les défauts et créer des rapports de défauts, la validation des nouvelles fonctionnalités et des problèmes dans Core Hadoop.

Cadre appelé Unité MR pour les tests de programmes Map-Reduce

Signaler les défauts à l'équipe de développement ou au gestionnaire et les conduire à la fermeture, consolider tous les défauts et créer des rapports de défauts, responsable de la création d'un cadre de test appelé MR Unit pour tester les programmes Map-Reduce.

Tests unitaires

Tests d'automatisation à l'aide de OOZIE, Validation des données à l'aide de l'outil Surge de requête.

Test d'exécution

Plan de test pour la mise à niveau HDFS, l'automatisation des tests et le résultat

Stratégie de plan de test et rédaction de scénarios de test pour tester l'application Hadoop

Comment tester l'installation et la configuration

Soutien à l'emploi et à la certification

Trucs et astuces pour la certification Cloudera et préparation d'une entrevue simulée, astuces et techniques de développement pratique

S'il vous plaît écrivez-nous à info@itstechschool.com & contactez-nous au + 91-9870480053 pour le prix du cours et le coût de la certification, le calendrier et l'emplacement

Envoyez-nous une requête

Ce cours de formation est conçu pour vous aider à éliminer les deux Certification Cloudera Spark et Hadoop Developer (CCA175) examen et Cloudera Certified Administrator pour Apache Hadoop (CCAH) examen. L'ensemble du contenu du cours de formation est en ligne avec ces deux programmes de certification et vous aide à effacer ces examens de certification avec facilité et obtenir les meilleurs emplois dans les meilleurs MNC.

Dans le cadre de cette formation, vous travaillerez sur des projets en temps réel et des missions qui ont des implications immenses dans le scénario de l'industrie réelle, vous aidant ainsi à accélérer votre carrière sans effort.

À la fin de ce programme de formation, il y aura des quiz qui reflètent parfaitement le type de questions posées dans les examens de certification respectifs et vous aide à obtenir de meilleures notes à l'examen de certification.

Certificat d'achèvement de cours ITS seront attribués à la fin des travaux du projet (sur expertise) et après avoir obtenu au moins 60% dans le quiz. La certification Intellipaat est bien reconnue dans les plus grands opérateurs 80 + comme Ericsson, Cisco, Cognizant, Sony, Mu Sigma, Saint-Gobain, Standard Chartered, TCS, Genpact, Hexaware, etc.

Pour plus d'informations avec bonté Contactez-Nous.


Avis