类型课堂培训
注册

即将开始的培训

星期三 21
周六 24
大数据hadoop认证课程

大数据Hadoop认证课程和培训

概述

受众群体和先决条件

课程大纲

附表和费用

证书

大数据Hadoop认证课程概述

这是一个全面的Hadoop大数据培训课程,由行业专家根据当前行业工作要求设计,提供有关大数据和Hadoop模块的深入学习。 这是行业认可的大数据认证培训课程,它结合了Hadoop开发人员,Hadoop管理员,Hadoop测试和分析的培训课程。 这个 Cloudera的 Hadoop培训将为您准备清除大数据认证。

目标

  • 掌握Hadoop 2.7和YARN的基础知识,并使用它们编写应用程序
  • 在Amazon EC2上设置伪节点和多节点群集
  • Master HDFS,MapReduce,Hive,Pig,Oozie,Sqoop,Flume,Zookeeper,HBase
  • 学Spark,Spark RDD,Graphx,MLlib编写Spark应用程序
  • 掌握Hadoop管理活动,如集群管理,监控,管理和故障排除
  • 配置像Pentaho / Talend这样的ETL工具可以与MapReduce,Hive,Pig等一起使用
  • 详细了解大数据分析
  • 使用MR单元和其他自动化工具的Hadoop测试应用程序。
  • 使用Avro数据格式
  • 使用Hadoop和Apache Spark练习现实生活中的项目
  • 配备清除大数据Hadoop认证。

目标受众

  • 编程开发人员和系统管理员
  • 经验丰富的专业人士,项目经理
  • Big DataHadoop开发人员渴望学习测试,分析,管理等其他垂直行业
  • 大型机专业人员,建筑师和测试专业人​​员
  • 商业智能,数据仓库和分析专业人员
  • 毕业生,渴望学习最新大数据技术的本科生可以参加此大数据Hadoop认证在线培训

先决条件

  • 采取这种大数据培训并掌握Hadoop没有先决条件。 但UNIX,SQL和Java的基础知识将会很好。在Intellipaat中,我们提供免费的unix和Java课程以及我们的大数据认证培训,以刷新所需的技能,以便您对Hadoop学习路径感到满意。

Course Outline Duration: 2 Days

大数据和Hadoop及其生态系统,Map Reduce和HDFS简介

什么是大数据,Hadoop在哪里适合,Hadoop分布式文件系统 - 复制,块大小,备用Namenode,高可用性,了解YARN - ResourceManager,NodeManager,1.x和2.x之间的区别

Hadoop安装和设置

Hadoop 2.x群集体系结构,联合和高可用性,典型生产群集设置,Hadoop群集模式,常见Hadoop Shell命令,Hadoop 2.x配置文件,Cloudera单节点群集

Mapreduce深度潜水

Mapreduce如何工作,Reducer如何工作,驱动程序如何工作,组合器,分区,输入格式,输出格式,随机排序,地图边连接,减少边连接,MRUnit,分布式缓存

实验练习:

使用HDFS,编写WordCount程序,编写自定义分区程序,使用组合器Mapreduce,地图边连接,减少边连接,单元测试Mapreduce,以LocalJobRunner模式运行Mapreduce

图解问题解决

什么是图形,图形表示,宽度优先搜索算法,地图缩减的图形表示,如何做图形算法,图形地图缩减的示例,

    锻炼1:锻炼2:锻炼3:

详细了解猪

A.猪导论

了解Apache Pig,功能,各种用途和学习与Pig交互

B.部署猪进行数据分析

Pig Latin的语法,各种定义,数据排序和筛选,数据类型,部署Pig for ETL,数据加载,模式查看,字段定义,常用函数。

C.猪用于复杂的数据处理

包括嵌套和复杂的各种数据类型,使用Pig处理数据,分组数据迭代,实践练习

D. Performing multi-dataset operations

数据集加入,数据集拆分,数据集合并的各种方法,集合操作,动手练习

E.延长猪

了解用户定义的函数,使用其他语言执行数据处理,导入和宏,使用流和UDF扩展Pig实践练习

F.猪工作

参与Walmart和Electronic Arts的实际数据集作为案例研究

详细了解Hive

A.蜂巢介绍

了解Hive,将传统数据库与Hive,Pig和Hive进行比较,将数据存储在Hive和Hive架构中,Hive交互和Hive的各种使用案例

B.用于关系数据分析的Hive

了解HiveQL,基本语法,各种表和数据库,数据类型,数据集合,各种内置函数,在脚本,shell和Hue上部署Hive查询。

C.使用Hive进行数据管理

各种数据库,数据库创建,Hive中的数据格式,数据建模,Hive管理表,自我管理表,数据加载,数据库和表格更改,使用视图查询简化,结果存储查询,数据访问控制,管理数据Hive,Hive Metastore和Thrift服务器。

D.蜂巢的优化

学习查询,数据索引,分区和分段的性能

E.扩展蜂巢

部署用户定义的函数来扩展Hive

F.练习练习 - 处理大型数据集和广泛的查询

部署Hive以处理大量数据集和大量查询

G. UDF,查询优化

广泛使用用户定义查询,学习如何优化查询以及执行性能调优的各种方法。

黑斑羚

A. Impala简介

什么是Impala?,Impala与Hive和Pig的区别,Impala如何区别于关系数据库,限制和未来方向,使用Impala Shell

B.选择最佳(蜂巢,猪,黑斑羚)

C.使用Impala和Hive建模和管理数据

数据存储概述,创建数据库和表格,将数据加载到表格,HCatalog,Impala元数据缓存

D.数据分区

分区概述,Impala和Hive中的分区

(AVRO)数据格式

选择文件格式,工具支持文件格式,Avro模式,使用Avro与Hive和Sqoop,Avro模式演变,压缩

Hbase体系结构简介

什么是Hbase,它在哪里适合,什么是NOSQL

Apache Spark

A.为什么选择Spark? 使用Spark和Hadoop分布式文件系统

什么是Spark,Spark和Hadoop之间的比较,Spark的组件

B. Spark组件,通用Spark算法 - 迭代算法,图分析,机器学习

Apache Spark-介绍,一致性,可用性,分区,统一堆栈Spark,Spark组件,烫伤示例,mahout,风暴,图形

C.在集群上运行Spark,使用Python,Java,Scala编写Spark应用程序

说明python的例子,显示安装spark,说明驱动程序,用例子说明spark的上下文,定义弱类型变量,无缝结合scala和java,说明并发和分布。,说明什么是特性,用例说明高阶函数,定义OFI调度程序,Spark的优点,Lamda使用Spark的示例,用示例说明Mapreduce

Hadoop集群设置和运行映射减少作业

使用Amazon ec2的多节点群集设置 - 创建4节点群集设置,在群集上运行Map Reduce作业

主要项目 - 把它放在一起和连接点

把它放在一起,连接点,处理大数据集,分析大数据所涉及的步骤

ETL与Hadoop生态系统的连接

ETL工具如何在大数据行业中工作,通过ETL工具连接到HDFS并将数据从本地系统移动到HDFS,将数据从DBMS移动到HDFS,使用ETL工具与Hive协同工作,在ETL工具中创建Map Reduce作业,完成到结束ETL PoC展示与ETL工具的大数据集成。

群集配置

配置概述和重要配置文件,配置参数和值,HDFS参数MapReduce参数,Hadoop环境设置,'Include'和'Exclude'配置文件,Lab:MapReduce性能调优

管理和维护

Namenode / Datanode目录结构和文件,文件系统映像和编辑日志,检查点过程,Namenode故障和恢复过程,安全模式,元数据和数据备份,潜在问题和解决方案/查找内容,添加和删除节点,Lab: MapReduce文件系统恢复

监视和故障排除

监控群集的最佳实践,使用日志和堆栈跟踪进行监控和故障排除,使用开源工具监控群集

Job Scheduler:Map减少作业提交流程

如何在同一集群上安排作业,FIFO调度,公平调度程序及其配置

多节点群集设置并在Amazon Ec2上运行Map Reduce作业

使用Amazon ec2的多节点群集设置 - 创建4节点群集设置,在群集上运行Map Reduce作业

ZOOKEEPER

ZOOKEEPER简介,ZOOKEEPER用例,ZOOKEEPER服务,ZOOKEEPER数据模型,Znodes及其类型,Znodes操作,Znodes手表,Znodes读写,一致性保证,群集管理,领导选举,分布式独占锁定,重要要点

提前Oozie

为什么选择Oozie?,安装Oozie,运行示例,Oozie工作流引擎,示例M / R操作,Word计数示例,工作流应用程序,工作流提交,工作流状态转换,Oozie作业处理,Oozie安全性,为什么选择Oozie安全性? ,多租户和可扩展性,Oozie作业时间线,协调器,Bundle,抽象层,架构,用例1:时间触发器,用例2:数据和时间触发器,用例3:滚动窗口

先进的水槽

Apache Flume概述,物理分布式数据源,数据结构变化,更接近外观,Flume剖析,核心概念,事件,客户端,代理,源代码,通道,宿,拦截器,通道选择器,接收器处理器,数据摄取,代理管道,事务性数据交换,路由和复制,为什么渠道?,用例 - 日志聚合,添加水槽代理,处理服务器群,每个代理的数据量,描述单个节点水槽部署的示例

提前HUE

HUE简介,HUE生态系统,HUE是什么,HUE真实世界观,HUE的优点,如何在文件浏览器中上传数据,查看内容,集成用户,集成HDFS,HUE FRONTEND基础知识

预先Impala

IMPALA概述:目标,Impala用户视图:概述,Impala用户视图:SQL,Impala用户视图:Apache HBase,Impala体系结构,Impala状态存储,Impala目录服务,查询执行阶段,Impala与Hive的比较

Hadoop应用程序测试

为什么测试是重要的,单元测试,集成测试,性能测试,诊断,夜间QA测试,基准和端到端测试,功能测试,发布认证测试,安全测试,可扩展性测试,数据节点的调试和停用测试,可靠性测试,发布测试

Hadoop测试专业人​​员的角色和责任

了解要求,准备测试评估,测试用例,测试数据,测试平台创建,测试执行,缺陷报告,缺陷重测,每日状态报告交付,测试完成,每个阶段的ETL测试(HDFS,HIVE,HBASE)使用sqoop / flume加载输入(日志/文件/记录等),其中包括但不限于数据验证,调节,用户授权和认证测试(组,用户,权限等),向开发团队或经理报告缺陷和驾驶他们关闭,整合所有缺陷并创建缺陷报告,验证Core Hadoop中的新功能和问题。

称为MR单元的测试地图缩减计划的框架

将缺陷报告给开发团队或经理并促使他们关闭,整合所有缺陷并创建缺陷报告,负责创建名为MR Unit的测试框架,以测试Map-Reduce程序。

单元测试

使用OOZIE进行自动化测试,使用查询浪涌工具进行数据验证。

测试执行

HDFS升级测试计划,测试自动化和结果

测试计划策略和编写用于测试Hadoop应用程序的测试用例

如何测试安装和配置

工作和认证支持

Cloudera认证技巧和指导以及模拟面试准备,实用开发技巧和技巧

请写信给我们 info@itstechschool.com 请致电+ 91-9870480053查询课程价格和认证费用,时间表和地点

给我们一个查询

此培训课程旨在帮助您清除两者 Cloudera Spark和Hadoop开发人员认证(CCA175) 考试和 Cloudera Apache Hadoop认证管理员(CCAH) 考试。 整个培训课程内容符合这两个认证计划,并帮助您轻松清除这些认证考试,并获得顶级跨国公司的最佳工作。

作为此次培训的一部分,您将开展实时项目和作业,这些作业对现实世界的行业场景有着巨大的影响,从而帮助您快速轻松地追踪自己的职业生涯。

在此培训计划结束时,将会有测验完全反映各个认证考试中提出的问题类型,并帮助您在认证考试中取得更好的成绩。

ITS课程完成证书 将在完成项目工作(专家评审)和评分中至少获得60%分数时颁发。 Intellipaat认证在爱立信,思科,Cognizant,索尼,Mu Sigma,圣戈班,渣打,TCS,Genpact,Hexaware等顶级80 + MNC中得到广泛认可。

更多信息请点击 联系我们。


评论