Kiểulớp học đào tạo
ĐĂNG KÝ

Liên hệ

Các trường được đánh dấu bằng một * là bắt buộc

 

dữ liệu lớn hadoop khóa học xác nhận

Khoá đào tạo và Đào tạo Số liệu Hadoop lớn

Tổng quan

Đối tượng & điều kiện tiên quyết

Tom tăt nội dung chương trinh

Lịch biểu và Lệ phí

Chứng nhận

Tổng quan Khóa học Chứng chỉ Hadoop Toàn cầu

Đây là khóa đào tạo Hadoop Big Data toàn diện được thiết kế bởi các chuyên gia trong ngành xem xét các yêu cầu công việc hiện tại của ngành để cung cấp kiến ​​thức chuyên sâu về dữ liệu lớn và các mô-đun Hadoop. Đây là ngành đào tạo chứng nhận Big Data được công nhận là sự kết hợp của các khóa đào tạo trong nhà phát triển Hadoop, quản trị viên Hadoop, thử nghiệm Hadoop và phân tích. Điều này Cloudera Huấn luyện Hadoop sẽ chuẩn bị cho bạn để làm rõ chứng nhận dữ liệu lớn.

Mục tiêu

  • Các nguyên tắc cơ bản của Hadoop 2.7 và YARN và viết các ứng dụng sử dụng chúng
  • Thiết lập Pseudo node và Multi node cluster trên Amazon EC2
  • Master HDFS, MapReduce, Hive, lợn, Oozie, Sqoop, Flume, Người giữ chân, HBase
  • Tìm hiểu Spark, Spark RDD, Graphx, MLlib Viết ứng dụng Spark
  • Các hoạt động quản trị của Master Hadoop như quản lý cụm, giám sát, quản lý và khắc phục sự cố
  • Cấu hình các công cụ ETL như Pentaho / Talend để làm việc với MapReduce, Hive, Pig, vv
  • Hiểu biết chi tiết về Phân tích dữ liệu lớn
  • Ứng dụng thử nghiệm Hadoop sử dụng MR Unit và các công cụ tự động hóa khác.
  • Làm việc với các định dạng dữ liệu Avro
  • Thực hiện các dự án thực tế sử dụng Hadoop và Apache Spark
  • Được trang bị để xóa chứng nhận Big Data Hadoop.

Đối tượng dự định

  • Lập trình phát triển và quản trị hệ thống
  • Chuyên gia làm việc có kinh nghiệm, quản lý dự án
  • Nhà phát triển dữ liệu Big Data mong muốn tìm hiểu các ngành dọc khác như Testing, Analytics, Administration
  • Chuyên gia Mainframe, Kiến trúc sư & Chuyên gia Thử nghiệm
  • Thông minh Business, kho dữ liệu và Chuyên gia Analytics
  • Sinh viên tốt nghiệp, sinh viên năm cuối mong muốn học về công nghệ Big Data mới nhất có thể tham gia đào tạo trực tuyến Big Data Hadoop Certification này

Điều kiện tiên quyết

  • Không có điều kiện tiên quyết để thực hiện việc đào tạo dữ liệu lớn này và để làm chủ Hadoop. Nhưng những điều cơ bản của UNIX, SQL và java sẽ là tốt. Tại Intellipaat, chúng tôi cung cấp miễn phí unix và khóa học Java với khóa đào tạo chứng nhận Big Data của chúng tôi để chải lên các kỹ năng cần thiết để bạn học giỏi trên Hadoop.

Khóa học Outline Thời lượng: 2 Days

Giới thiệu về dữ liệu lớn & Hadoop và Hệ sinh thái, Giảm Bản đồ và HDFS

Dữ liệu lớn là gì, Hadoop phù hợp với đâu, Hệ thống tệp phân phối Hadoop - Sao chép, Kích thước Khối, Namenode cấp hai, Tính sẵn sàng cao, Hiểu YARN - Trình quản lý Nguồn, NodeManager, Khác biệt giữa 1.x và 2.x

Hadoop Cài đặt và thiết lập

Kiến trúc Cluster Hadoop 2.x, Liên kết và Tính sẵn sàng cao, Thiết lập cụm sản xuất điển hình, Các chế độ Cluster Hadoop, Các lệnh Hadoop Shell phổ biến, Các tệp Cấu hình Hadoop 2.x, Cloudera Single node cluster

Lặn sâu ở Mapreduce

Làm thế nào tác phẩm Mapreduce, Làm thế nào giảm công trình, Làm thế nào trình điều khiển các công trình, Combiners, Partitioners, định dạng đầu vào, đầu ra Định dạng, Shuffle và Sắp xếp, Mapside tham gia, Giảm Side Joins, MRUnit, Distributed Cache

Bài tập Lab:

Làm việc với HDFS, Viết chương trình WordCount, Viết trình phân chia tùy chỉnh, Mapreduce với Combiner, Tham gia vào Bản đồ bên, Giảm liên kết bên, Kiểm tra đơn vị Mapreduce, Chạy Mapreduce trong Chế độ LocalJobRunner

Giải quyết vấn đề đồ thị

Đồ thị, Biểu diễn đồ thị, Thuật toán tìm kiếm đầu tiên, Đồ thị biểu diễn Bản đồ giảm, Làm thế nào để thực hiện các thuật toán đồ thị, Ví dụ về đồ thị Giảm,

    Bài tập 1: Bài tập 2: Bài tập 3:

Hiểu biết chi tiết về lợn

A. Giới thiệu về lợn

Hiểu về Apache Pig, các tính năng, sử dụng khác nhau và học cách tương tác với Pig

B. Triển khai lợn để phân tích số liệu

Cú pháp của Pig Latin, các định nghĩa khác nhau, sắp xếp và lọc dữ liệu, các loại dữ liệu, triển khai Pig cho ETL, tải dữ liệu, xem giản đồ, các định nghĩa trường, các hàm thường được sử dụng.

C. Lợn để xử lý dữ liệu phức tạp

Các loại dữ liệu khác nhau bao gồm lồng nhau và phức tạp, xử lý dữ liệu với Pig, lặp lại dữ liệu được nhóm lại, tập thể dục thực hành

D. Thực hiện hoạt động nhiều dữ liệu

Tập hợp dữ liệu, chia tách dữ liệu, các phương pháp khác nhau để kết hợp dữ liệu, đặt hoạt động, thực hành tập thể dục

E. Mở rộng lợn

Hiểu các chức năng do người dùng xác định, thực hiện xử lý dữ liệu với các ngôn ngữ khác, nhập khẩu và macro, sử dụng luồng và UDF để mở rộng Lợn, các bài tập thực hành

F. việc làm lợn

Làm việc với bộ dữ liệu thực sự liên quan đến Walmart và Electronic Arts như nghiên cứu trường hợp

Hiểu biết chi tiết về Hive

A. Giới thiệu về Hive

Hiểu biết về Hive, so sánh cơ sở dữ liệu truyền thống với so sánh Hive, Pig and Hive, lưu trữ dữ liệu trong lược đồ Hive và Hive, tương tác giữa Hive và các trường hợp sử dụng khác nhau của Hive

B. Hive cho phân tích dữ liệu quan hệ

Hiểu biết về HiveQL, cú pháp cơ bản, các bảng và cơ sở dữ liệu khác nhau, các kiểu dữ liệu, nhập dữ liệu, các chức năng được cài sẵn, triển khai các truy vấn Hive trên các tập lệnh, trình bao và Hue.

C. Quản lý dữ liệu với Hive

Các cơ sở dữ liệu khác nhau, tạo cơ sở dữ liệu, định dạng dữ liệu trong Hive, mô hình hóa dữ liệu, bảng quản lý Hive, bảng tự quản lý, tải dữ liệu, thay đổi cơ sở dữ liệu và bảng biểu, đơn giản hoá truy vấn với Views, lưu trữ kết quả truy vấn, kiểm soát truy cập dữ liệu, quản lý dữ liệu với máy chủ Hive, Hive Metastore và Thrift.

D. Tối ưu hóa Hive

Học hiệu suất của truy vấn, lập chỉ mục dữ liệu, phân vùng và bucketing

E. Mở rộng Hive

Triển khai các hàm do người dùng định nghĩa để mở rộng Hive

F. Hands on Exercises - làm việc với bộ dữ liệu lớn và truy vấn rộng rãi

Triển khai Hive cho khối lượng dữ liệu khổng lồ và số lượng truy vấn lớn

G. UDF, tối ưu hóa truy vấn

Làm việc rộng rãi với truy vấn do người dùng xác định, học cách tối ưu hóa truy vấn, các phương pháp khác nhau để thực hiện điều chỉnh hiệu năng.

Impala

A. Giới thiệu về Impala

Impala là gì ?, Làm thế nào khác nhau Impala Differs từ Hive và lợn, Làm thế nào Impala khác nhau từ Cơ sở dữ liệu quan hệ, Hạn chế và Hướng dẫn trong tương lai, Sử dụng Impala Shell

B. Chọn loại tốt nhất (Hive, Pig, Impala)

C. Mô hình hóa và quản lý dữ liệu với Impala và Hive

Tổng quan về Lưu trữ dữ liệu, Tạo Cơ sở dữ liệu và Bảng, Tải dữ liệu vào các bảng, HCatalog, Cất giữ Dữ liệu Impala

D. Phân chia dữ liệu

Phân vùng tổng quan, Phân vùng trong Impala và Hive

(AVRO) Các định dạng dữ liệu

Chọn định dạng tệp, công cụ hỗ trợ định dạng tệp, lược đồ Avro, sử dụng Avro với Hive và Sqoop, tiến trình lược đồ Avro, nén

Giới thiệu kiến ​​trúc Hbase

HBase là gì, nó phù hợp với đâu, NOSQL là gì

Apache Spark

A. Tại sao lại là Spark? Làm việc với Spark và Hadoop Distributed File System

Spark là gì, so sánh giữa Spark và Hadoop, các thành phần của Spark

B. Thành phần Spark, Thuật toán Spark phổ biến-Thuật toán lặp lại, Phân tích đồ thị, Học máy

Apache Spark- Giới thiệu, Tính nhất quán, Tính khả dụng, Phân vùng, Thống nhất Stack Spark, Thành phần Spark, Ví dụ về Scalding, mahout, bão, đồ thị

C. Chạy Spark trên một Cluster, viết các ứng dụng Spark bằng Python, Java, Scala

Giải thích ví dụ python, Hiển thị cài đặt tia lửa, Giải thích chương trình trình điều khiển, Giải thích ngữ cảnh tia lửa, Ví dụ, Xác định biến gõ yếu, Kết hợp scala và java liền mạch, Giải thích đồng thời và phân phối., Giải thích đặc tính là gì, Giải thích hàm bậc cao hơn với ví dụ, Xác định OFI scheduler, Ưu điểm của Spark, Ví dụ về Lamda sử dụng tia lửa, Giải thích Mapreduce với ví dụ

Hadoop Cluster Setup và Running Map Giảm công việc

Thiết lập cụm nhiều nút bằng cách sử dụng Amazon ec2 - Tạo thiết lập cụm nút 4, Chạy bản đồ Giảm công việc trên cụm

Dự án lớn - Đưa tất cả lại với nhau và kết nối Dots

Đặt tất cả lại với nhau và Kết nối Dots, Làm việc với các tập dữ liệu lớn, Các bước liên quan đến việc phân tích dữ liệu lớn

Kết nối ETL với hệ sinh thái Hadoop

Công cụ ETL hoạt động như thế nào trong ngành công nghiệp dữ liệu lớn, kết nối với HDFS từ công cụ ETL và di chuyển dữ liệu từ hệ thống cục bộ sang HDFS, di chuyển dữ liệu từ DBMS sang HDFS, làm việc với Hive với công cụ ETL, tạo bản đồ Giảm công việc trong công cụ ETL, End to End ETL PoC hiển thị tích hợp dữ liệu lớn với công cụ ETL.

Cấu hình cụm

Tổng quan cấu hình và tệp cấu hình quan trọng, Thông số cấu hình và giá trị, tham số HDFS Tham số MapReduce, thiết lập môi trường Hadoop, tệp 'Bao gồm' và 'Loại trừ' cấu hình, Lab: Điều chỉnh hiệu suất MapReduce

Quản trị và bảo trì

Namenode/Datanode directory structures and files, File system image and Edit log, The Checkpoint Procedure, Namenode failure and recovery procedure, Safe Mode, Metadata and Data backup, Potential problems and solutions / what to look for, Adding and removing nodes, Lab: MapReduce File system Recovery

Monitoring and Troubleshooting

Best practices of monitoring a cluster, Using logs and stack traces for monitoring and troubleshooting, Using open-source tools to monitor the cluster

Job Scheduler: Map reduce job submission flow

How to schedule Jobs on the same cluster, FIFO Schedule, Fair Scheduler and its configuration

Multi Node Cluster Setup and Running Map Reduce Jobs on Amazon Ec2

Thiết lập cụm nhiều nút bằng cách sử dụng Amazon ec2 - Tạo thiết lập cụm nút 4, Chạy bản đồ Giảm công việc trên cụm

ZOOKEEPER

ZOOKEEPER Introduction, ZOOKEEPER use cases, ZOOKEEPER Services, ZOOKEEPER data Model, Znodes and its types, Znodes operations, Znodes watches, Znodes reads and writes, Consistency Guarantees, Cluster management, Leader Election, Distributed Exclusive Lock, Important points

Advance Oozie

Why Oozie?, Installing Oozie, Running an example, Oozie- workflow engine, Example M/R action, Word count example, Workflow application, Workflow submission, Workflow state transitions, Oozie job processing, Oozie security, Why Oozie security?, Job submission, Multi tenancy and scalability, Time line of Oozie job, Coordinator, Bundle, Layers of abstraction, Architecture, Use Case 1: time triggers, Use Case 2: data and time triggers, Use Case 3: rolling window

Advance Flume

Overview of Apache Flume, Physically distributed Data sources, Changing structure of Data, Closer look, Anatomy of Flume, Core concepts, Event, Clients, Agents, Source, Channels, Sinks, Interceptors, Channel selector, Sink processor, Data ingest, Agent pipeline, Transactional data exchange, Routing and replicating, Why channels?, Use case- Log aggregation, Adding flume agent, Handling a server farm, Data volume per agent, Example describing a single node flume deployment

Advance HUE

HUE introduction, HUE ecosystem, What is HUE?, HUE real world view, Advantages of HUE, How to upload data in File Browser?, View the content, Integrating users, Integrating HDFS, Fundamentals of HUE FRONTEND

Advance Impala

IMPALA Overview: Goals, User view of Impala: Overview, User view of Impala: SQL, User view of Impala: Apache HBase, Impala architecture, Impala state store, Impala catalogue service, Query execution phases, Comparing Impala to Hive

Hadoop Application Testing

Why testing is important, Unit testing, Integration testing, Performance testing, Diagnostics, Nightly QA test, Benchmark and end to end tests, Functional testing, Release certification testing, Security testing, Scalability Testing, Commissioning and Decommissioning of Data Nodes Testing, Reliability testing, Release testing

Roles and Responsibilities of Hadoop Testing Professional

Understanding the Requirement, preparation of the Testing Estimation, Test Cases, Test Data, Test bed creation, Test Execution, Defect Reporting, Defect Retest, Daily Status report delivery, Test completion, ETL testing at every stage (HDFS, HIVE, HBASE) while loading the input (logs/files/records etc) using sqoop/flume which includes but not limited to data verification, Reconciliation, User Authorization and Authentication testing (Groups, Users, Privileges etc), Report defects to the development team or manager and driving them to closure, Consolidate all the defects and create defect reports, Validating new feature and issues in Core Hadoop.

Framework called MR Unit for Testing of Map-Reduce Programs

Report defects to the development team or manager and driving them to closure, Consolidate all the defects and create defect reports, Responsible for creating a testing Framework called MR Unit for testing of Map-Reduce programs.

Kiểm tra đơn vị

Automation testing using the OOZIE, Data validation using the query surge tool.

Thực hiện kiểm tra

Test plan for HDFS upgrade, Test automation and result

Test Plan Strategy and writing Test Cases for testing Hadoop Application

How to test install and configure

Job and Certification Support

Cloudera Certification Tips and Guidance and Mock Interview Preparation, Practical Development Tips and Techniques

Vui lòng viết cho chúng tôi theo địa chỉ info@itstechschool.com và liên hệ với chúng tôi theo số + 91-9870480053 để biết chi phí, thời gian và địa điểm

Thả chúng tôi một truy vấn

This training course is designed to help you clear both Cloudera Spark and Hadoop Developer Certification (CCA175) thi và Cloudera Certified Administrator for Apache Hadoop (CCAH) exam. The entire training course content is in line with these two certification programs and helps you clear these certification exams with ease and get the best jobs in the top MNCs.

As part of this training you will be working on real time projects and assignments that have immense implications in the real world industry scenario thus helping you fast track your career effortlessly.

At the end of this training program there will be quizzes that perfectly reflect the type of questions asked in the respective certification exams and helps you score better marks in certification exam.

ITS Course Completion Certificate will be awarded on the completion of Project work (on expert review) and upon scoring of at least 60% marks in the quiz. Intellipaat certification is well recognized in top 80+ MNCs like Ericsson, Cisco, Cognizant, Sony, Mu Sigma, Saint-Gobain, Standard Chartered, TCS, Genpact, Hexaware, etc.

Để biết thêm thông tin vui lòng Liên hệ chúng tôi.


Đánh giá