Kiểulớp học đào tạo
ĐĂNG KÝ

dữ liệu lớn hadoop khóa học xác nhận

Khoá đào tạo và Đào tạo Số liệu Hadoop lớn

Tổng quan

Đối tượng & điều kiện tiên quyết

Tom tăt nội dung chương trinh

Lịch biểu và Lệ phí

Chứng nhận

Tổng quan Khóa học Chứng chỉ Hadoop Toàn cầu

Đây là khóa đào tạo Hadoop Big Data toàn diện được thiết kế bởi các chuyên gia trong ngành xem xét các yêu cầu công việc hiện tại của ngành để cung cấp kiến ​​thức chuyên sâu về dữ liệu lớn và các mô-đun Hadoop. Đây là ngành đào tạo chứng nhận Big Data được công nhận là sự kết hợp của các khóa đào tạo trong nhà phát triển Hadoop, quản trị viên Hadoop, thử nghiệm Hadoop và phân tích. Điều này Cloudera Huấn luyện Hadoop sẽ chuẩn bị cho bạn để làm rõ chứng nhận dữ liệu lớn.

Mục tiêu

  • Các nguyên tắc cơ bản của Hadoop 2.7 và YARN và viết các ứng dụng sử dụng chúng
  • Thiết lập Pseudo node và Multi node cluster trên Amazon EC2
  • Master HDFS, MapReduce, Hive, lợn, Oozie, Sqoop, Flume, Người giữ chân, HBase
  • Tìm hiểu Spark, Spark RDD, Graphx, MLlib Viết ứng dụng Spark
  • Các hoạt động quản trị của Master Hadoop như quản lý cụm, giám sát, quản lý và khắc phục sự cố
  • Cấu hình các công cụ ETL như Pentaho / Talend để làm việc với MapReduce, Hive, Pig, vv
  • Hiểu biết chi tiết về Phân tích dữ liệu lớn
  • Ứng dụng thử nghiệm Hadoop sử dụng MR Unit và các công cụ tự động hóa khác.
  • Làm việc với các định dạng dữ liệu Avro
  • Thực hiện các dự án thực tế sử dụng Hadoop và Apache Spark
  • Được trang bị để xóa chứng nhận Big Data Hadoop.

Đối tượng dự định

  • Lập trình phát triển và quản trị hệ thống
  • Chuyên gia làm việc có kinh nghiệm, quản lý dự án
  • Nhà phát triển dữ liệu Big Data mong muốn tìm hiểu các ngành dọc khác như Testing, Analytics, Administration
  • Chuyên gia Mainframe, Kiến trúc sư & Chuyên gia Thử nghiệm
  • Thông minh Business, kho dữ liệu và Chuyên gia Analytics
  • Sinh viên tốt nghiệp, sinh viên năm cuối mong muốn học về công nghệ Big Data mới nhất có thể tham gia đào tạo trực tuyến Big Data Hadoop Certification này

Điều kiện tiên quyết

  • Không có điều kiện tiên quyết để thực hiện việc đào tạo dữ liệu lớn này và để làm chủ Hadoop. Nhưng những điều cơ bản của UNIX, SQL và java sẽ là tốt. Tại Intellipaat, chúng tôi cung cấp miễn phí unix và khóa học Java với khóa đào tạo chứng nhận Big Data của chúng tôi để chải lên các kỹ năng cần thiết để bạn học giỏi trên Hadoop.

Course Outline Duration: 2 Days

Giới thiệu về dữ liệu lớn & Hadoop và Hệ sinh thái, Giảm Bản đồ và HDFS

Dữ liệu lớn là gì, Hadoop phù hợp với đâu, Hệ thống tệp phân phối Hadoop - Sao chép, Kích thước Khối, Namenode cấp hai, Tính sẵn sàng cao, Hiểu YARN - Trình quản lý Nguồn, NodeManager, Khác biệt giữa 1.x và 2.x

Hadoop Cài đặt và thiết lập

Kiến trúc Cluster Hadoop 2.x, Liên kết và Tính sẵn sàng cao, Thiết lập cụm sản xuất điển hình, Các chế độ Cluster Hadoop, Các lệnh Hadoop Shell phổ biến, Các tệp Cấu hình Hadoop 2.x, Cloudera Single node cluster

Lặn sâu ở Mapreduce

Làm thế nào tác phẩm Mapreduce, Làm thế nào giảm công trình, Làm thế nào trình điều khiển các công trình, Combiners, Partitioners, định dạng đầu vào, đầu ra Định dạng, Shuffle và Sắp xếp, Mapside tham gia, Giảm Side Joins, MRUnit, Distributed Cache

Bài tập Lab:

Làm việc với HDFS, Viết chương trình WordCount, Viết trình phân chia tùy chỉnh, Mapreduce với Combiner, Tham gia vào Bản đồ bên, Giảm liên kết bên, Kiểm tra đơn vị Mapreduce, Chạy Mapreduce trong Chế độ LocalJobRunner

Giải quyết vấn đề đồ thị

Đồ thị, Biểu diễn đồ thị, Thuật toán tìm kiếm đầu tiên, Đồ thị biểu diễn Bản đồ giảm, Làm thế nào để thực hiện các thuật toán đồ thị, Ví dụ về đồ thị Giảm,

    Bài tập 1: Bài tập 2: Bài tập 3:

Hiểu biết chi tiết về lợn

A. Giới thiệu về lợn

Hiểu về Apache Pig, các tính năng, sử dụng khác nhau và học cách tương tác với Pig

B. Triển khai lợn để phân tích số liệu

Cú pháp của Pig Latin, các định nghĩa khác nhau, sắp xếp và lọc dữ liệu, các loại dữ liệu, triển khai Pig cho ETL, tải dữ liệu, xem giản đồ, các định nghĩa trường, các hàm thường được sử dụng.

C. Lợn để xử lý dữ liệu phức tạp

Các loại dữ liệu khác nhau bao gồm lồng nhau và phức tạp, xử lý dữ liệu với Pig, lặp lại dữ liệu được nhóm lại, tập thể dục thực hành

D. Performing multi-dataset operations

Tập hợp dữ liệu, chia tách dữ liệu, các phương pháp khác nhau để kết hợp dữ liệu, đặt hoạt động, thực hành tập thể dục

E. Mở rộng lợn

Hiểu các chức năng do người dùng xác định, thực hiện xử lý dữ liệu với các ngôn ngữ khác, nhập khẩu và macro, sử dụng luồng và UDF để mở rộng Lợn, các bài tập thực hành

F. việc làm lợn

Làm việc với bộ dữ liệu thực sự liên quan đến Walmart và Electronic Arts như nghiên cứu trường hợp

Hiểu biết chi tiết về Hive

A. Giới thiệu về Hive

Hiểu biết về Hive, so sánh cơ sở dữ liệu truyền thống với so sánh Hive, Pig and Hive, lưu trữ dữ liệu trong lược đồ Hive và Hive, tương tác giữa Hive và các trường hợp sử dụng khác nhau của Hive

B. Hive cho phân tích dữ liệu quan hệ

Hiểu biết về HiveQL, cú pháp cơ bản, các bảng và cơ sở dữ liệu khác nhau, các kiểu dữ liệu, nhập dữ liệu, các chức năng được cài sẵn, triển khai các truy vấn Hive trên các tập lệnh, trình bao và Hue.

C. Quản lý dữ liệu với Hive

Các cơ sở dữ liệu khác nhau, tạo cơ sở dữ liệu, định dạng dữ liệu trong Hive, mô hình hóa dữ liệu, bảng quản lý Hive, bảng tự quản lý, tải dữ liệu, thay đổi cơ sở dữ liệu và bảng biểu, đơn giản hoá truy vấn với Views, lưu trữ kết quả truy vấn, kiểm soát truy cập dữ liệu, quản lý dữ liệu với máy chủ Hive, Hive Metastore và Thrift.

D. Tối ưu hóa Hive

Học hiệu suất của truy vấn, lập chỉ mục dữ liệu, phân vùng và bucketing

E. Mở rộng Hive

Triển khai các hàm do người dùng định nghĩa để mở rộng Hive

F. Hands on Exercises - làm việc với bộ dữ liệu lớn và truy vấn rộng rãi

Triển khai Hive cho khối lượng dữ liệu khổng lồ và số lượng truy vấn lớn

G. UDF, tối ưu hóa truy vấn

Làm việc rộng rãi với truy vấn do người dùng xác định, học cách tối ưu hóa truy vấn, các phương pháp khác nhau để thực hiện điều chỉnh hiệu năng.

Impala

A. Giới thiệu về Impala

Impala là gì ?, Làm thế nào khác nhau Impala Differs từ Hive và lợn, Làm thế nào Impala khác nhau từ Cơ sở dữ liệu quan hệ, Hạn chế và Hướng dẫn trong tương lai, Sử dụng Impala Shell

B. Chọn loại tốt nhất (Hive, Pig, Impala)

C. Mô hình hóa và quản lý dữ liệu với Impala và Hive

Tổng quan về Lưu trữ dữ liệu, Tạo Cơ sở dữ liệu và Bảng, Tải dữ liệu vào các bảng, HCatalog, Cất giữ Dữ liệu Impala

D. Phân chia dữ liệu

Phân vùng tổng quan, Phân vùng trong Impala và Hive

(AVRO) Các định dạng dữ liệu

Chọn định dạng tệp, công cụ hỗ trợ định dạng tệp, lược đồ Avro, sử dụng Avro với Hive và Sqoop, tiến trình lược đồ Avro, nén

Giới thiệu kiến ​​trúc Hbase

HBase là gì, nó phù hợp với đâu, NOSQL là gì

Apache Spark

A. Tại sao lại là Spark? Làm việc với Spark và Hadoop Distributed File System

Spark là gì, so sánh giữa Spark và Hadoop, các thành phần của Spark

B. Thành phần Spark, Thuật toán Spark phổ biến-Thuật toán lặp lại, Phân tích đồ thị, Học máy

Apache Spark- Giới thiệu, Tính nhất quán, Tính khả dụng, Phân vùng, Thống nhất Stack Spark, Thành phần Spark, Ví dụ về Scalding, mahout, bão, đồ thị

C. Chạy Spark trên một Cluster, viết các ứng dụng Spark bằng Python, Java, Scala

Giải thích ví dụ python, Hiển thị cài đặt tia lửa, Giải thích chương trình trình điều khiển, Giải thích ngữ cảnh tia lửa, Ví dụ, Xác định biến gõ yếu, Kết hợp scala và java liền mạch, Giải thích đồng thời và phân phối., Giải thích đặc tính là gì, Giải thích hàm bậc cao hơn với ví dụ, Xác định OFI scheduler, Ưu điểm của Spark, Ví dụ về Lamda sử dụng tia lửa, Giải thích Mapreduce với ví dụ

Hadoop Cluster Setup và Running Map Giảm công việc

Thiết lập cụm nhiều nút bằng cách sử dụng Amazon ec2 - Tạo thiết lập cụm nút 4, Chạy bản đồ Giảm công việc trên cụm

Dự án lớn - Đưa tất cả lại với nhau và kết nối Dots

Đặt tất cả lại với nhau và Kết nối Dots, Làm việc với các tập dữ liệu lớn, Các bước liên quan đến việc phân tích dữ liệu lớn

Kết nối ETL với hệ sinh thái Hadoop

Công cụ ETL hoạt động như thế nào trong ngành công nghiệp dữ liệu lớn, kết nối với HDFS từ công cụ ETL và di chuyển dữ liệu từ hệ thống cục bộ sang HDFS, di chuyển dữ liệu từ DBMS sang HDFS, làm việc với Hive với công cụ ETL, tạo bản đồ Giảm công việc trong công cụ ETL, End to End ETL PoC hiển thị tích hợp dữ liệu lớn với công cụ ETL.

Cấu hình cụm

Tổng quan cấu hình và tệp cấu hình quan trọng, Thông số cấu hình và giá trị, tham số HDFS Tham số MapReduce, thiết lập môi trường Hadoop, tệp 'Bao gồm' và 'Loại trừ' cấu hình, Lab: Điều chỉnh hiệu suất MapReduce

Quản trị và bảo trì

Cấu trúc thư mục và tập tin thư mục, hình ảnh hệ thống tệp và nhật ký chỉnh sửa, thủ tục điểm kiểm tra, lỗi tên và quy trình khôi phục, chế độ an toàn, siêu dữ liệu và sao lưu dữ liệu, các vấn đề và giải pháp tiềm năng / tìm kiếm, Thêm và xóa nút, Lab: Khôi phục hệ thống tệp MapReduce

Giám sát và khắc phục sự cố

Các phương pháp hay nhất về theo dõi cụm, Sử dụng nhật ký và dấu vết ngăn xếp để theo dõi và khắc phục sự cố, Sử dụng các công cụ nguồn mở để theo dõi cụm

Trình lập lịch biểu công việc: Bản đồ giảm luồng công việc gửi

Cách lên lịch công việc trên cùng một cụm, Lịch biểu FIFO, Trình lập lịch biểu công bằng và cấu hình của nó

Multi Node Cluster Setup và Running Map Giảm công việc trên Amazon Ec2

Thiết lập cụm nhiều nút bằng cách sử dụng Amazon ec2 - Tạo thiết lập cụm nút 4, Chạy bản đồ Giảm công việc trên cụm

ZOOKEEPER

ZOOKEEPER Giới thiệu, ZOOKEEPER trường hợp sử dụng, ZOOKEEPER dịch vụ, ZOOKEEPER mô hình dữ liệu, Znodes và các loại của nó, Znodes hoạt động, Znodes đồng hồ, Znodes đọc và viết, nhất quán bảo lãnh, Cluster quản lý, Leader Election, Distributed Exclusive Lock, điểm quan trọng

Oozie nâng cao

Tại sao Oozie ?, Cài đặt Oozie, Chạy một ví dụ, công cụ luồng công việc Oozie, Ví dụ về hành động M / R, ví dụ về Word, ứng dụng Quy trình làm việc, Gửi luồng công việc, Chuyển tiếp trạng thái luồng công việc, Xử lý công việc Oozie, Bảo mật Oozie, Tại sao bảo mật Oozie ?, , Đa thuê và khả năng mở rộng, Dòng thời gian của công việc Oozie, Điều phối viên, Gói, Lớp trừu tượng, Kiến trúc, Trường hợp sử dụng 1: Trình kích hoạt thời gian, Trường hợp sử dụng 2: dữ liệu và trình kích hoạt thời gian, Trường hợp sử dụng 3: cửa sổ cuộn

Advance Flume

Tổng quan về Apache Flume, Phân phối vật lý các nguồn dữ liệu, Thay đổi cấu trúc dữ liệu, Nhìn gần hơn, Giải phẫu Flume, Các khái niệm cốt lõi, Sự kiện, Khách hàng, Đại lý, Nguồn, Kênh, Sinks, Bộ chặn, Bộ chọn kênh, Bộ xử lý sink, Nhập dữ liệu, , Trao đổi dữ liệu giao dịch, Định tuyến và sao chép, Tại sao các kênh ?, Sử dụng trường hợp - Tổng hợp nhật ký, Thêm tác nhân flume, Xử lý trang trại máy chủ, Khối lượng dữ liệu cho mỗi tác nhân, Ví dụ mô tả triển khai một nút đơn lẻ

HUE nâng cao

Giới thiệu HUE, hệ sinh thái HUE, HUE là gì ?, HUẾ thế giới thực, các lợi thế của HUẾ, Làm thế nào để tải lên dữ liệu trong File Browser ?, Xem nội dung, Tích hợp người dùng, Tích hợp HDFS, Nguyên tắc cơ bản của HUẾ FRONTEND

Advance Impala

Tổng quan về IMPALA: Mục tiêu, Chế độ xem người dùng của Impala: Tổng quan, Chế độ xem người dùng của Impala: SQL, Chế độ xem người dùng của Impala: Apache HBase, Kiến trúc Impala, Cửa hàng trạng thái Impala, Dịch vụ danh mục Impala, Giai đoạn thực hiện truy vấn, So sánh Impala với Hive

Thử nghiệm ứng dụng Hadoop

Tại sao thử nghiệm là quan trọng, thử nghiệm đơn vị, thử nghiệm tích hợp, kiểm tra hiệu suất, chẩn đoán, kiểm tra QA ban đêm, đo điểm chuẩn và kết thúc đến cuối, kiểm tra chức năng, kiểm tra chứng nhận phát hành, kiểm tra bảo mật, kiểm tra khả năng mở rộng, thử nghiệm và ngừng hoạt động kiểm tra nút dữ liệu, kiểm tra độ tin cậy , Phát hành thử nghiệm

Vai trò và trách nhiệm của chuyên gia kiểm tra Hadoop

Hiểu yêu cầu, chuẩn bị dự toán thử nghiệm, thử nghiệm, kiểm tra dữ liệu, tạo thử nghiệm, thực hiện kiểm tra, báo cáo lỗi, kiểm tra lỗi, báo cáo tình trạng hàng ngày, kiểm tra hoàn thành, kiểm tra ETL ở mọi giai đoạn (HDFS, HIVE, HBASE) trong khi nạp đầu vào (nhật ký / tệp / hồ sơ, v.v.) sử dụng sqoop / flume bao gồm nhưng không giới hạn đối với xác minh dữ liệu, Hòa giải, Cấp phép người dùng và Kiểm tra xác thực (Groups, Users, Privileges etc), Báo cáo lỗi cho nhóm phát triển hoặc người quản lý và lái xe để đóng cửa, Hợp nhất tất cả các lỗi và tạo các báo cáo lỗi, Xác thực tính năng mới và các vấn đề trong Core Hadoop.

Khung gọi là Đơn vị MR để kiểm tra các chương trình giảm thiểu bản đồ

Báo cáo lỗi cho nhóm phát triển hoặc người quản lý và thúc đẩy họ đóng cửa, Hợp nhất tất cả các lỗi và tạo báo cáo lỗi, Chịu trách nhiệm tạo Khung thử nghiệm có tên là MR Unit để thử nghiệm các chương trình Map-Reduce.

Kiểm tra đơn vị

Tự động kiểm tra bằng cách sử dụng OOZIE, xác thực dữ liệu bằng cách sử dụng công cụ tăng truy vấn.

Thực hiện kiểm tra

Kế hoạch thử nghiệm để nâng cấp HDFS, Tự động hóa thử nghiệm và kết quả

Chiến lược kế hoạch thử nghiệm và viết các trường hợp kiểm tra để thử nghiệm ứng dụng Hadoop

Cách kiểm tra cài đặt và định cấu hình

Hỗ trợ công việc và chứng nhận

Lời khuyên và hướng dẫn chứng nhận Cloudera và chuẩn bị phỏng vấn giả lập, Mẹo và kỹ thuật phát triển thực tế

Vui lòng viết cho chúng tôi theo địa chỉ info@itstechschool.com và liên hệ với chúng tôi theo số + 91-9870480053 để biết chi phí, thời gian và địa điểm

Thả chúng tôi một truy vấn

Khóa đào tạo này được thiết kế để giúp bạn xóa cả hai Cloudera Spark và Chứng nhận Nhà phát triển Hadoop (CCA175) thi và Quản trị viên được chứng nhận Cloudera cho Apache Hadoop (CCAH) thi. Toàn bộ nội dung khóa đào tạo phù hợp với hai chương trình chứng nhận này và giúp bạn xóa các bài kiểm tra giấy chứng nhận một cách dễ dàng và nhận được các công việc tốt nhất trong các MNC hàng đầu.

Là một phần của khóa đào tạo này, bạn sẽ làm việc trên các dự án thời gian thực và các bài tập có ý nghĩa to lớn trong kịch bản ngành công nghiệp thế giới thực, nhờ đó giúp bạn nhanh chóng theo dõi sự nghiệp của mình một cách dễ dàng.

Vào cuối chương trình đào tạo này sẽ có các câu đố phản ánh một cách hoàn hảo các loại câu hỏi được yêu cầu trong kỳ thi chứng chỉ tương ứng và giúp bạn đạt điểm cao hơn trong kỳ thi chứng nhận.

Chứng chỉ hoàn thành khóa học ITS sẽ được trao khi hoàn thành công việc Dự án (về đánh giá của chuyên gia) và khi đạt được ít nhất 60% điểm trong bài kiểm tra. Chứng nhận Intellipaat được công nhận trong các 80 + MNCs hàng đầu như Ericsson, Cisco, Cognizant, Sony, Mu Sigma, Saint-Gobain, Standard Chartered, TCS, Genpact, Hexaware, v.v.

Để biết thêm thông tin vui lòng Liên hệ chúng tôi.


Đánh giá