Programa del Curso
Sección 1: Introducción a Hadoop
- Historia y conceptos de Hadoop
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Mitologías sobre Hadoop
- Desafíos de Hadoop
- Hardware / Software
- lab : primera mirada a Hadoop
Sección 2: HDFS
- Diseño y arquitectura
- Conceptos (escalado horizontal, replicación, localidad de datos, conciencia del rack)
- Daemons : Namenode, Secondary namenode, Data node
- Comunicaciones / latidos cardíacos
- Integridad de los datos
- Rutas de lectura y escritura
- Namenode Alta Disponibilidad (HA), Federación
- labs : Interacción con HDFS
Sección 3: Mapa Reducir
- Conceptos y arquitectura
- Daemons (MRV1): jobtracker / tasktracker
- Fases: driver, mapper, shuffle / sort, reductor
- Mapa Reduzca Versión 1 y Versión 2 (YARN)
- Internos del Mapa Reducir
- Introducción a Java Map Reduce el programa
- Laboratorios: Ejecutar un programa MapReduce de ejemplo
Sección 4: Cerdo
- Cerdo vs java mapa reducir
- Flujo de trabajo porcino
- Lengua latina del cerdo
- ETL con cerdo
- Transformations & Joins
- Funciones definidas por el usuario (UDF)
- Laboratorios: escribir scripts Pig para analizar datos
Sección 5: Colmena
- Arquitectura y diseño
- tipos de datos
- Soporte SQL en Hive
- Creación de tablas Hive y consultas
- Particiones
- Se une
- Procesamiento de texto
- Laboratorios: varios laboratorios sobre procesamiento de datos con Hive
Sección 6: HBase
- Conceptos y arquitectura
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Datos de series temporales en HBase
- Diseño del esquema
- labs : Interacción con HBase usando shell; programación en HBase Java API ; Ejercicio de diseño de esquemas
Requerimientos
- Cómodo con el lenguaje de programación de Java (la mayoría de los ejercicios de programación están en java)
- Cómodo en el ambiente de Linux (ser capaz de navegar por la línea de comandos de Linux, editar archivos utilizando vi / nano)
Entorno de laboratorio
Instalación cero : No es necesario instalar el software Hadoop en las máquinas de los estudiantes. Se proporcionará un clúster funcional de Hadoop para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, se recomienda Putty para Windows)
- un navegador para acceder al clúster, se recomienda Firefox
Testimonios (4)
Preparación y organización del formador, y calidad de los materiales proporcionados en GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Traducción Automática
La máquina virtual que me gustó mucho El profesor era muy conocedor sobre el tema así como otros temas, fue muy amable y agradable Me gustó la instalación en Dubái.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Traducción Automática
Liked very much the interactive way of learning.
Luigi Loiacono
Curso - Data Analysis with Hive/HiveQL
Traducción Automática
I mostly liked the trainer giving real live Examples.
Simon Hahn
Curso - Administrator Training for Apache Hadoop
Traducción Automática