He estado estudiando Pig siguiendo el capítulo 11 del libro "Hadoop: The Definitive Guide, 3rd Edition".
MapReduce: en algunos casos, ajustar el procesado de datos siguiendo un esquema de funciones Map y Reduce puede ser complejo para un desarrollador, ya que puede requerir programar muchas etapas MapReduce.
MapReduce: en algunos casos, ajustar el procesado de datos siguiendo un esquema de funciones Map y Reduce puede ser complejo para un desarrollador, ya que puede requerir programar muchas etapas MapReduce.
Pig
incrementa el nivel de abstracción en el procesado de datos, con estructuras
más ricas y transformaciones de datos más poderosas. Utiliza un lenguaje de definición
de flujo de datos (data flow) llamado Pig Latin, que transforma las operaciones
realizadas en los datos en trabajos Mapreduce.
1 – Instalando y ejecutando PIG
1.1 – Tipos de ejecución
1.1.1 – Local: (ejecuta una única JVM, sistema de ficheros local). % pig –x local
1.1.2 –MapReduce (cluster o pseudo-distribuido). % pig –x mapreduce ó % x (mapreduce por defecto)1.2 – Ejecutando programas en Pig
1.2.1 – Script
1.2.2 – Grunt
1.2.3 – Embebidos1.3 – Grunt
1.4 – Editores de Pig Latin
2 – Ejemplo
2.1 – Generando un ejemplo con una muestra del conjunto de datos: ILLUSTRATE
3 – Comparación con una base de datos
4 – Lenguaje: Pig Latin
4.1 – Estructura
4.2 – Declaraciones
4.3 – Expresiones
4.4 – Tipos de datos
4.5 – Esquemas
4.5.1 – Validaciones y valores NULL
4.5.2 – Unión de esquemas4.6 – Funciones
4. 7 – Macros
5 – Funciones definidas por el usuario (UDF: User-Defined Functions)
5.1 – Filtros
5.2 – Evaluación
5.3 – Carga de datos
6 – Operadores de procesado de datos
6.1 – Cargando y almacenando datos
6.2 – Filtrando datos
6.2.1 – FOREACH…GENERATE
6.2.2 – STREAM6.3 – Agrupando y uniendo datos
6.3.1 – JOIN
6.3.2 – COGROUP
6.3.3 – CROSS
6.3.4 – GROUP
7 – Pig en la práctica
7.1 – Paralelismo
7.2 – Sustitución de parámetros
No hay comentarios:
Publicar un comentario