viernes, 23 de mayo de 2014

Estudio: Capítulo 11 - PIG

He estado estudiando Pig siguiendo el capítulo 11 del libro "Hadoop: The Definitive Guide, 3rd Edition".
 

MapReduce: en algunos casos, ajustar el procesado de datos siguiendo un esquema de funciones Map y Reduce puede ser complejo para un desarrollador, ya que puede requerir programar muchas etapas MapReduce.
 
Pig incrementa el nivel de abstracción en el procesado de datos, con estructuras más ricas y transformaciones de datos más poderosas. Utiliza un lenguaje de definición de flujo de datos (data flow) llamado Pig Latin, que transforma las operaciones realizadas en los datos en trabajos Mapreduce.

 

1 – Instalando y ejecutando PIG

1.1 – Tipos de ejecución

1.1.1 – Local: (ejecuta una única JVM, sistema de ficheros local). % pig –x local
1.1.2 –MapReduce (cluster  o  pseudo-distribuido).  % pig –x mapreduce  ó % x  (mapreduce por defecto)

1.2 – Ejecutando programas en Pig

1.2.1 – Script
1.2.2 – Grunt
1.2.3 – Embebidos

1.3 – Grunt

1.4 – Editores de Pig Latin

2 – Ejemplo

2.1 – Generando un ejemplo con una muestra del conjunto de datos: ILLUSTRATE

3 – Comparación con una base de datos

 

4 – Lenguaje: Pig Latin

4.1 – Estructura

4.2 – Declaraciones

4.3 – Expresiones

4.4 – Tipos de datos

4.5 – Esquemas

4.5.1 – Validaciones y valores NULL
4.5.2 – Unión de esquemas

4.6 – Funciones

4. 7 – Macros

5 – Funciones definidas por el usuario (UDF: User-Defined Functions)

5.1 – Filtros

5.2 – Evaluación

5.3 – Carga de datos

6 – Operadores de procesado de datos

6.1 – Cargando y almacenando datos

6.2 – Filtrando datos

6.2.1 – FOREACH…GENERATE
6.2.2 – STREAM

6.3 – Agrupando y uniendo datos

6.3.1 – JOIN
6.3.2 – COGROUP
6.3.3 – CROSS
6.3.4 – GROUP

7 – Pig en la práctica

7.1 – Paralelismo

7.2 – Sustitución de parámetros

No hay comentarios:

Publicar un comentario