Pentaho DI – Crear conexiones a Repositorios y Datos (Parte II)

Conexiones a sources y targets

Configuración de Orígenes de Datos

Tras ver en la Parte I de este artículo como conectar las bases de datos en Pentaho DI, a continuación se van a explicar como extraer la información de diferentes orígenes de datos, poniendo atención sobre todo en los tipos de entrada más utilizados, ya que Kettle tiene un gran número de herramientas para la extracción de datos, según necesidades. Explicaremos los recursos más utilizados. Para ampliar la información de otros tipos de objetos de extracción de información, se puede utilizar la ayuda que aparece en todas las ventanas de configuración de los objetos, ya que esta es muy completa y útil.

En la siguiente imagen se muestran los objetos de extracción de datos más utilizados. Todos estos se encuentran en la carpeta que aparece en el área izquierda del explorador de objetos, denominada ‘Entrada’.

Pentaho - Sources

Cada objeto tiene su propia configuración (haciendo doble clic en su icono), en cada uno hay que rellenar diferentes parámetros de configuración dependiendo del objeto. A continuación se muestran los cuadros de configuración de cada uno de los objetos mostrados en la imagen anterior.

  • Entrada Tabla: Corresponde a la entrada desde tablas en base de datos. Como se observa se realiza una consulta SQL para la obtención de los datos que se van a insertar en la ETL.



 

Pentaho - SQL

 

  • CSV file input: Obtención de datos a partir de fichero en formato CSV. Se debe definir cual es el tipo de tabulación (además de otros parámetros) para obtener correctamente los datos desde estos ficheros. Como se observa en la siguiente imagen se deben ‘Traer Campos’ (botón ubicado en la parte inferior de la ventana) y se puede ‘Previsualizar’ la información extraída.

 

Pentaho - CSV

  • Entrada Excel: Extracción de información a partir de un fichero Excel. Se puede ver en la siguiente imagen las diferentes opciones a definir para obtener el dato adecuadamente.

Pentaho - Excel

  • GZIP CSV Input: Tal y como se observa, se definen las mismas opciones que en el objeto de entrada ‘CSV file input’, pero este objeto admite que el fichero esté comprimido en formato GZIP.

 

Pentaho - GZIP

 

  • Entrada de Fichero de Texto: Permite introducir datos desde ficheros de texto, siempre y cuando cumplan con un patrón o tengan la información tabulada, de forma que cada campo esté separado para poder obtener la información que contiene dicho fichero correctamente.

 

Pentaho - Texto

  • Google Analytics: Este objeto es muy útil para obtener información analítica sobre el comportamiento de navegación en una web. Para conectar con la plataforma Google Analytics, hay que tener una API Key de forma que se le permita el acceso a la herramienta de integración. En la siguiente imagen se observa como se debe cumplimentar la información de dicho objeto.

 

Pentaho - Analytics

Nota: Los objetos de entrada de datos, solo existen en las transformaciones, por lo que desde los trabajos no se puede extraer información directamente, si no es pasando por dichas transformaciones dentro de los Jobs.

Configuración de Destino de Datos

Al igual que en el punto anterior, se van a detallar algunos de los componentes que forman parte de la inserción de información en el destino. Tal y como se indicó también en el anterior punto, no se van a detallar todos los objetos pertenecientes a la inserción de datos (agrupados en la carpeta ‘Salida’), ya que son muchos los que componen dicho grupo. Se aconseja leer la ayuda de los objetos para saber cual es la finalidad y como se deben configurar. Dicho esto, se pasa a analizar los principales objetos del grupo ‘Salida’:

Pentaho - Targets

  • Actualizar: Objeto que sirve para Actualizar datos en campos que cumplen determinada condición. Como se puede observar en la siguiente imagen dicha configuración se puede convertir a una sentencia SQL.

 

Pentaho - Actualizar SQL

 

  • Eliminar: Se utiliza para eliminar filas que cumplen con las condiciones definidas en la configuración de este objeto.

 

Pentaho - Eliminar Filas

 

  • Insertar/Actualizar: Este objeto sirve para ambas opciones. En el caso de que hayan varias columnas que cumplan con las claves de búsqueda, solo se selecciona la primera columna encontrada. Además si lo que se desea es insertar, deberá estar seleccionada la opción no realizar actualizaciones.

 

Pentaho - Insertar/Actualizar

 

  • Salida Excel: Envía la información de salida a un fichero Excel. Como se puede observar en la siguiente imagen, este fichero puede ser customizable en formato, además de en seguridad y en otras opciones.

 

Pentaho - Salida Excel

 

  • Salida Tabla: Se inserta directamente en una tabla de la Base de Datos seleccionada. Se puede vaciar la tabla antes de una nueva inserción si se quiere realizar una carga completa, o por el contrario, se puede realizar una inserción a continuación de lo que ya existe en la tabla.

 

Pentaho - Salida Tabla

 

  • Salida a Fichero de Texto: Generación de un fichero tabulado con la información de salida. Como se muestra en la siguiente figura hay diferentes opciones de configuración para obtener un fichero con el formato y nombre deseado.

 

Pentaho - Salida Fichero Texto

 

  • Salida XML: Igualmente, si se desea obtener un fichero en formato XML, se dispone de este objeto, el cual permite definir la configuración de los datos de salida sobre este fichero.

 

Pentaho - Salida XML

 

  • Pentaho Reporting Output: A partir del fichero de definición del reporte, se puede publicar de forma automática un reporte con la información de entrada.

 

Pentaho - Output Report

 

  • Automatic Documentation Output: Objeto que sirve para generar documentación del desarrollo de manera automática. De forma que se genera un fichero con la descripción del objeto desarrollado y de todos los componentes que forman parte de dicho desarrollo. Muy útil para mantener la documentación actualizada.

 

Pentaho - Docu Automatica

 

Con todo esto ya tenemos todos los elementos necesarios para poder extraer desde multitud de origenes e insertar información en diferentes destinos. En los siguientes artículos, se explicará como tratar la información dentro de los ETL, para modelarla según nuestras necesidades.

 

Más información sobre sources y targets, en el siguiente enlace

Deja una respuesta