Pentaho DI – Conexiones a Repositorios
En los próximos dos artículos se va a estudiar como realizar las conexiones a los diferentes tipos de datos, así como configurar de manera apropiada la extracción e inserción de estos datos. También se va analizar como realizar la conexión al repositorio para el almacenado del catálogo de los desarrollos realizados.
Como se verá hay diferentes tipos de formatos aceptados como Origen (y Destino) de la información. Además existen funciones de inserción de información generada desde la propia herramienta de Integración de Datos, por lo que se va a diferenciar entre conexiones a Orígenes (o Destinos) y funciones de Entrada (o Salida) de datos.
Configuración de Conexiones a las Bases de Datos
Antes de comenzar a explicar como crear un repositorio, así como a extraer (o insertar) datos en los orígenes (o destinos), se debe conocer como realizar las conexiones a las bases de datos, ya que estas son las fuentes (y destinos) de la información más utilizadas en este ámbito. Es por ello que para realizar cualquier desarrollo, primero se debe definir cuales son los orígenes y destinos a Bases de Datos, configurando las conexiones pertinentes.
La configuración de las conexiones, desgraciadamente con esta herramienta, deben ser definidas en cada desarrollo. Y no se pueden heredar conexiones definidas en un Job, para una Transformación (o viceversa). Lo cual significa que cada vez que se deba conectar a una Base de Datos, no configurada en un desarrollo, esta deberá ser definida antes de poder hacer uso de la información que contiene.
Como se observa en la siguiente imagen, se cumplimentan todos los datos de conexión a la Base de Datos requeridos, que variarán según el SGBD utilizado. También se puede observar que en el campo de la izquierda de la pantalla, hay diferentes apartados orientados a la configuración de estas conexiones con el fin de optimizar los tiempos de carga y por tanto la mejora de tiempos en la extracción de la información.
Una vez configurada la conexión, lo siguiente es comprobar que dicha conexión es correcta. Para ello, como se puede observar en la imagen anterior, se dispone de un botón en la parte inferior de la ventana que tiene esta finalidad (Probar). En el caso de que todo sea correcto, nos devolverá un mensaje de confirmación y en el caso de tener algún parámetro incorrecto, devolverá un mensaje de error, como se observa en las siguientes imágenes.
También, una vez configurada la conexión desde la pantalla de configuración de dicha conexión, se pueden revisar todas las funciones permitidas sobre esta base de datos, con el fin de revisar que dichas funciones y permisos, corresponden con las necesidades del desarrollo.
Por último, en la misma pantalla de configuración de las conexiones, se dispone de un botón para Explorar dicha base de datos con el fin de revisar que el contenido, esquema, etc.
Con todo esto, ya se tiene configurada las conexiones para la extracción e inserción de datos en las bases de datos, por lo que ya se podrá utilizar dichas conexiones en los desarrollos donde se hayan definido.
Configurando los Repositorios de Catálogo
Como ya se ha mencionado en anteriores líneas, el tipo de almacenamiento de los desarrollos, puede ser de dos formas. Una de ellas corresponde al almacenamiento en bases de datos y la otra a ficheros alojados en un directorio.
La segunda forma de almacenamiento, no tiene complejidad alguna ya que solo consiste en informar a la herramienta de cual será la ruta de directorios donde se almacenarán los ficheros en los formatos predefinidos según sean Transformaciones o Trabajos (Jobs). Tal y como se observa en los siguientes pasos, no merece mucha explicación este tipo de almacenamiento. Además, tiene un inconveniente y es la facilidad de exportación a otro repositorio, ya que si en dicho proceso debe realizarse algún cambio, deberá realizarse una vez importado al nuevo repositorio, sin posibilidad de automatizar dichos cambios.
Los pasos para la configuración de un catálogo en directorio, será los siguientes:
-
Se selecciona la opción ‘Conectar a catálogo’, ubicada en las opciones de menú ‘Tools/Catálogo’.
-
En la ventana que se activará, se seleccionará el signo ‘+’ que aparece en la parte superior, derecha. Ahí se abrirá una nueva ventana donde se deberá seleccionar el tipo de repositorio que se debe crear. En este caso seleccionamos la segunda opción ‘Kettle file repository:…’.
-
Seleccionada la opción de repositorio en fichero, solo queda definir la ruta donde se almacenarán dichos ficheros, así como opciones de permisos y visibilidad de dichos ficheros.
La otra opción de almacenamiento, la cual es la recomendada, es la correspondiente al almacenamiento en base de datos. Para ello, deberemos de seguir los siguientes pasos a partir de la selección del tipo de repositorio, ya que los pasos anteriores coinciden con los vistos en el caso anterior.
-
Seleccionar el tipo de repositorio ‘Kettle database repository:…’
-
Como aun no se han definido las bases de datos orientadas al almacenamiento de los desarrollos, lo primero será crear una nueva conexión a la base de datos de repositorio. En este caso se ha creado una base de datos para este fin denominada ‘Test’.
-
Se activará una ventana que debe ser familiar, ya que se ha estudiado en el punto anterior, donde se debe configurar la conexión a dicha base de datos. En este caso se ha definido dicha conexión con el nombre ‘Repo-Test’
-
El siguiente paso es acabar de configurar la información del catálogo, con su nombre y descripción.
-
Por último solo quedará hacer clic en el botón de ‘Crear/Actualizar’ para que se cree la estructura de tablas y contenido de la base de datos de repositorio.
-
Para acceder al nuevo repositorio, por defecto se utilizará el usuario ‘admin’ y password ‘admin’. Además se aconseja que se marque la casilla que aparece en la parte inferior de la imagen, con el fin de que cuando se arranque Kettle, se solicite el acceso al repositorio.
-
Una vez se accede al entorno de trabajo, al haber conectado con un repositorio en base de datos, se tendrá la posibilidad de aplicar seguridad de acceso y gestionar los objetos desarrollados, desde la ruta del menú ‘Tools/Catálogo’. Desde aquí se puede hacer uso de diferentes recursos como Exportación e Importación de Catálogo, limpieza de Caché o Exploración del Catálogo. En la siguiente imagen se muestran la ventana de exploración de Catálogo.
En la imagen anterior se observa que existe una pestaña de seguridad desde el cual se pueden dar de alta usuarios con acceso a este catálogo, desde la herramienta Pentaho DI. Se observa que no se definen perfiles, ni roles de usuarios, sino que solo sirve para dar de alta usuarios, de forma que pueda haber un seguimiento de los usuarios que realicen modificaciones en los desarrollos.
En la siguiente entrada continuaremos con las conexiones a los orígenes de datos y destinos para la inserción de la información generada. Esperemos que sea de vuestra utilidad 😉
One Comment