Más novedades en Pentaho 9.0

Cognus LATAM
23 sept 2020
7 Min. de lectura

Actualizado: 5 feb 2021

En Pentaho el upgrade es gratuito y está siempre disponible para sus clientes, ya sea en la edición Enterprise como Comunitaria. El último release de la suite v9.0, viene mucho más orientado a satisfacer las necesidades de empresas y organizaciones que están abordando problemáticas de datos complejos.

A medida que los volúmenes de información crecen, los computadores y servidores también crecen, (tanto en RAM como en número de procesadores y tamaño físico), esto tiene un límite natural, llega un punto en que gestionar toda esta arquitectura se vuelve prohibitivo en términos de eficiencia y costos. La Alternativa es entonces, utilizar grupos de computadores que trabajen juntos (clúster) para una misma tarea, pero compartiendo la carga de trabajo y almacenamiento de los datos.

Esto puede parecer sencillo, pero distribuir la carga de trabajo lleva a las empresas a enfrentar grandes desafíos: complejidad en la programación, sincronización de datos y procesamiento, conectividad y manejo de fallas.

Para estos paradigmas de arquitectura, las empresas utilizan distintas estrategias y tecnologías para almacenar y procesar datos de forma distribuida y además, reducir toda la complejidad, que esto conlleva y administrar todo como un sistema único.

La nueva versión de Pentaho, en sintonía con estas necesidades, se conecta de forma nativa a Cloudera Distribution para Hadoop (CDH), Hortonworks Data Platform (HDP), Amazon Elastic MapReduce (EMR). Además, admite muchos servicios relacionados, como HDFS, HBase, Oozie, Zookeeper y Spark.

En la versión previa, Pentaho Server y Spoon que es el entorno de diseño de PDI, solo podían trabajar con un clúster de Hadoop a la vez. Se necesitaban múltiples transformaciones, instancias y pipelines para ejecutar múltiples clústeres de Hadoop. Con la versión 9.0, se han producido cambios importantes en la arquitectura para configurar, conectar y administrar fácilmente varios clústeres de Hadoop.

Veamos una síntesis de las novedades que vienen en esta edición:

Los usuarios pueden acceder y procesar datos de múltiples clústeres de Hadoop de diferentes distribuciones y versiones, todo desde una sola transformación e instancia de Pentaho.
Además, dentro de Spoon, los usuarios ahora pueden configurar tres configuraciones distintas de clúster, todas con referencia al clúster específico, sin tener que reiniciar Spoon. También hay una nueva interfaz de usuario de configuración para configurar fácilmente los controladores de Hadoop para administrar diferentes clústeres.
La nueva Interfaz de usuario, brinda una experiencia mejorada para configuración de clúster y conexión segura.
Admite las siguientes distribuciones: Hortonworks HDP v3.0, 3.1; Cloudera CDH v6.1, 6.2; Amazon EMR v5.21, 5.24.

El siguiente ejemplo muestra un Multi-cluster implementado sobre el mismo pipeline de datos, con conexión a los clústeres Hortonworks HDP y Cloudera CDH.

Casos de uso y beneficios

Permite el procesamiento de big data híbrido (local o en la nube), dentro de un mismo pipeline de procesamiento de datos
Simplifica la integración de Pentaho con clústeres de Hadoop, mediante una experiencia de usuario mejorada para configuraciones de clúster

Mejoras en PDI AEL-Spark

Pentaho Adaptative Execution Layer, (AEL) está diseñada para el procesamiento de datos con Spark, además del motor Kettle nativo. El objetivo de AEL es desarrollar pipelines de datos complejos visualmente y luego ejecutarlos en Kettle o Spark según el volumen y los requisitos de SLA. AEL permite a los usuarios de PDI designar a Spark como motor de ejecución para sus transformaciones, aparte de Kettle.

La versión v9.0 incluye las siguientes mejoras de rendimiento y flexibilidad para AEL-Spark:

Opciones de tunning de performace específicas a nivel de Spark
Mejoras a nivel de configuración de loggins e información ingresada en logs de PDI
Soporte adicional para Spark 2.4, además del 2.3 existente
Admite las siguientes distribuciones: Hortonworks HDP v3.0, 3.1; Cloudera CDH v6.1, 6.2; Amazon EMR v5.21, 5.24.

El siguiente ejemplo muestra Spark App y Spark Tuning en pasos específicos dentro de una transformación PDI:

Casos de uso y beneficios
Elimina la sensación de caja negra, entregando mejor visibilidad del procesamiento.
Permite a los usuarios avanzados de Spark, contar con herramientas para mejorar performance.

Virtual File System (VFS)

Los cambios en el VFS se encuentran en dos áreas principales:

Se agrega Amazon S3 y Snowflake Staging como proveedores de VFS a las conexiones nombradas; se introduce Pentaho VFS (pvfs), que puede hacer referencia a las conexiones VFS definidas y sus protocolos y en el protocolo S3, se admite S3A y Sesion Tokens.
Se agregó una nueva experiencia de exploración de archivos. El navegador VFS ahora permite a los usuarios explorar cualquier ubicación VFS preconfigurada, utilizando conexiones nombradas, local filesystem, clústeres configurados a través de HDFS, así como el repositorio de Pentaho, si se encuentra conectado.

Casos de uso y beneficios

Con Pentaho VFS se obtiene una abstracción del protocolo. Eso significa que cuando una empresa desee cambiar al proveedor de almacenamiento en el futuro, todos los jobs y trasformaciones funcionarán sin problemas. Hoy una empresa puede estar usando Amazon S3, pero mañana podría ser HCP o Google Cloud. Usando Pentaho VFS, la carga en lo que respecta a mantenimiento, será mucho menor.
VFS Connections permite ahora usar diferentes cuentas y servidores dentro de una transformación PDI. Ejemplo: si alguien desea procesar datos dentro de una misma transformación desde S3 con diferentes almacenes y cuentas.
La combinación de conexiones VFS nombradas brinda una nueva experiencia de exploración de archivos, permitiendo acceder de manera más fácil a ubicaciones remotas, ampliando el alcance de PDI. Esto además ofrece la capacidad de administrar archivos en ubicaciones remotas. Por ejemplo, un usuario puede copiar archivos de Google Cloud a un almacén S3 utilizando la función de copiar y pegar del navegador y referenciar a esos archivos utilizando conexiones nombradas en pasos y jobs.

Los usuarios puede administrar todos los archivos, ya sean locales o remotos en una ubicación central. Ya no es necesario iniciar sesión en la consola de administración de Amazon S3 para crear carpetas, renombrar, eliminar, mover o copiar archivos. Incluso es posible una copia entre el sistema de archivos local y S3 y con eso ya puede cargar / descargar archivos desde Spoon.

El nuevo explorador de archivos también ofrece nuevas capacidades de búsqueda, por ejemplo, encontrar nombres de archivos que coincidan con una cadena de búsqueda específica. También recuerda los jobs y transformaciones a las que un usuario accedió recientemente, para facilitar consultas.

Pasos Cobol copybook

PDI ahora tiene dos pasos de transformación que se pueden usar para leer registros desde un mainframe y transformarlos en filas PDI.

Copybook Input: este paso permite leer los archivos de datos binarios del mainframe donde fueron creados originalmente usando definiciones de copybook y enviarlos convertidos a la secuencia PDI para ser usado en transformaciones.
Leer metadatos desde copybook: este paso permite leer metadatos desde el archivo de definición de copybook para usarlos con ETL metadata injection en PDI. Los pasos del copybook también admiten metadata ijectio, manejo extendido de errores y puede funcionar con redefiniciones.

Casos de uso y beneficios

Pentaho Data Integration admite integración con registros de longitud fija en archivos de datos binarios de mainframe, así más usuarios puedan consumir, integrar y combinar datos como parte de su pipeline de integración. Esta capacidad es crítica cuando una empresa posee grandes cantidades de conjuntos de datos transaccionales y clientes y se requiere hacer búsquedas y querys para crear reportes.

Otras Mejoras

Nuevo Pentaho Server Upgrade Installer: Es una interfaz gráfica de usuario (GUI) que instala automáticamente una nueva versión dentro del archivo de instalación del Pentaho Server. Esto permite hacer upgrade desde las versiones 7.1 en adelante directamente a la versión 9.0.

Mejoras en Snowflake Bulk Loader: Permite hacer vista previa de una tabla en PDI 9.0. Cuando los usuarios se conectan a Snowflake, en la pestaña Salida pueden seleccionar una tabla en el menú desplegable. La ventana de vista previa se completa y muestra las columnas y los tipos de datos asociados a la tabla. El usuario puede ver el diseño de columnas esperado y los tipos de datos y hacer match con el archivo de datos.

Soporte de seguridad de Redshift IAM y mejoras de carga masiva: Esta versión incluye más opciones de autentificación contra base de datos Redshift:

Credenciales estándar (predeterminado): contraseña de usuario
Credenciales de IAM
Perfil dentro de la unidad local, en el archivo de credenciales de AWS

Mejoras en Bulk load en Amazon Redshift: La nueva edición tiene nuevas pestañas de Opciones y Columnas en la Salida de Bulk load dentro de PDI Amazon Redshift. Use las herramientas de “Opciones” para indicar si los datos existentes en la tabla se deben eliminar antes de la carga masiva. Use “Columnas” para obtener una vista previa de los nombres de columna y los tipos de datos y asociarlos con la tabla de la base de datos seleccionada.

Mejoras en los cambios de AMQP y UX en Kinesis: El paso AMQP Consumer proporciona soporte de mensajes binarios, por ejemplo, permite procesar datos con formato AVRO. Dentro del paso Kinesis Consumer, los usuarios pueden cambiar los nombres y tipos de campo de salida.

Mejoras en metadata injection, (MDI): PDI 9.0. continúa habilitando más pasos para admitir la inyección de metadatos (MDI):

Dividir campo en filas
Eliminar
Operaciones en strings

Excel Writer:

En el paso Excel Writer, se agregó MDI Step, “Comenzar a escribir en la celda”. Esta opción también se puede inyectar ahora.
El rendimiento se ha mejorado drásticamente cuando se usan plantillas. Un archivo de prueba con 40,000 filas necesitaba aproximadamente 90 segundos, ahora en 9.0 se procesa en 5 segundos aprox.

Cambios de JMS Consumer: Se agregaron los siguientes campos al paso JMS Consumer: MessageID, JMS timestamp y JMS Redelivered. Estos permiten la reiniciabilidad y omitir mensajes duplicados.

Text File Output: Soporta Heather con AEL, esto permite configurar el paso text file input para que se ejecute en el motor Spark a través de AEL. La opción heather del paso de text file output ahora funciona con AEL.

Pasos y entradas de Ejecution y Jobs: Antes, al pasar parámetros a transformaciones/Jobs, las opciones “Stream column name” v/s “Value” (“Field to us” v/s “Static input value”) eran ambiguas y generaban problemas difíciles de identificar. En la edición 9.0, se agregó un comportamiento que impide que un usuario ingrese valores en ambos campos para evitar estas situaciones.

Mejoras en Spoon.sh Exit code: Spoon.sh (que es llamado por kitchen.sh o pan.sh) envía el estado de salida incorrecto en ciertas situaciones. En la v9.0, se agregó una nueva variable de entorno FILTER_GTK_WARNINGS para controlar este comportamiento en caso de avisos que afecten el código de salida. Esta componente permite aplicar un filtro para ignorar cualquier advertencia de GTK. Si no desea filtrar ninguna advertencia, se desactiva.

Dashboard opción para exportar reportes de Analyzer a formato CSV: Ahora es posible exportar reportes de Analyzer a un archivo con formato CSF incluso cuando está incrustado en un dashboard.

En la versión anterior, la opción de exportación estaba disponible, pero no al formato CSV, este sólo estaba disponible cuando se usaba Analyzer fuera de un dashboard, de esta manera brindamos paridad funcional entre los gráficos no importa dónde estos estén creados.

Estas y otras mejoras, así como el detalle de las consideraciones y ejemplos, pueden encontrarse en: https://pedroalves-bi.blogspot.com/2020/02/pentaho-90-is-available.html

#Pentaho