Pentaho 8.2 Enterprise Edition lanzó recientemente su nuevo upgrade, disponible para todos los clientes de la Suite de Integración de Datos y Business Analytics.
Dentro de las mejoras destacan nuevas capacidades de trabajar con datos de streaming y Spark, así como la incorporación nuevos y mejores analizadores de datos a nivel de big data, seguridad de datos en la nube, entre otras novedades.
Pentaho 8.2 también se ha enfocado en la experiencia en el uso de la plataforma. Introdujo nuevas características especialmente diseñadas para para data scientists e ingenieros de datos que desean trabajar con métodos de aprendizaje automático (machine learning), aprendizaje profundo (deep learning), desarrollar estrategias de modelos de gestión de datos, entre otras tareas.
Nuevo Python Executor Step
Acceso desde PDI a Hitachi Content Platform (HCP)
Mejoras de streaming de datos
Operación de datos mejorada
Business Analytics y mejoras a nivel de integración de datos
Nuevo Python Executor Step
En esta nueva versión se han fortalecido las capacidades para trabajar con algoritmos y lenguaje de programación Python, el cual puede ser incorporado al pipeline de gestión de datos dentro de PDI, como una transformación. Esta característica es especialmente útil para quienes deben desarrollar soluciones predictivas utilizando pasos PDI existentes, también para proyectos de machine learning y deep learning. En lugar de escribir código para conectarse a bases de datos relacionales, sistemas de archivos Hadoop, hacer Join y filtrar datos, PDI permite a los desarrolladores concentrar sus esfuerzos de codificación en los algoritmos basados en la ciencia de datos.
Pentaho tiene soporte nativo de Pandas dataFrames y NumPy arrays, de esta manera, con el pasoPython Executor es posible leer datos de varias fuentes, modificar, derivar y luego proporcionar salida como un conjunto de campos PDI.
Acceso desde PDI a Hitachi Content Platform (HCP)
Los usuarios del sistema de almacenamiento distribuido Hitachi Content Platform (HCP) pueden accesarlo de forma directa desde el navegador del Sistema de archivos virtuales (VFS) de PDI. Dentro de HCP, las listas de control de acceso (ACL) otorgan privilegios de usuario para realizar varias operaciones a nivel de archivos, con tan solo una simple configuración.
Mejoras de streaming de datos
Mejora de las capacidades de PDI para trabajar con Spark: PDI presenta nuevos pasos adaptados al motor Spark en Adaptive Execution Layer (AEL) y acceso a datos de streaming Advanced Message Queuing Protocol (AMQP). Los pasos de Spark ahora están personalizados para usar sus API nativas, diseñadas para aprovechar su motor avanzado para un procesamiento y una distribución más rápida de los recursos de hardware.
Mejoras de AMQP en PDI: El Protocolo avanzado de Message Queue Server (AMQP) proporciona una potente conectividad para producir o consumir datos de streaming en Pentaho. Permite utilizar los nuevos pasos de transformación de AMQP Consumer y AMQP Producer para crear transformaciones y colas de mensajes para el procesamiento de datos de IoT a medida que ocurren los eventos. Estos pasos incluyen integración y conectividad segura con las fuentes de mensajes AMQP, flujos de datos o alertas de monitoreo, ya sea en el sitio o en la nube.
Crear Dashboards con datos streaming: Esto permite crear un servicio de transmisión de datos en tiempo real en Pentaho. Con CTools, puede utilizar este servicio para desarrollar dashboard que muestren los datos en la medida que llegan. Esto es especialmente útil para realizar análisis estadístico, administrar, monitorear y grabar análisis en tiempo real, extraer rápidamente la información necesaria de grandes volúmenes de datos y reaccionar ante condiciones cambiantes.
Operación de datos mejorada
PDI 8.2 incluye más analizadores de datos personalizados, una interfaz de estado de ejecución actualizada y compatibilidad con OpenJDK.
Nuevos Data Lineage Analyzers dentro de PDI: Entrada y salida de archivo Hadoop y Spark Submit, entreotros.
Mejoras en la vista de supervisión del estado de ejecución: Esta se usa para ver los detalles de las tareas y las transformaciones programadas y ejecutadas de forma remota. Se ha mejorado esta ventana para facilitar su uso. La página ahora tiene gráficos claros con controles para ejecutar, reanudar, pausar y detener una transformación o job.
Soporte OpenJDK: Pentaho ahora es compatible con Oracle JDK 8 y OpenJDK 8. Este soporte se extiende al Adaptive Execution Layer (AEL). Al utilizar AEL con Amazon EMR, ya no se necesita instalar Oracle JDK 8 para ejecutarse en OpenJDK 8. Hay algunos requisitos en Pentaho para Java Runtime Environment (JRE) que puede buscar en el portal de la solución.
Business Analytics y mejoras a nivel de integración de datos
Analyzer Comparison Filters on Numeric Levels: En Analyzer se suman nuevos filtros, los cuales brindan la posibilidad de comparar y filtrar conjuntos de datos para obtener una vista más enfocada. Estos filtros incluyen Mayor que, Menor que, Mayor o igual que, Menor o igual que, y Entre.Esto es especialmente útil para demandas de información cambiantes donde es necesario mostrar rápidamente solo aquellos datos que cumplan con las condiciones de los niveles dedimensión numérica comparada.
Inyección de metadatos ampliada: En PDI hay soporte adicional para la inyección de metadatos y un paso JSON mejorado, los cuales contribuyen a la estabilidad de la plataforma y a una mejor experiencia de uso en general.
Mejoras de JSON: El paso de entrada JSON ahora presenta una nueva ventana “Seleccionar campos” para especificar qué campos desea extraer. La ventana muestra la estructura del archivo JSON de origen. Cada campo de la estructura se muestra con una casilla de verificación para que indique si debe extraerse del archivo. También permite buscar dentro de la estructura, un campo específico.
Pasos de PDI eliminados: Los pasos de transformación de PDI y jobs de entradas para SAP, Paleo y OpenERP están en desuso en Pentaho 8.2. Ahora puede encontrar estos pasos y entradas en la carpeta “En desuso” de la pestaña Diseño en el panel Explorar del Cliente PDI.
Todas las novedades y especificaciones pueden visualizarse en. https://help.pentaho.com/Documentation/8.2/Whats_New