Como algunos de ustedes ya se habrán
enterado Pentaho lanzó a comienzos de este mes la versión 3.0 de su plataforma de Business Intelligence. La versión 2.0, lanzada a comienzos del 2009, ya nos traía novedades como la Consola de Usuario, Centro de Operaciones para el usuario final, y el Pentaho Aggregation Designer, que asiste en la creación de tablas agregadas para acelerar la creación y uso de cubos multidimensionales con Mondrian.
Así también la versión 3.0 (Enterprise) trae novedades, tales como un sistema de configuración de accesos, un sistema de monitoreo de performance y un Dashboard Designer, que básicamente permite integrar distintas vistas desde la consola de usuario. Para la versión community también hay novedades, como la incorporación del Community Dashboard Framework 3.0 al paquete de instalación. Esta librería permite a los desarrolladores crear gráficos y componentes de dashboards de forma más sencilla y estándar.
Una de las cosas más interesantes que incluye este lanzamiento es una versión Cloud, configurada especialmente para correr en la nube, en particular en los servidores de Amazon EC2. En particular se destaca el caso de Nutricia, una empresa de productos de nutrición basada en Orlando, que integró sus servidores y bases de datos con Pentaho y montó una solución de Business Intelligence en los servidores de Amazon EC2.
En Cognus no nos quisimos quedar afuera y hemos testeado exitosamente el funcionamiento de Pentaho 3.0 sobre Amazon EC2. Tenemos varias instancias corriendo con datos reales para demostraciones y para la realización de pruebas.
Como todo, esta solución tiene sus pros y contras. A su favor está la flexibilidad que entrega configurar tu propio servidor virtual con Pentaho en la nube, los pasos son sencillos y la instalación inicial tiene un costo mínimo (75 USD al mes). La instalación se hace de manera estándar y el único detalle está en configurar bien las reglas de seguridad de tu instancia EC2 para habilitar los puertos que usa Pentaho.
Para partir puedes hacerlo sobre una máquina “small” y no tendrás problemas, pero la gracia es que cuando la máquina ya te quede chica, simplemente puedes aumentar la capacidad de la máquina con algunos clicks. Además, si guardas la instancia de tu Pentaho configurado, puedes con un par de clicks (y algo más de dinero!) escalar tu solución con otras instancias de Pentaho.
Lamentablemente no todo es perfecto, y efectivamente al trabajar con EC2 hay problemas de latencia y tiempo de respuesta. Algunas vistas de la consola de usuario andan bien, otras dejan que desear (por unos 5 segundos o más). Otra desventaja es que subir los datos a EC2 para una solución de BI puede resultar MUY lento. En particular cuando estamos hablando de bases con tablas de cientos de millones de registros, no siempre es factible subir esta cantidad de información a la nube y menos actualizarla en forma periódica. Ahora, una vez arriba el Kettle (PDI) funciona muy bien, pero hay que saber trabajar bien con ETL’s en forma remota y sin interfaz gráfica.
En resumen, creo que las aplicaciones para soluciones BI sobre la nube deben estar enfocadas a capas delgadas de información, pero que tengan requerimientos de procesamiento que pudieran escalar mucho. Aplicaciones con GoogleMaps, o de SaaS integradas con Pentaho son buenos ejemplos. Lo otro que sospecho podría ser una muy buena aplicación es la implementación de algoritmos de data mining con Weka sobre la nube, en particular ahora que Amazon lanzó su nuevo servicio de Elastic MapReduce. Ello permitiría ejecutar en menos tiempo los algoritmos de datamining u optimización, sin tener que entrar en el costo de un hardware que sólo se usa algunas horas del día.
Desde ya los invito a probar la nueva versión de Pentaho que pueden descargar desde: www.pentaho.com.
Comments