Hitachi Vantara Pentaho Community Forums
Results 1 to 9 of 9

Thread: ayuda con creacion de un data warehouse

  1. #1
    Join Date
    Oct 2007
    Posts
    11

    Default ayuda con creacion de un data warehouse

    Hola.

    Ojalá me puedan ayudar en lo siguiente:

    Tengo 4 archivos xls, de los cuales necesito extraer datos para crear un data warehouse. He estado intentando con las opciones de combination lookup/update, pero al usar esta opción no puedo elegir el identificador de la tabla de dimensión que yo deseo, ya que me obliga a crear uno nuevo.

    Bueno, si alguno de ustedes tiene experiencia o una idea de como lograr extraer los datos de 4 archivos xls diferentes, y seleccionar al gusto de uno la clave de la tabla de dimensión, que deje su comentario por favor.

    Saludos.

  2. #2
    Join Date
    Jul 2007
    Posts
    1,013

    Default

    Necesitaríamos una descripción un poco mejor del proceso: ¿los cuatro archivos se guardan en la misma dimensión? ¿Hay que combinarlos de alguna manera?

    Mientras más detalles incluyas, más fácil será ayudarte.

    ¡Saludos!

  3. #3
    Join Date
    Oct 2007
    Posts
    11

    Default

    Hola, gracias por responder.

    Tengo dos ideas para crear el data warehouse.

    Una idea ya la llevé a cabo, la cual fue crear una dimensión por cada archivo xls que poseo, me quedaron entonces las dimensiones de region, departamento, comuna y establecimiento, además de la tabla de dimensión tiempo y la tabla de hechos puntajes.

    El problema que he tenido con este idea, es que después de crear y publicar el cubo con el schema workbench, no me muestra correctamente la dimensión tiempo. Con el resto de los datos no tengo problemas.

    La segunda idea es crear una dimensión llamada por ejemplo "localización", la cual agrupe todas las regiones, departamentos, comunas y establacimientos. Además de esa dimensión, tener también una dimensión tiempo y la tabla de hechos puntajes.

    El problema que tengo con esa idea, es que no logro crear de manera adecuada la dimensión localizacion, porque me quedan muchos campos nulos, ya que tengo por ejemplo, 15 registros en la tabla region, pero 8000 registros en la tabla establecimiento.

    En caso de ser la segunda idea mejor que la primera, me gustaría que me guiaran en qué botones utilizar para lograr crear de buena forma el DW.

    Cabe destacar que cada archivo xls tiene un identificador, por lo que para cada region existe un id, caso que se repite para departamento, comuna y establecimiento.

    Voy a adjuntar los modelos conceptuales y los creados con Kettle, para que tengan una mejor idea de lo que estoy haciendo.
    Attached Files Attached Files

  4. #4
    Join Date
    Jul 2007
    Posts
    1,013

    Default

    En realidad yo implementaría directamente tu idea de una dimensión "Localización". Si no me equivoco tu esquema responde directamente a una dimensión de ubicación geográfica con una jerarquía de cuatro niveles, de mayor a menor region, departamento, comuna y establecimiento. A no ser que en algún caso no puedas unir tus hechos con la tabla "establecimiento" no hay razón para no utilizar sólo una dimensión con jerarquías.

    Con respecto a como quedaría tu tabla, en un DW se suele utilizar un modelo desnormalizado, con lo cual tendrías un registro por cada establecimiento, y para cada registro le agregarías una columna con el nombre de la comuna, una con el departamento y una con la región, sin preocuparte por repetir los valores en diferentes registros, y utilizarías a cada una de esas columnas para alimentar a cada nivel de la jerarquía.

    La documentación de esquemas de Mondrian tiene detalles sobre cómo implementar esto.

    ¡Saludos!

  5. #5
    Join Date
    Oct 2007
    Posts
    11

    Default

    Ok, voy a leer la documentación de Mondrian y después te cuento como fue.
    Muchas gracias por responder.

    Saludos.

  6. #6
    Join Date
    Oct 2007
    Posts
    11

    Default

    Hola nuevamente.

    Vuelvo para mostrar parte de mi trabajo. Todo sigue saliendo bien, pero me gustaría aclarar una duda.

    Yo tengo 3 archivos en excel que necesito ocupar. Lo que he hecho hasta ahora, ha sido unir manualmente esos 3 archivos en uno, y desde ahí empezar la creación del DW (como verán en el dibujo). Lo que me gustaría, sería crear el DW usando independientemente esos 3 archivos, pero he probado algunas combinaciones y no me funciona. Si alguno de ustedes ha trabajado o sabe cómo lograr crear un DW a partir de varios archivos independientes, que me ayude por favor.

    pd: adjunto unas imágenes para que vean lo que hice.

    Saludos.
    Attached Images Attached Images   
    Last edited by kernel_one; 04-10-2009 at 04:43 PM.

  7. #7
    Join Date
    Sep 2007
    Posts
    834

    Default

    Hola!
    Que es lo que no te funciona al usar los xls por separado?
    En principio, yo lo haria en tres transformaciones (una para cada xls). Cada una actualizaria una parte de la tabla de dimension. Luego un job las invocaria una atras de la otra.
    Lo que tendrias que asegurarte es que las columnas tengan un valor por defecto, o acepten nulos. Si no, no vas a poder hacer los inserts /updates "por partes".
    saludos
    mc

  8. #8
    Join Date
    Oct 2007
    Posts
    11

    Default

    Hola, gracias por responder.

    La verdad es que hasta ahora no he usado ningún job, solo transformaciones, pero voy a probar tu idea.

    En este contexto, si creo una columna con una valor por defecto de cero por ejemplo, utilizando la opción "Add constants", podré cambiar posteriormente algunos de esos valores al actualizar la tabla de dimensión?

    Saludos.

  9. #9
    Join Date
    Sep 2007
    Posts
    834

    Default

    Tanto el "Add constants" como cualquier otro Step que te permita agregar o modificar datos del flujo de datos pueden ser de utilidad para actualizar los valores de la tabla,
    saludos

Tags for this Thread

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
  •  
Privacy Policy | Legal Notices | Safe Harbor Privacy Policy

Copyright © 2005 - 2019 Hitachi Vantara Corporation. All Rights Reserved.