Hola a todos.

En primer lugar, quería comentaros que soy novato en Pentaho, asi que disculpadme si no coloqué este hilo en el foro correspondiente o si se nota que no manejo muy bien la herramienta.

Mi problema es el siguiente, necesito extraer información de una página web a través de su código en HTML. Para ello, empleé un Fichero de texto como entrada, donde le paso la url de la web a extraer el código html. Hasta aquí ningún problema.

El siguiente paso es el problema, no sé como extraer la información del código. Por ejemplo, quiero extraer la información que venga en el title del html:

<title>Título de la web</title>

Pensé en usar un "Regex Evaluation" para extraer dicha información con una expresión regular: <title>.*<//title>

Pero no entiendo porque, al previsualizar este último paso no consigo extraer dicha información, lo intenté almacenando la salida en un fichero .txt pero aún así no me sale tampoco. No sé si se me ha olvidado activar alguna opción o me he saltado algún paso, como dije antes, estoy empezando con este nuevo software.

Muchas gracias de antemano.

Un saludo.