domingo, 22 de mayo de 2011

Problema con la interpretación del html

Al intentar leer las páginas de www.kalipedia.com no las devuelve en código html simple, quiero decir, no es tan inmediato obtener la información. La complejidad que le hemos encontrado es tal, que casi se trata de hacer un navegador para decodificarlo, o por lo menos al nivel que tenemos.

La solución más inmediata ha sido que la aplicación genera un archivo sh. Simplemente es un comando de consola de linux que se conecta a la página, hace la consulta y devuelve en forma de String toda la información.

Pegas:
    - Necesita de la aplicación html2text de Linux.
    - Ahora sólo corre la aplicación para Linux.

Este es el script:

#!/bin/bash
curl -s \"http://www.kalipedia.com/diccionarios/lengua-espanola/$1\" | html2text

Si a alguien se le ocurre algo, estamos abiertos a cualquier sugerencia!!!

No hay comentarios:

Publicar un comentario