Extracción del contenido principal

Extrae la información esencial de una página web.

¿Por qué es útil?

Extraer información de un sitio web es útil e importante para cada usuario. Sin embargo, no siempre es una tarea fácil. Al navegar por la web, se pueden encontrar muchos elementos inútiles o que causan ruido y desvían nuestra atención de la información que sí es relevante.

El contenido principal de una página web contiene la información relevante para el usuario. Por lo general, está compuesto por texto, imágenes y otros elementos multimedia, y suele estar rodeado o incluso interrumpido por información irrelevante, como encabezados, pies de página, menús, banners, anuncios, etc.

Extraer el contenido principal en una página web puede ser útil para:

  • Herramientas de accesibilidad, porque las personas pueden empezar a leer automáticamente el contenido real de la página.
  • Otros sistemas y herramientas, como indexadores o 'wrappers', como una etapa preliminar para evitar 'banners' y contenido innecesario en fases posteriores del análisis.

Una ventaja importante de esta herramienta es que no solo extrae el texto del contenido principal de la página web, sino también imágenes, videos y cualquier otro contenido multimedia.

Dos tipos de extractores

Una técnica a nivel de página solo tiene en cuenta los elementos, nodos DOM y texto de la URL proporcionada como entrada. El principal beneficio de una herramienta a nivel de página es que solo necesita cargar y analizar una única página web para detectar el contenido principal. Esto aumenta la velocidad del algoritmo en comparación con las técnicas a nivel de sitio.

Una técnica a nivel de sitio, por otro lado, va más allá del análisis de una sola página. Además de la URL dada, carga y examina otras páginas del mismo sitio web para identificar patrones recurrentes, lo que ayuda a extraer con precisión el contenido principal. Aunque este enfoque es más lento, mejora la fiabilidad de la extracción al utilizar información de múltiples páginas dentro del mismo sitio.

Cuando usas CESY, puedes elegir el tipo de extractor que prefieras.

FAQ

  • Extract Content: It automatically extracts the main content of a webpage.
  • Format Output: It extracts main content in HTML, XML, JSON and plain text format.

This software has been designed and implemented in the computer science labs of the UPV.

Yes, MEW is able to work on a synchronous and asynchronous way.

Ejemplos

Desliza el control para ver la página web antes y después de extraer su contenido principal. Todos los demás elementos quedan ocultos.

1. Historia de la Universidad de Nueva York (original)

ex1ex1.2

2. Naciones Unidas, Noticias y Medios, Francés (original)

nationsunites2nationsunites1

3. Página de los Partners de Linux Mint (original)

linux2linux1

4. Congreso de Industria, noticias sobre Digital Twins (original)

digitaltwins2digitaltwins1

¿Quieres probarlo por ti mismo?