Archivo

Entradas Etiquetadas ‘libxml2’

Extracción de datos de HTML

jueves, 17 de octubre de 2024 1 comentario

Mucha gente trata de extraer el contenido de HTML – el primer enfoque siempre parece ser el uso de expresiones regulares, que son incapaces de analizar el código. Entonces, ¿cómo hacerlo bien con PHP?

Esto es bastante trivial e intuitivo de hacer – más simple que escribir expresiones regulares para la mayoría de la gente. PHP tiene esta fantástico extensión DOM, que se basa en libxml2 y no sólo puede trabajar con XML, sino también con HTML. Echemos un vistazo a un snippet para la extracción de todos los enlaces de una página web:
Leer más…

Top Footer