synthroid taking instructions

Inicio > Programacion > Remover todas las etiquetas HTML y dejar solo el texto plano

Remover todas las etiquetas HTML y dejar solo el texto plano

miércoles, 20 de septiembre de 2017 Dejar un comentario Ir a comentarios

Me animó a escribir este consejo/truco debido a tantas preguntas recibidas para este problema.

Supongamos que tenemos un montón de cadenas HTML, pero lo que desea es eliminar todas las etiquetas HTML y dejar solo el texto plano sin formato.

Puedes utilizar Regex para rescatarlo.

El Regex que había desarrollado antes era más complicado, entonces, alguien me hizo una sugerencia, por lo que ahora es más sencillo, es un “\<[^\>]*\>”.


Lo he probado para muchos casos. Detecta todo tipo de etiquetas HTML, pero puede haber lagunas en el interior por lo que si usted encuentra cualquier etiqueta que no están pasando a través de este Regex, por favor, ten la amabilidad de informar sobre la misma.

Definición Regex

  • Regex: \<[^\>]*\>
    • Literal >
    • Cualquier carácter que no en esta clase: [\>], cualquier número de repeticiones
    • Literal >

Programa

string ss = "<b><i>The tag is about to be removed</i></b>";
        Regex regex = new Regex("\\<[^\\>]*\\>");
        Response.Write(String.Format("<b>Before:</b>{0}", ss)); // Texto HTML
        Response.Write("<br/>");
        ss = regex.Replace(ss, String.Empty);
        Response.Write(String.Format("<b>After:</b>{0}", ss));// Texto plano como SALIDA

Programa de comprensión

El programa anterior sólo encuentra las coindicencias de la cadena Regex y sustituye las mismas con una cadena vacía. Supon que tienes una cadena HTML como ” <li>Hiren</li> “, entonces retornara como salida una cadena con un simple “Hiren” como un texto plano.

Comparte y diviertete:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks
  • BarraPunto
  • Bitacoras.com
  • BlinkList
  • Blogosphere
  • Live
  • Meneame
  • MSN Reporter
  • MySpace
  • RSS
  • Suggest to Techmeme via Twitter
  • Technorati
  • LinkedIn
  • email
  • FriendFeed
  • PDF
  • Reddit
  • Wikio IT
  • Add to favorites
  • blogmarks
Categories: Programacion Tags: , ,
  • Saludos, suele suceder que en las bases de datos de contenidos se encuentran muchos textos que incluyen etiquetas html, las cuales se ven desastrosas cuando las presentas en un reporte. Utilizo esas funciones para dejar el texto plano que se ve mejor presentable sin los tags.

  • Hola y gracias por tu sabiduria… ¿pero cual es la mecanica? insertar eses script en un documento de texto plano tipo wordpad o textedit o insertar el codigo en Dreamweaver….? cuantame los pasos estoy interesado

  • Danny Gutiérrez

    Muchas, muchas gracias, yo estaba haciendo un lector de texto para ir buscando los tags, pero iba a ser algo muy engorroso… La creatividad siempre es la madre en estas cosas. Agradezco de verdad tu ayuda.

    Mi consejo es que en ciertos casos los “aplanamientos de texto” necesitan conservar los saltos de línea, por lo que antes de aplicar el filtro se puede reemplazar los tagas br/, /p con “n” para que en cierto modo mantenga el formato.

    Reitero mis agradecimientos por haber encontrado esta publicación.

    Saludos

    Danny

  • Excelente, si tu también tienes algún tema que compartir, por favor no dudes en compartirlo, que mejor a través de mi blog. No te olvides de recomendar mi blog. bye.

  • Antonio Mata Lozano

    Simplemente Genial! Muchas Gracias, llevaba muchos dias buscando algo tan simple y util. Lo probare a fondo y si encuentro alguna etiqueta que no la limpia te lo comentare.

  • Pingback: Bitacoras.com()

Top Footer