Remover todas las etiquetas HTML y dejar solo el texto plano

Inicio > Programacion > Remover todas las etiquetas HTML y dejar solo el texto plano

Remover todas las etiquetas HTML y dejar solo el texto plano

domingo, 17 de diciembre de 2023 Dejar un comentario Ir a comentarios

Me animó a escribir este consejo/truco debido a tantas preguntas recibidas para este problema.

Supongamos que tenemos un montón de cadenas HTML, pero lo que desea es eliminar todas las etiquetas HTML y dejar solo el texto plano sin formato.

Puedes utilizar Regex para rescatarlo.

El Regex que había desarrollado antes era más complicado, entonces, alguien me hizo una sugerencia, por lo que ahora es más sencillo, es un «\<[^\>]*\>».

Lo he probado para muchos casos. Detecta todo tipo de etiquetas HTML, pero puede haber lagunas en el interior por lo que si usted encuentra cualquier etiqueta que no están pasando a través de este Regex, por favor, ten la amabilidad de informar sobre la misma.

Definición Regex

Regex: \<[^\>]*\>
- Literal >
- Cualquier carácter que no en esta clase: [\>], cualquier número de repeticiones
- Literal >

Programa

string ss = "<b><i>The tag is about to be removed</i></b>";
        Regex regex = new Regex("\\<[^\\>]*\\>");
        Response.Write(String.Format("<b>Before:</b>{0}", ss)); // Texto HTML
        Response.Write("<br/>");
        ss = regex.Replace(ss, String.Empty);
        Response.Write(String.Format("<b>After:</b>{0}", ss));// Texto plano como SALIDA

Programa de comprensión

El programa anterior sólo encuentra las coindicencias de la cadena Regex y sustituye las mismas con una cadena vacía. Supon que tienes una cadena HTML como » <li>Hiren</li> «, entonces retornara como salida una cadena con un simple «Hiren» como un texto plano.

Comparte y diviertete: