Me animó a escribir este consejo/truco debido a tantas preguntas recibidas para este problema.
Supongamos que tenemos un montón de cadenas HTML, pero lo que desea es eliminar todas las etiquetas HTML y dejar solo el texto plano sin formato.
Puedes utilizar Regex para rescatarlo.
El Regex que había desarrollado antes era más complicado, entonces, alguien me hizo una sugerencia, por lo que ahora es más sencillo, es un «\<[^\>]*\>».
Lo he probado para muchos casos. Detecta todo tipo de etiquetas HTML, pero puede haber lagunas en el interior por lo que si usted encuentra cualquier etiqueta que no están pasando a través de este Regex, por favor, ten la amabilidad de informar sobre la misma.
Definición Regex
-
Regex: \<[^\>]*\>
- Literal >
- Cualquier carácter que no en esta clase: [\>], cualquier número de repeticiones
- Literal >
Programa
string ss = "<b><i>The tag is about to be removed</i></b>"; Regex regex = new Regex("\\<[^\\>]*\\>"); Response.Write(String.Format("<b>Before:</b>{0}", ss)); // Texto HTML Response.Write("<br/>"); ss = regex.Replace(ss, String.Empty); Response.Write(String.Format("<b>After:</b>{0}", ss));// Texto plano como SALIDA
Programa de comprensión
El programa anterior sólo encuentra las coindicencias de la cadena Regex y sustituye las mismas con una cadena vacía. Supon que tienes una cadena HTML como » <li>Hiren</li> «, entonces retornara como salida una cadena con un simple «Hiren» como un texto plano.