java 去掉html/style/css等标签

//定义script的正则表达式
private static String regEx_script="<script[^>]*?>[\s\S]*?<\/script>";

//定义style的正则表达式
private static String regEx_style="<style[^>]*?>[\s\S]*?<\/style>";

//定义HTML标签的正则表达式
private static String regEx_html="<[^>]+>";

//定义空格回车换行符
private static String regEx_space = "\s*| | | ";//定义空格回车换行符

/**
* 验证名称中是否含有标签，并返回字符串
* @param htmlStr
* @return
*/
public static String delHTMLTag(String htmlStr) {
Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签

Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
Matcher m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 过滤style标签

Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 过滤html标签

Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
Matcher m_space = p_space.matcher(htmlStr);
htmlStr = m_space.replaceAll(""); // 过滤空格回车标签
return htmlStr.trim(); // 返回文本字符串
}
/**
* 获取标签中的字符串
* @param htmlStr
* @return
*/
public static String getTextFromHtml(String htmlStr){
htmlStr = delHTMLTag(htmlStr);
htmlStr = htmlStr.replaceAll(" ","");
//htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);
return htmlStr;
}

public static void main(String[] args) {
String str = "<html>alert(2)</html>";
System.out.println(getTextFromHtml(str));
}

相关阅读:
MySQL 常用到的几个字符处理函数
MySQL DATE_SUB查询工龄大于35的员工信息
Mysql 没有nvl()函数，却有一个类似功能的函数ifnull();
switch 循环中的case理解
批处理系统和分时系统各具有什么特点？为什么分时系统的响应比较快？
存储式计算机的主要特点是什么？
代码实现导航栏分割线
Keras函数式API介绍
Keras通过子类（subclass）自定义神经网络模型
R语言kohonen包主要函数介绍

原文地址：https://www.cnblogs.com/yaomajor/p/6019570.html