Java删除了html标签的各种姿势。
一、背景
在业务开发中可能有必要删除所有html标签。本文集成了各种方法供您参考。
二、方法
2.1 纯正则方法
2.2 使用 javax.swing.text.html.HTMLEditorKit
2.3 使用Jsoup框架
2.4 使用Apache Tika
注意这里经过本人实验有个小坑,WriteOutContentHandler参数是限制的字符数,这个如果不设置默认是1万,超过会报异常。
具体的jar包请自行到中央仓库里搜索依赖配置
三、提供一个工具类
可以将资源路径的文本类型文件(如json/html)读取成字符串
四、摘要
有多种删除html标签的方法。建议在实际使用它们之前进行测试。
第3节中提供的工具可用于在测试期间读取资源文件。
如果正则表达式不能满足您的需求,则可以自己进一步对其进行优化。
如果仍然存在其他情况未考虑的特殊情况,则可以使用常规规则删除此特殊情况。
简而言之,这只是参考,并提供了多种解决方案。
我来说两句