Java 基础教程

Java 面向对象

Java 高级教程

Java 笔记

Java FAQ

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/java-extract-text-from-html.html

java 从 html 标签中提取内容(非正则的方式)

Java 笔记 Java 笔记


通过 java 如何从类似 html 标签中,提取相应的内容,除了正则表达式的方式,还有哪些比较好的解决方法?

推荐方案

可以使用针对 Java 的 HTML 解析器 Jsoup,它可直接解析某个 URL 地址、HTML 文本内容,提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

假设我要提取类似如下内容中,em 标签的内容,具体示例如下:

String str = "中国空间站:<em>天宫</em>核心舱<em>天和</em>发射,中国永久性空间站迈出第一步";

提取 em 标签之间的内容代码如下:

Document doc = Jsoup.parse(str);
if (doc != null) {
    //  提取多个
    List<String> eachText = doc.select("em").eachText();
    //  提取单个
    String text = doc.select("em").text();
}

 

python 中,如果想从带有 html 中的富文本内容中,提取文本有很多种方法。 ...
在Django模板中,truncatechars_html是一个内置的模板过滤器,用于截断包含HTML标签的文本内容。常见的使用场景包括:新 ...
在Django中,获取HTML中表单内容的方式主要有两种:GET和POST方法。首先,在Django中,我们仍然需要定义一个包含表单的HTM ...
在Django中,verbatim是一个模板标签,其主要作用是让Django模板系统忽略标签中的内容,直接原样输出内容,不进行任何解析。它的 ...
当我们对 java 对象数组进行打印的时候,会遇到输出内容是 className + '@' + 16 进制的 hashcode 组成的字符 ...