使用 XPath 提取文本：substring-after 函数的应用_石家庄创泽智能科技有限公司

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

使用 XPath 提取文本：substring-after 函数的应用

2025-10-10

浏览次数：次

返回列表

使用 xpath 提取文本：substring-after 函数的应用

本文旨在解决使用 XPath 提取特定文本内容时遇到的问题，特别是当直接使用 text() 函数无法获取目标文本，且目标文本位于特定分隔符之后的情况。通过介绍 substring-after 函数的使用方法，帮助读者准确提取所需文本，并提供 XPath 表达式示例。

在进行网页数据抓取或 XML 文档解析时，XPath 是一种强大的工具，用于定位和提取文档中的元素和属性。然而，有时直接使用 text() 函数可能无法获取到目标文本，尤其是在文本节点周围存在其他元素或空白字符时。本文将介绍如何使用 XPath 的 substring-after 函数来解决这类问题，并提供详细的示例。

问题描述

假设我们有如下 HTML 代码片段，目标是提取 "Aug 7, 2019 at 9:34 am ET" 这段文本：

<span class="meta"><span class="authordata">
<a href="https://example.com" title="Posts by me" rel="author">Author</a></span> | Aug 7, 2019 at 9:34 am ET
</span>

如果直接使用 //span[@class="meta"]/text() 这样的 XPath 表达式，可能无法得到期望的结果，因为 text() 函数返回的是所有文本节点的集合，而目标文本可能不是第一个文本节点，或者前面存在空白字符。

解决方案：使用 substring-after 函数

substring-after 函数可以从一个字符串中提取指定分隔符之后的部分。它的语法如下：

substring-after(string, substring)

其中，string 是要搜索的字符串，substring 是分隔符。

在本例中，我们可以使用 substring-after 函数来提取 " | " 之后的内容。首先，我们需要定位到包含目标文本的 span 元素。一种方法是使用 span/a/@rel="author" 来定位包含作者链接的 span 元素。

TWE-Commerce

一个功能强大的B2B与B2C的购物平台，除了原本OSC功能外，增加更新的功能：一、取消了register_globals必须开启的限制二、將HTML程式碼与PHP程式碼完全分离，採用了smarty 樣板引擎三、每支档案includes所需函数与资料库连结，使的网页显示速度明显提升四、检视、购买商品群组权限设定五、十八岁以下禁购机制六、折价券购物抵扣机制七、礼券购物机制

0 查看详情 TWE-Commerce

然后，我们可以使用 substring-after 函数来提取 " | " 之后的内容。完整的 XPath 表达式如下：

substring-after(//span[span/a/@rel="author"],' |')

这个表达式首先找到包含作者链接的 span 元素，然后提取该元素的字符串值中 " | " 之后的部分，即 "Aug 7, 2019 at 9:34 am ET"。

示例代码 (Python + lxml)

以下是使用 Python 和 lxml 库来执行上述 XPath 表达式的示例代码：

from lxml import html

html_string = """
<span class="meta"><span class="authordata">
<a href="https://example.com" title="Posts by me" rel="author">Author</a></span> | Aug 7, 2019 at 9:34 am ET
</span>
"""

tree = html.fromstring(html_string)

xpath_expression = "substring-after(//span[span/a/@rel='author'],' |')"

result = tree.xpath(xpath_expression)

print(result)

这段代码首先使用 lxml 库将 HTML 字符串解析成一个树形结构。然后，使用 xpath 方法执行 XPath 表达式，并将结果打印出来。

注意事项