解决动态加载内容爬取问题：利用XHR请求获取隐藏数据

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 网络学院

解决动态加载内容爬取问题：利用XHR请求获取隐藏数据

2025-11-25

浏览次数：次

返回列表

解决动态加载内容爬取问题：利用XHR请求获取隐藏数据

本教程旨在解决使用beautifulsoup爬取网页时，因内容动态加载而无法获取目标数据的问题。当页面元素通过j*ascript的xhr请求异步加载时，直接解析初始html将失败。文章将详细阐述如何通过浏览器开发者工具识别这些xhr请求，并利用python的`requests`库直接调用api接口，从而成功获取并处理动态生成的数据。

在进行网页数据抓取时，开发者常会遇到一个常见问题：尽管在浏览器中能看到完整的页面内容，但使用BeautifulSoup等解析工具获取到的HTML却缺少部分目标数据。这通常是由于网站采用了动态加载技术，即页面内容并非一次性从服务器加载，而是通过J*aScript在页面加载完成后，通过XMLHttpRequest (XHR) 或 Fetch API 异步请求数据并更新DOM。

理解动态加载与XHR请求

当您尝试从https://www.parliament.lk/en/members-of-parliament/directory-of-members/?cletter=A这样的页面抓取

内容，但soup.find('ul', id='demoFour')返回空标签时，这正是动态加载的典型表现。页面上的成员列表很可能是在初始HTML加载完毕后，通过J*aScript向后端发送了一个API请求，然后将返回的数据渲染到id="demoFour"的
1. 打开目标网页。
2. 打开开发者工具，切换到“网络 (Network)”标签页。
3. 刷新页面，或者在页面上进行任何可能触发数据加载的操作（例如点击分页、筛选等）。
4. 在“网络”标签页中，筛选“XHR”或“Fetch/XHR”类型，观察是否有请求返回了您想要的数据。通常这些请求的URL会包含api、data或与页面内容相关的关键词，并且响应类型多为JSON。
通过分析，我们可以发现，该网站的成员列表数据实际上是通过向https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php发送一个POST请求获取的，该请求的参数包括了字母筛选（letter）等信息，并返回JSON格式的数据。

解决方案：直接调用API接口

一旦确定了数据源的API接口，我们就可以绕过前端渲染过程，直接使用Python的requests库向该接口发送请求，获取原始数据。
语鲸
AI智能阅读辅助工具
314 查看详情
以下是实现这一策略的Python代码示例：
```
from bs4 import BeautifulSoup
import requests
import string
import json # 导入json库用于处理JSON响应

# 存储抓取到的数据
data = []

# 遍历所有大写字母，模拟页面按字母筛选的功能
for letter in list(string.ascii_uppercase):
    # 构建API请求URL和POST请求体
    api_url = 'https://www.parliament.lk/members-of-parliament/directory-of-members/index2.php'
    # 注意：这里是一个POST请求，需要传递form data
    payload = {
        'option': 'com_members',
        'task': 'all',
        'tmpl': 'component',
        'letter': letter,
        'wordfilter': '',
        'search_district': ''
    }

    try:
        # 发送POST请求获取数据
        # 实际的请求是POST，并且参数在请求体中
        result = requests.post(api_url, data=payload)
        result.raise_for_status() # 检查HTTP请求是否成功 (状态码200)

        # 解析JSON响应
        members_json = result.json()

        # 遍历返回的成员列表
        for member_info in members_json:
            # 提取所需信息并添加到数据列表中
            data.append({
                'url': f"https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/{member_info['mem_intranet_id']}",
                'id': member_info['mem_intranet_id'],
                'name': member_info['member_sname_eng']
            })
    except requests.exceptions.RequestException as e:
        print(f"请求字母 '{letter}' 时发生错误: {e}")
    except json.JSONDecodeError as e:
        print(f"解析字母 '{letter}' 的响应时发生JSON错误: {e}")

# 打印抓取到的数据
print(data)
```
代码解析：
1. 导入必要的库：requests用于发送HTTP请求，string用于生成字母列表，json用于解析API返回的JSON数据。
2. 遍历字母表：网站的成员目录是按字母分类的，因此我们通过遍历string.ascii_uppercase来模拟按字母筛选的操作，确保获取所有成员的信息。
3. 构建API请求：
  - api_url是实际提供成员数据的后端接口地址。
  - payload是一个字典，包含了POST请求所需的表单数据（form data），这些参数是从开发者工具中分析XHR请求的“负载 (Payload)”或“表单数据 (Form Data)”部分获取的。
4. 发送POST请求：使用requests.post()方法发送POST请求，并将payload作为data参数传递。
5. 错误处理：result.raise_for_status()用于在HTTP请求返回错误状态码时抛出异常。try-except块用于捕获网络请求和JSON解析可能发生的错误，提高程序的健壮性。
6. 解析JSON响应：result.json()方法将HTTP响应体解析为Python字典或列表。
7. 提取并存储数据：遍历解析后的JSON数据，提取每个成员的ID、英文名等信息，并构建一个包含成员详情URL的字典，最后将其添加到data列表中。
抓取结果示例

执行上述代码后，data列表将包含一个结构化的字典列表，每个字典代表一个议会成员，包含其URL、ID和姓名，例如：
```
[{'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3266',
  'id': '3266',
  'name': 'A. Ar*indh Kumar'},
 {'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/50',
  'id': '50',
  'name': 'Abdul Haleem'},
 {'url': 'https://www.parliament.lk/en/members-of-parliament/directory-of-members/viewMember/3325',
  'id': '3325',
  'name': 'Ajith Rajapakse'},
 ...]
```
注意事项与进阶
- User-Agent和Headers：某些网站可能会检查请求头中的User-Agent。如果直接请求API被拒绝，尝试在requests.post()中添加headers参数，模拟浏览器行为。
- 频率限制与IP封锁：频繁的请求可能会触发网站的频率限制或IP封锁。考虑添加time.sleep()在请求之间设置延迟，或使用代理IP池。
- 动态参数：本例中的letter参数是显而易见的。在更复杂的场景中，API请求的参数可能包含动态生成的令牌（token）、时间戳或其他加密信息。这需要更深入的分析J*aScript代码来理解其生成逻辑。
- 详细页面抓取：本教程只获取了成员的基本信息。如果需要每个成员的详细资料，您可以使用抓取到的url字段，进一步对每个成员的详情页发送requests.get()请求，并使用BeautifulSoup解析这些详情页。
总结

当传统的BeautifulSoup解析方法无法获取到网页上的内容时，很可能是因为内容通过J*aScript动态加载。解决之道在于利用浏览器开发者工具分析网络请求，找到数据源的API接口，并直接使用requests库模拟这些XHR请求来获取原始数据。这种方法更直接、高效，并且能获取到结构化的JSON数据，极大地简化了数据处理过程。掌握这一技巧，将使您在面对现代动态网页时，能够更有效地进行数据抓取。