新闻中心
PHP中高效并行检查多链接状态的教程

本文旨在解决php脚本在循环检查多个远程文件链接时遇到的`err_connection_reset`问题。通过分析传统`get_headers`方法的局限性,我们提出并详细演示了如何利用php的curl多请求功能(`curl_multi_*`)实现高效、并行且健壮的链接状态检查,从而避免连接重置错误,并显著提升脚本性能。
在开发PHP脚本以检查远程服务器上文件的存在性时,开发者常会遇到一个常见但棘手的问题:当脚本尝试连续检查大量URL时,可能会收到ERR_CONNECTION_RESET错误,甚至导致后续无法通过浏览器访问这些链接。即使引入sleep()函数进行延迟,也往往无法彻底解决问题。这通常是由于服务器端的连接限制、防火墙规则或客户端在短时间内发起了过多同步请求,导致服务器主动断开连接。
get_headers()方法的局限性
原始问题中使用的get_headers()函数,虽然在检查单个URL时非常方便,但其本质是一个同步阻塞操作。这意味着每次请求都会等待服务器响应,然后才能发起下一个请求。当脚本在短时间内对同一服务器发起大量此类请求时,可能会触发以下问题:
- 服务器端限速或连接限制: 许多Web服务器或CDN服务会实施IP限速或并发连接数限制,以防止DDoS攻击或资源滥用。短时间内的大量同步请求很容易触及这些限制,导致服务器返回ERR_CONNECTION_RESET或直接拒绝连接。
- 资源消耗: 每次get_headers()调用都会建立一个新的HTTP连接。频繁地建立和关闭连接会消耗服务器和客户端的资源。
- 效率低下: 同步请求意味着脚本必须等待每个请求完成才能继续,这在处理大量URL时效率极低。即使添加sleep()延迟,也只是缓解了问题,并未从根本上解决同步阻塞的低效性。
解决方案:利用PHP cURL多请求并行处理
为了克服get_headers()的局限性,PHP的cURL扩展提供了一套强大的多请求(curl_multi_*)API,允许开发者并行处理多个HTTP请求。这种方式具有以下显著优势:
- 并行处理: 脚本可以同时发起多个请求,大大减少了总执行时间。
- 资源优化: cURL多请求可以在一定程度上复用连接,减少了连接建立和关闭的开销。
- 更强的控制力: 提供了丰富的选项来配置请求,例如超时、代理、HTTP头等。
- 避免连接重置: 通过并行而非顺序地分散请求,可以更有效地管理与服务器的交互,降低触发服务器端限速的风险。
cURL多请求工作原理与实现
使用cURL多请求处理多个URL的基本步骤如下:
PatentPal专利申请写作
AI软件来为专利申请自动生成内容
274
查看详情
- 初始化多请求句柄: 使用curl_multi_init()创建一个cURL多请求句柄。
-
创建并配置单个cURL句柄: 对于每个要检查的URL,使用curl_init()创建一个独立的cURL句柄,并使用curl_setopt()配置其行为。
- CURLOPT_URL:设置请求的URL。
- CURLOPT_FILETIME:获取远程文档的时间。
- CURLOPT_NOBODY:设置为true时,cURL将发送一个HEAD请求,只获取响应头,不下载实际内容。这对于检查文件存在性非常高效。
- CURLOPT_RETURNTRANSFER:设置为true时,cURL会将获取的响应作为字符串返回,而不是直接输出。
- CURLOPT_HEADER:设置为true时,响应中会包含HTTP头信息。
- 将单个句柄添加到多请求句柄: 使用curl_multi_add_handle()将每个配置好的cURL句柄添加到多请求句柄中。
- 并行执行请求: 使用一个循环和curl_multi_exec()函数来持续执行所有请求,直到所有请求都完成。curl_multi_exec()是非阻塞的,它会尽可能地执行当前可用的请求,并通过第二个参数$still_running指示是否还有请求正在进行。
- 处理请求结果: 在所有请求完成后,遍历之前存储的单个cURL句柄数组。对于每个句柄,使用curl_getinfo()获取请求的详细信息,特别是HTTP状态码(CURLINFO_HTTP_CODE),以判断文件是否存在。
- 资源清理: 使用curl_multi_remove_handle()从多请求句柄中移除单个cURL句柄,并使用curl_multi_close()关闭多请求句柄,释放资源。
示例代码
以下是使用cURL多请求并行检查多个文件URL的示例代码:
<?php
function checkAllUrls() {
$revisionNumber = 25;
$minorNumber = 2;
$buildNumber = 128;
// 初始化cURL多请求句柄
$multiCurl = curl_multi_init();
$curlHandles = []; // 用于存储每个cURL句柄及其关联信息
// 循环构建URL并创建单个cURL句柄
for ($x = $buildNumber; $x > 0; $x--) {
// 构建文件URL
$combinedUrl = 'http://update.example.com/Files/Updates/6.' . $revisionNumber . '.' . $minorNumber . '.' . $x . '/application7_' . $revisionNumber . '_' . $minorNumber . '_' . $x . '_de_FullInstallerx64.exe';
// 初始化单个cURL句柄
$curl = curl_init();
// 设置URL
curl_setopt($curl, CURLOPT_URL, $combinedUrl);
// 获取文件时间(可选)
curl_setopt($curl, CURLOPT_FILETIME, true);
// 只发送HEAD请求,不下载内容,高效检查文件存在性
curl_setopt($curl, CURLOPT_NOBODY, true);
// 将响应作为字符串返回,而不是直接输出
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
// 包含响应头信息
curl_setopt($curl, CURLOPT_HEADER, true);
// 设置连接超时和请求超时,防止长时间等待
curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 5); // 连接超时5秒
curl_setopt($curl, CURLOPT_TIMEOUT, 10); // 总请求超时10秒
// 将单个cURL句柄添加到多请求句柄中
curl_multi_add_handle($multiCurl, $curl);
// 存储句柄及其关联的build号,以便后续处理
$curlHandles[] = ['curl' => $curl, 'build' => $x];
}
// 执行所有cURL请求直到完成
$stillRunning = null;
do {
// 循环执行cURL请求,直到所有请求都处理完毕
// curl_multi_exec是非阻塞的,会处理所有可用的请求
$mrc = curl_multi_exec($multiCurl, $stillRunning);
} while ($stillRunning > 0 && $mrc == CURLM_OK); // 确保没有错误发生
// 遍历所有句柄,处理请求结果
foreach ($curlHandles as $item) {
$curl = $item['curl'];
$build = $item['build'];
file_put_contents('log.txt', "Checking Build: " . $build . "\n", FILE_APPEND);
// 获取HTTP状态码
$httpCode = curl_getinfo($curl, CURLINFO_HTTP_CODE);
// 获取实际请求的URL
$effectiveUr
l = curl_getinfo($curl, CURLINFO_EFFECTIVE_URL);
if ($httpCode === 404) {
// HTTP 404 Not Found 表示文件不存在
$exists = "no";
file_put_contents('log.txt', $effectiveUrl . " - " . "does not exist. \n", FILE_APPEND);
} else if ($httpCode >= 200 && $httpCode < 300) {
// HTTP 2xx 状态码表示请求成功,文件存在
$exists = "yes";
file_put_contents('log.txt', $effectiveUrl . " - " . "exists. \n", FILE_APPEND);
} else {
// 其他状态码,例如 5xx 服务器错误,或者连接失败等
$exists = "unknown";
file_put_contents('log.txt', $effectiveUrl . " - " . "status: " . $httpCode . " (could not verify existence). \n", FILE_APPEND);
}
// 从多请求句柄中移除当前cURL句柄并关闭它
curl_multi_remove_handle($multiCurl, $curl);
curl_close($curl); // 显式关闭单个cURL句柄
}
// 关闭cURL多请求句柄
curl_multi_close($multiCurl);
}
// 调用函数执行检查
// checkAllUrls(); // 在实际应用中调用此函数注意事项与最佳实践
- 错误处理: 在实际应用中,除了检查HTTP状态码,还应该检查curl_multi_exec()和curl_getinfo()可能返回的错误码,以处理网络问题、DNS解析失败等情况。
- 超时设置: CURLOPT_CONNECTTIMEOUT(连接超时)和CURLOPT_TIMEOUT(总请求超时)是关键选项,它们可以防止脚本因某个无响应的服务器而长时间阻塞。
- 用户代理(User-Agent): 某些服务器可能会根据User-Agent头进行过滤。设置一个合适的User-Agent(CURLOPT_USERAGENT)可以模拟浏览器行为,避免被服务器拒绝。
- 并发数控制: 尽管cURL多请求支持并行,但同时发起的请求数量并非越多越好。过多的并发请求仍然可能对客户端和服务器造成压力。在处理数千甚至数万个URL时,可以考虑分批处理(例如,每次处理50或100个URL),以平衡效率和资源消耗。
- 资源清理: 务必确保在所有操作完成后,使用curl_multi_remove_handle()移除每个句柄,并最终使用curl_multi_close()关闭多请求句柄,以释放系统资源。
总结
当PHP脚本需要高效、健壮地检查大量远程链接时,get_headers()等同步方法因其效率低下和容易触发服务器端限制而不再适用。通过采用PHP的cURL多请求机制,开发者可以实现请求的并行处理,显著提升脚本性能,有效避免ERR_CONNECTION_RESET等连接问题,并对请求过程拥有更细粒度的控制。理解并正确运用curl_multi_*函数是构建高性能网络请求处理脚本的关键。
以上就是PHP中高效并行检查多链接状态的教程的详细内容,更多请关注php中文网其它相关文章!
# 网站优化搜索关键词软件
# 移除
# 遍历
# 长时间
# 客户端
# 时间内
# 解决问题
# 目标网站优化建议
# 崇礼区网站建设哪家好
# 设置为
# 江苏专业网站优化有哪些
# 浑南区网站建设优化价格
# 网站标签优化标准
# 东川网站建设哪家专业
# 包河网络营销推广技巧
# 安徽网站免费建设
# 上海排名seo公司
# php
# 专利申请
# 多个
# 句柄
# dns解析失
# php脚本
# 并发请求
# 网络问题
# 资源优化
# 状态码
# cdn
# dns
# curl
# app
# 浏览器
# 防火墙
相关栏目:
【
科技资讯46185 】
【
网络学院92790 】
相关推荐:
J*aScript井字棋(Tic-Tac-Toe)核心交互逻辑实现教程
Steam官网入口直达 Steam注册及登录步骤
Win11怎么隐藏桌面图标 Win11一键隐藏所有桌面元素及恢复显示
Typer应用中动态命令行参数的解析与处理
美团外卖商家服务中心入口 美团商家版官网入口
Golang如何优雅处理error_Golang error处理最佳实践总结
mc.js游戏直达 mc.js网页免下载版本秒进地址
AI抖音网页版免费视频入口 AI抖音网页端最新视频实时观看
Python Socket多播通信中指定源IP地址的实践指南
Go语言中高效处理x-www-form-urlencoded表单数据
微信群消息显示延迟如何解决 微信群消息刷新优化方法
机器学习中对数变换预测结果的反向还原
高德地图公交到站提醒失败如何解决 高德提醒权限设置
Python字典中优雅地迭代剩余元素的方法
Composer的 archive 命令怎么用_快速打包你的PHP项目及其Composer依赖
R星幕后开发视频泄露 包含《GTA6》等多款大作
J*aScript设计模式实践_j*ascript代码优化
c++ dfs和bfs代码 c++深度广度优先搜索算法
解决Python单元测试中Mock异常方法调用计数为零的问题
写好的html代码怎么运行出来_运行写好的html代码方法【教程】
动漫花园资源网使用步骤_动漫花园资源网下载流程
在J*a中如何捕获IndexOutOfBoundsException_索引越界异常防护方法说明
1688商家版怎样分析买家画像精准供货_1688商家版分析买家画像精准供货【供货策略】
漫蛙2正版漫画站 漫蛙2网页版快速访问入口
漫蛙漫画登录站点 漫蛙2正版漫画快速访问
在命令行怎么运行html项目_命令行运行html项目方法【教程】
Win10如何恢复误删的快捷方式_Win10重建常用软件快捷方式
J*aScript map 迭代中检测空数组元素的有效方法
微信网页版登录教程_微信网页版登录入口在哪
CSS实现侧边栏导航项全宽圆角悬停背景效果
UC浏览器网页版登录入口官网 电脑版网址入口
Python中如何避免重复条件判断:利用数据结构实现动态逻辑
Go语言中Map值调用指针接收器方法的限制与应对
LocoySpider如何部署到云服务器_LocoySpider云部署的远程配置
zookeeper 都有哪些功能?
俄罗斯Yandex免登录入口_Yandex搜索引擎官网一键直达
QQ邮箱在线使用入口 QQ邮箱个人账号网页版登录
百度浏览器字体显示异常偏小_百度浏览器字体渲染修复方案
如何使用Node.js csv 包按条件移除含空字段的CSV记录
微信网页版官方入口教程 微信网页版网页版快速登录步骤
J*aScript中安全有效地处理localStorage字符串数据
J*aScript中赋值与自增运算符的复杂交互与执行机制
C#如何安全地从用户上传的XML文件中读取数据? 验证与清理策略
c++ 获取系统当前时间 c++时间戳获取方法
星露谷物语官网入口 星露谷物语游戏官网入口
《主播少女的秘密账号迷宫》首支宣传片
AO3镜像入口大全 AO3网页版内容访问全集
TypeScript/J*aScript:高效查找数组中首个唯一ID对象
蛙漫2日版入口 WAMAN2(日版)无删减漫画官网链接
利用5118提升短视频内容效果_5118短视频关键词优化方法


2025-12-01
浏览次数:次
返回列表
l = curl_getinfo($curl, CURLINFO_EFFECTIVE_URL);
if ($httpCode === 404) {
// HTTP 404 Not Found 表示文件不存在
$exists = "no";
file_put_contents('log.txt', $effectiveUrl . " - " . "does not exist. \n", FILE_APPEND);
} else if ($httpCode >= 200 && $httpCode < 300) {
// HTTP 2xx 状态码表示请求成功,文件存在
$exists = "yes";
file_put_contents('log.txt', $effectiveUrl . " - " . "exists. \n", FILE_APPEND);
} else {
// 其他状态码,例如 5xx 服务器错误,或者连接失败等
$exists = "unknown";
file_put_contents('log.txt', $effectiveUrl . " - " . "status: " . $httpCode . " (could not verify existence). \n", FILE_APPEND);
}
// 从多请求句柄中移除当前cURL句柄并关闭它
curl_multi_remove_handle($multiCurl, $curl);
curl_close($curl); // 显式关闭单个cURL句柄
}
// 关闭cURL多请求句柄
curl_multi_close($multiCurl);
}
// 调用函数执行检查
// checkAllUrls(); // 在实际应用中调用此函数