本帖最后由 amo 于 2020-6-11 12:00 编辑
下面不是我的站,但是程序一样,错误一样,现在看来是程序什么地方的问题了
http://www.0832h.com/index.php?caid=3&ccid6=188&ccid1=210 (抓取失败 403错误)
http://www.0832h.com/index.php?caid=3 (抓取成功)
连个页面在浏览器访问,curl,17ce.com测试都是正常的200状态
但是用这个网页抓取测试(和百度站长抓取结果一致)http://www.cjzzc.com/crawl.html显示
- [cls_envBase::AllowRobot()]NetworkError: 403 Forbidden
复制代码

百度站长抓取测试http头
- HTTP/1.1 403 Forbidden
- Date: Wed, 10 Jun 2020 07:55:24 GMT
- Content-Type: text/html;charset=gbk
- Transfer-Encoding: chunked
- Connection: close
- Set-Cookie: __cfduid=d0f2fe465f3d2cdab45372b9d2c4bbc761591775724; expires=Fri, 10-Jul-20 07:55:24 GMT; path=/; domain=.*****.com; HttpOnly; SameSite=Lax
- Vary: Accept-Encoding
- Set-Cookie: PHPSESSID=mim2pjumofi2lsgp7b6ldobci2; path=/
- Expires: Thu, 19 Nov 1981 08:52:00 GMT
- Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
- Pragma: no-cache
- CF-Cache-Status: DYNAMIC
- cf-request-id: 033ed31ac80000fb06dc195200000001
- Expect-CT: max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"
- Server: yunjiasu-nginx
- CF-RAY: 5a1187a47f3cfb06-TSN
复制代码
1,开始以为是服务器环境问题,因为之前安装宝塔面板的时候安装了免费防火墙,有乱七八糟安装了几个插件。
所以直接服务器全盘格式化之后重新安装了web面板和系统。但是问题依旧
2,关闭了百度的CDN之后,在抓取测试那块显示源服务器IP之后抓取依旧失败
3,robots文件没有什么修改,看了下没有什么问题
4,把这几个php文件权限调成777 问题依旧
5,网站并未使用伪静态
实在想不到还有什么问题了。。。
看起来好像是程序的问题,因为不同的网站相同的程序,遇到同样的问题
|