全球主机交流论坛

标题: 【已解决】崩溃了,百度抓取失败,找不到问题 [打印本页]

作者: amo    时间: 2020-6-10 16:12
标题: 【已解决】崩溃了,百度抓取失败,找不到问题
本帖最后由 amo 于 2020-6-11 12:00 编辑

下面不是我的站,但是程序一样,错误一样,现在看来是程序什么地方的问题了

http://www.0832h.com/index.php?caid=3&ccid6=188&ccid1=210  (抓取失败 403错误)
http://www.0832h.com/index.php?caid=3                                    (抓取成功)
连个页面在浏览器访问,curl,17ce.com测试都是正常的200状态
但是用这个网页抓取测试(和百度站长抓取结果一致)http://www.cjzzc.com/crawl.html显示
  1. [cls_envBase::AllowRobot()]NetworkError: 403 Forbidden
复制代码


百度站长抓取测试http头

  1. HTTP/1.1 403 Forbidden
  2. Date: Wed, 10 Jun 2020 07:55:24 GMT
  3. Content-Type: text/html;charset=gbk
  4. Transfer-Encoding: chunked
  5. Connection: close
  6. Set-Cookie: __cfduid=d0f2fe465f3d2cdab45372b9d2c4bbc761591775724; expires=Fri, 10-Jul-20 07:55:24 GMT; path=/; domain=.*****.com; HttpOnly; SameSite=Lax
  7. Vary: Accept-Encoding
  8. Set-Cookie: PHPSESSID=mim2pjumofi2lsgp7b6ldobci2; path=/
  9. Expires: Thu, 19 Nov 1981 08:52:00 GMT
  10. Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
  11. Pragma: no-cache
  12. CF-Cache-Status: DYNAMIC
  13. cf-request-id: 033ed31ac80000fb06dc195200000001
  14. Expect-CT: max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"
  15. Server: yunjiasu-nginx
  16. CF-RAY: 5a1187a47f3cfb06-TSN
复制代码


1,开始以为是服务器环境问题,因为之前安装宝塔面板的时候安装了免费防火墙,有乱七八糟安装了几个插件。
所以直接服务器全盘格式化之后重新安装了web面板和系统。但是问题依旧
2,关闭了百度的CDN之后,在抓取测试那块显示源服务器IP之后抓取依旧失败
3,robots文件没有什么修改,看了下没有什么问题
4,把这几个php文件权限调成777 问题依旧
5,网站并未使用伪静态

实在想不到还有什么问题了。。。

看起来好像是程序的问题,因为不同的网站相同的程序,遇到同样的问题

作者: Syc    时间: 2020-6-10 16:17
域名不放出来,又要别人排错,可能吗?
作者: yemingtu    时间: 2020-6-10 16:19
这问题昨天不是问过吗?
作者: 香港高防服务器    时间: 2020-6-10 16:21
状态码是200,那就多抓取几次试试  
作者: 哈登    时间: 2020-6-10 16:31
这种动态域名,做伪静态很容易吧
做伪静态也更方便百度抓取
作者: hxuf    时间: 2020-6-10 16:51
域名PM瞧瞧咯
作者: citywar    时间: 2020-6-10 16:59
百度站长资源平台 不是有自己的模拟抓取工具吗。
套了CF 看看设置
作者: amo    时间: 2020-6-10 17:33
citywar 发表于 2020-6-10 16:59
百度站长资源平台 不是有自己的模拟抓取工具吗。
套了CF 看看设置

哥们
这个抓取就是在百度站长平台测试的
你看这个套了CF的是百度云加速,之前测试关了也不行
作者: citywar    时间: 2020-6-10 17:41
amo 发表于 2020-6-10 17:33
哥们
这个抓取就是在百度站长平台测试的
你看这个套了CF的是百度云加速,之前测试关了也不行 ...

随便新建个网站 绑个域名  再模拟抓取下
看看是服务器的安全设置。还是网站的问题。
作者: amo    时间: 2020-6-10 18:04
citywar 发表于 2020-6-10 17:41
随便新建个网站 绑个域名  再模拟抓取下
看看是服务器的安全设置。还是网站的问题。 ...

http://www.0832h.com/index.php?caid=3&ccid6=188&ccid1=210 失败
http://www.0832h.com/index.php?caid=3                                    成功
你可以在这测试下:http://www.cjzzc.com/crawl.html

程序问题
作者: amo    时间: 2020-6-10 18:08
hxuf 发表于 2020-6-10 16:51
域名PM瞧瞧咯

你可以看看帖子,发了玉米
作者: squalll    时间: 2020-6-10 18:14
可能程序本身自己有白名单,对UA判断或者IP判断有放行封禁
作者: citywar    时间: 2020-6-10 18:35
cls_envBase::AllowRobot
去数据库查查有没有对应的关键字 表啥的  这可能程序自带的 限制蜘蛛爬虫功能说不定
作者: hxuf    时间: 2020-6-10 19:13
访问 www.0832h.com 的请求遭到拒绝您未获授权,无法查看此网页。
HTTP ERROR 403

你应该是禁用百度UA了




欢迎光临 全球主机交流论坛 (https://hostloc.onozo.cc/) Powered by Discuz! X3.4