全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1033|回复: 13
打印 上一主题 下一主题

【已解决】崩溃了,百度抓取失败,找不到问题

[复制链接]
跳转到指定楼层
1#
发表于 2020-6-10 16:12:21 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
本帖最后由 amo 于 2020-6-11 12:00 编辑

下面不是我的站,但是程序一样,错误一样,现在看来是程序什么地方的问题了

http://www.0832h.com/index.php?caid=3&ccid6=188&ccid1=210  (抓取失败 403错误)
http://www.0832h.com/index.php?caid=3                                    (抓取成功)
连个页面在浏览器访问,curl,17ce.com测试都是正常的200状态
但是用这个网页抓取测试(和百度站长抓取结果一致)http://www.cjzzc.com/crawl.html显示
  1. [cls_envBase::AllowRobot()]NetworkError: 403 Forbidden
复制代码


百度站长抓取测试http头

  1. HTTP/1.1 403 Forbidden
  2. Date: Wed, 10 Jun 2020 07:55:24 GMT
  3. Content-Type: text/html;charset=gbk
  4. Transfer-Encoding: chunked
  5. Connection: close
  6. Set-Cookie: __cfduid=d0f2fe465f3d2cdab45372b9d2c4bbc761591775724; expires=Fri, 10-Jul-20 07:55:24 GMT; path=/; domain=.*****.com; HttpOnly; SameSite=Lax
  7. Vary: Accept-Encoding
  8. Set-Cookie: PHPSESSID=mim2pjumofi2lsgp7b6ldobci2; path=/
  9. Expires: Thu, 19 Nov 1981 08:52:00 GMT
  10. Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
  11. Pragma: no-cache
  12. CF-Cache-Status: DYNAMIC
  13. cf-request-id: 033ed31ac80000fb06dc195200000001
  14. Expect-CT: max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"
  15. Server: yunjiasu-nginx
  16. CF-RAY: 5a1187a47f3cfb06-TSN
复制代码


1,开始以为是服务器环境问题,因为之前安装宝塔面板的时候安装了免费防火墙,有乱七八糟安装了几个插件。
所以直接服务器全盘格式化之后重新安装了web面板和系统。但是问题依旧
2,关闭了百度的CDN之后,在抓取测试那块显示源服务器IP之后抓取依旧失败
3,robots文件没有什么修改,看了下没有什么问题
4,把这几个php文件权限调成777 问题依旧
5,网站并未使用伪静态

实在想不到还有什么问题了。。。

看起来好像是程序的问题,因为不同的网站相同的程序,遇到同样的问题
推荐
发表于 2020-6-10 16:17:09 | 只看该作者
域名不放出来,又要别人排错,可能吗?
14#
发表于 2020-6-10 19:13:49 | 只看该作者
访问 www.0832h.com 的请求遭到拒绝您未获授权,无法查看此网页。
HTTP ERROR 403

你应该是禁用百度UA了
13#
发表于 2020-6-10 18:35:42 | 只看该作者
cls_envBase::AllowRobot
去数据库查查有没有对应的关键字 表啥的  这可能程序自带的 限制蜘蛛爬虫功能说不定
12#
发表于 2020-6-10 18:14:28 | 只看该作者
可能程序本身自己有白名单,对UA判断或者IP判断有放行封禁
11#
 楼主| 发表于 2020-6-10 18:08:59 | 只看该作者

你可以看看帖子,发了玉米
10#
 楼主| 发表于 2020-6-10 18:04:04 | 只看该作者
citywar 发表于 2020-6-10 17:41
随便新建个网站 绑个域名  再模拟抓取下
看看是服务器的安全设置。还是网站的问题。 ...

http://www.0832h.com/index.php?caid=3&ccid6=188&ccid1=210 失败
http://www.0832h.com/index.php?caid=3                                    成功
你可以在这测试下:http://www.cjzzc.com/crawl.html

程序问题
9#
发表于 2020-6-10 17:41:16 | 只看该作者
amo 发表于 2020-6-10 17:33
哥们
这个抓取就是在百度站长平台测试的
你看这个套了CF的是百度云加速,之前测试关了也不行 ...

随便新建个网站 绑个域名  再模拟抓取下
看看是服务器的安全设置。还是网站的问题。
8#
 楼主| 发表于 2020-6-10 17:33:31 | 只看该作者
citywar 发表于 2020-6-10 16:59
百度站长资源平台 不是有自己的模拟抓取工具吗。
套了CF 看看设置

哥们
这个抓取就是在百度站长平台测试的
你看这个套了CF的是百度云加速,之前测试关了也不行
7#
发表于 2020-6-10 16:59:39 | 只看该作者
百度站长资源平台 不是有自己的模拟抓取工具吗。
套了CF 看看设置
6#
发表于 2020-6-10 16:51:18 | 只看该作者
域名PM瞧瞧咯
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-11-23 03:38 , Processed in 0.084969 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表