我在 Newegg 遇到了一个无限循环的分页陷阱,浪费了几个小时构建一个根本没有机会的抓取器后,才开发了这个工具。
caniscrape 分析一个 URL,并告诉你:
- 当前启用的保护措施(WAF、防 CAPTCHA、速率限制、TLS 指纹识别、蜜罐)
- 难度评分(0-10)
- 你需要的工具/方法
安装:`pip install caniscrape`
使用:`caniscrape https://example.com`
网页版:`https://caniscrape.org`
注意:像亚马逊或 YouTube 这样非常困难的网站会显示为 0,因为它们的机器人保护几乎是不可见的,我会在未来的更新中修复这个问题。
网页版注意事项:
网页版使用的是一个被主要网站列入黑名单的云 IP。我会添加代理轮换来解决这个问题,但目前该网站仅适用于简单/中等难度的网站。
返回首页
最新
聊天GPT商店即将上线。<p>我刚刚制作了一个工具,供人们使用人工智能构建聊天GPT应用。<p>有什么想法吗?
昨天,“copilot.microsoft.com”开始重定向到“m365.cloud.microsoft/search”,我和其他人发现我们之前的聊天记录消失了。我不知道这是否是逐步推出的过程,因为目前还没有引起大规模的愤怒,但如果你使用copilot.microsoft.com,并且在那儿有有用的数据,且仍然没有失去访问权限,建议你备份任何想要保留的内容。此外,如果有微软的工作人员在阅读这条信息:这是怎么回事?一个公司投入如此多精力在copilot品牌上,为什么要牺牲它来引导客户使用Office?