1作者: maximedupre6 个月前原帖
我开发了一个小型爬虫,专注于完成一项任务。你只需传入网址,它会跟踪内部链接并返回找到的电子邮件。重点是速度和低噪音。 技术栈和保护措施:Crawlee + Cheerio。每个页面超时15秒,重试2次,最多请求约100次,去重后的电子邮件。通过mailto链接和可见文本提取。一个典型的网站在30秒内完成。 输出格式:JSON行 { url, email }。可以导出为CSV或传输到你自己的应用。 从代码中使用:支持JavaScript和Python的API客户端,OpenAPI,命令行接口(CLI),以及一个MCP端点。只需一个令牌和一次调用。 定价:按结果付费。每1000封电子邮件5美元。你可以先免费试用。 我希望从HN(黑客新闻)获得的反馈:出现问题的边缘案例、你注意到的误报、感觉不合理的限制。欢迎提供示例网站。