返回首页
最新
想知道有没有HN的朋友参加过Stripe Sessions,并获得了什么有价值的收获。
我刚刚推出了一款名为 Parsie 的 Google Sheets 插件,它可以帮助您直接从非结构化文档中提取结构化数据和表格(如姓名、电子邮件、发票总额等),并将其导入到 Google Sheets 中——包括 PDF、截图等。
与仅仅将杂乱文本输出的基础 OCR 工具不同,Parsie 像人类一样理解文档。它采用了以模板为先的方式:
1) 您定义所需的数据
2) Parsie 仅提取这些数据
3) 您获得干净、一致的输出。
在后台:
– 由 GPT 模型和微软 Azure OCR 提供支持(自 2018 年以来排名第一)
– 理解数据点之间的上下文和关系
– 支持 100 多种语言
– 处理扫描的 PDF、图像、DOCX、手写文本和复杂布局
使用场景:
– 发票、收据和银行对账单
– 保险和法律文件
– 表单提交
– 任何将杂乱文档转化为结构化数据的工作流程
高级功能:
– AI 辅助的自定义模式
– 多行提取
– 批量文档处理
– 元数据(文件名、Drive URL 等)
在这里试用: <a href="https://workspace.google.com/marketplace/app/advanced_ocr_extract_text_numbers_and_ta/386593592681" rel="nofollow">https://workspace.google.com/marketplace/app/advanced_ocr_ex...</a>
网站: <a href="https://parsie.pro/" rel="nofollow">https://parsie.pro/</a>
期待您的反馈或改进建议。欢迎提问!
我有一个网站,包含数百万篇文章,这些文章是由Llama、GPT和Gemini生成的。可以想象,这里发生了大量的爬虫抓取。一般来说,我允许那些遵循robots.txt并自我标识为爬虫的程序随意抓取。我认为,如果网站能够“被”大型语言模型(LLMs)收录,可能会获得更多的曝光。否则,我会尝试阻止它们。
随着时间的推移,尤其是最近,我看到成千上万的不同IP地址在抓取我的网站。它们使用随机或变化的用户代理。起初,我阻止了来自巴西的/16段IP,因为大部分流量似乎来自那里,但在过去几周,IP地址来自各个地方。每个IP只发出几次请求,试图保持低调。目前,我设置了一些脚本来阻止并记录这些IP。
我每分钟阻止50到100个独特的IP地址,而这已经是在我阻止了主要的中国大型语言模型爬虫和几个/16段IP之后。很少有这些IP属于明显的服务提供商,许多似乎只是家庭用户。还有很多来自那些没有资金建设大型语言模型的国家,甚至还有无线电话公司的IP。
这些请求没有特别恶意,它们只是下载页面。
我是不是漏掉了什么?是否有新的僵尸网络在抓取网络?快速查看我的日志显示,在过去90分钟内我已经阻止了15,000个请求,但其中只有1,300个是重复的IP,这些IP已被加入我的阻止列表。昨天,我阻止了220,000个请求,其中只有13,000个是重复的。