2作者: nhirschfeld大约 1 个月前原帖
我很高兴地宣布Kreuzberg v3.0于昨天发布。 Kreuzberg是一个获得MIT许可的Python库,能够从各种文档(PDF、图像、办公文件等)中提取文本,而无需依赖外部API。 与该领域的其他库和商业产品不同,Kreuzberg的设计目标是(1)轻量级,(2)以CPU为导向,(3)易于使用,以及(4)将异步支持作为一等公民。 v3.0版本彻底重构了架构,以增强可扩展性。Kreuzberg现在支持: - 多种OCR后端(Tesseract、PaddleOCR、EasyOCR),OCR本身是完全可选的。 - 支持自定义提取器和覆盖内置提取器。 - 后处理和验证钩子。 - 广泛的PDF元数据提取。 - 可选的语义分块支持。 此外,还有一个全新的文档网站,地址为<a href="https://goldziher.github.io/kreuzberg" rel="nofollow">https://goldziher.github.io/kreuzberg</a>。 我还发布了项目的路线图,您可以在这里查看:<a href="https://github.com/Goldziher/kreuzberg/discussions/24" rel="nofollow">https://github.com/Goldziher/kreuzberg/discussions/24</a>。 您可以在<a href="https://github.com/Goldziher/kreuzberg" rel="nofollow">https://github.com/Goldziher/kreuzberg</a>查看代码库,如果您觉得这个项目有价值,请给我加星,这将激励我继续努力!
1作者: whiteboardr大约 1 个月前原帖
为了不违反政治指导方针,我想讨论一个自新政府上任以来我一直在思考的话题:<p>我担心如果事情继续这样发展,美国的科学,特别是NASA,可能会被孤立,无法与全球科学界接轨。<p>这里有没有人能对我的担忧进行理性检验,除了这个问题的政治和推测性质之外?
6作者: keepamovin大约 1 个月前原帖
我突然想到,有时候对我们程序员来说,简单并不一定足够好。似乎我们有时会享受与复杂甚至是错综复杂的系统斗争。有人能理解这种感觉吗?我并不是说这是一种普遍现象,甚至对我自己也不是……但我怀疑这可能是有的。 我遇到过一些例子,可能事情比需要的更复杂:ReactJS、Azure 模板(以及基础设施即代码/配置的一般情况)。 难道我们在处理复杂系统时,真的需要某种满足感吗?我们是否“如此喜欢复杂”,以至于有时会制造出比实际需要的更多复杂性,因为那样更让人享受? 或者说,这种思考是否可以被归入那些听起来不错但实际上毫无意义的想法(以及其他流行的智识主义)? *编辑:不想偏离主题,但为了那些可能对我使用的术语感到困惑的人,我在这里将程序员与软件工程师或开发者交替使用(我知道它们之间可能存在差异,但老实说我并不太确定具体是什么)——基本上是指我们这些在这个行业工作并编写代码的人。*