返回首页
最新
我很高兴地宣布Kreuzberg v3.0于昨天发布。
Kreuzberg是一个获得MIT许可的Python库,能够从各种文档(PDF、图像、办公文件等)中提取文本,而无需依赖外部API。
与该领域的其他库和商业产品不同,Kreuzberg的设计目标是(1)轻量级,(2)以CPU为导向,(3)易于使用,以及(4)将异步支持作为一等公民。
v3.0版本彻底重构了架构,以增强可扩展性。Kreuzberg现在支持:
- 多种OCR后端(Tesseract、PaddleOCR、EasyOCR),OCR本身是完全可选的。
- 支持自定义提取器和覆盖内置提取器。
- 后处理和验证钩子。
- 广泛的PDF元数据提取。
- 可选的语义分块支持。
此外,还有一个全新的文档网站,地址为<a href="https://goldziher.github.io/kreuzberg" rel="nofollow">https://goldziher.github.io/kreuzberg</a>。
我还发布了项目的路线图,您可以在这里查看:<a href="https://github.com/Goldziher/kreuzberg/discussions/24" rel="nofollow">https://github.com/Goldziher/kreuzberg/discussions/24</a>。
您可以在<a href="https://github.com/Goldziher/kreuzberg" rel="nofollow">https://github.com/Goldziher/kreuzberg</a>查看代码库,如果您觉得这个项目有价值,请给我加星,这将激励我继续努力!
《打破我》是一个有趣的小消遣游戏,可以帮助你放松心情,清理思绪。玩法非常简单——随意玩耍,突然间,它会给你带来一些你根本没想到的东西。这个游戏奇妙而有趣。
为了不违反政治指导方针,我想讨论一个自新政府上任以来我一直在思考的话题:<p>我担心如果事情继续这样发展,美国的科学,特别是NASA,可能会被孤立,无法与全球科学界接轨。<p>这里有没有人能对我的担忧进行理性检验,除了这个问题的政治和推测性质之外?
我突然想到,有时候对我们程序员来说,简单并不一定足够好。似乎我们有时会享受与复杂甚至是错综复杂的系统斗争。有人能理解这种感觉吗?我并不是说这是一种普遍现象,甚至对我自己也不是……但我怀疑这可能是有的。
我遇到过一些例子,可能事情比需要的更复杂:ReactJS、Azure 模板(以及基础设施即代码/配置的一般情况)。
难道我们在处理复杂系统时,真的需要某种满足感吗?我们是否“如此喜欢复杂”,以至于有时会制造出比实际需要的更多复杂性,因为那样更让人享受?
或者说,这种思考是否可以被归入那些听起来不错但实际上毫无意义的想法(以及其他流行的智识主义)?
*编辑:不想偏离主题,但为了那些可能对我使用的术语感到困惑的人,我在这里将程序员与软件工程师或开发者交替使用(我知道它们之间可能存在差异,但老实说我并不太确定具体是什么)——基本上是指我们这些在这个行业工作并编写代码的人。*