嗨,HN,
我一直在开发一个专门针对机器学习数据集准备的OCR管道。它旨在处理复杂的学术材料,包括数学公式、表格、图形和多语言文本,并输出干净、结构化的格式,如JSON和Markdown。
一些特点:
- 多阶段OCR,结合了DocLayout-YOLO、Google Vision、MathPix和Gemini Pro Vision
- 能够提取和理解图表、表格、LaTeX风格的数学公式以及多语言文本(包括日语、韩语和英语)
- 针对机器学习训练管道进行了高度调优,包括数据集生成和RAG或微调任务的预处理
包含了样本输出和基于真实考试的示例(如EJU生物、东京大学数学等)。
非常希望听到大家的反馈或改进建议。
GitHub: [https://github.com/ses4255/Versatile-OCR-Program](https://github.com/ses4255/Versatile-OCR-Program)
返回首页
最新
你好,
我主要通过直觉编程构建了这个项目——它是为那些没有时间每天监控加密市场的人设计的。
该软件允许你添加所有想要监控的加密货币(包括你的投资组合),并每天向你发送包含更新、人工智能建议、交易信号和分析的新闻简报。你还可以轻松设置价格提醒。
在仪表板上,你可以与人工智能聊天,讨论你关注的加密货币。
我最喜欢的功能之一是“建议新代币”工具——它利用新闻来推荐代币,有时这些建议会出人意料地有趣。
告诉我你的想法!监控最多5种加密货币是免费的。
<a href="https://aicryptoagent.org/" rel="nofollow">https://aicryptoagent.org/</a>
祝你有美好的一天!