返回首页
最新
很高兴分享 Nanonets-OCR-s,这是一款强大且轻量级(3B)的视觉语言模型(VLM),能够将文档转换为干净、结构化的 Markdown 格式。该模型经过训练,能够理解文档的结构和内容上下文(如表格、公式、图像、图表、水印、复选框等)。
<p>主要特点:</p>
<p>LaTeX 公式识别:将行内和块级数学公式转换为正确格式的 LaTeX,区分 $...$ 和 $$...$$。</p>
<p>LLMs 的图像描述:使用结构化的 <img> 标签描述嵌入的图像,处理徽标、图表、绘图等。</p>
<p>签名检测与隔离:在扫描文档中查找并标记签名,以 <signature> 块的形式输出。</p>
<p>水印提取:提取水印文本并将其存储在 <watermark> 标签中以便追溯。</p>
<p>智能复选框与单选按钮处理:将复选框转换为 Unicode 符号,如 , ,以便在下游应用中可靠解析。</p>
<p>复杂表格提取:处理多行/列表格,保留结构并输出 Markdown 和 HTML 格式。</p>
<p>Huggingface / GitHub / 试用:</p>
<a href="https://huggingface.co/nanonets/Nanonets-OCR-s" rel="nofollow">https://huggingface.co/nanonets/Nanonets-OCR-s</a>
<p>在 Colab 中与 Docext 一起试用:<a href="https://github.com/NanoNets/docext/blob/main/PDF2MD_README.md#quickstart">https://github.com/NanoNets/docext/blob/main/PDF2MD_README.md#quickstart</a></p>
这是一种相当有趣的互动体验,涉及一个来自未来过去的想象设备。它是使用react-three-fiber、gemini和spotify构建的,我还借助了大量的人工智能辅助来实现这一切。
我在这里快一个月了……网络速度真是慢得可怜……就连加载中文网站都几乎无法正常使用……我用的是中国电信,这实在太荒谬了。几个月前我在格鲁吉亚(欧洲),那里的网络速度快了十倍。我不明白一个如此发达的国家怎么会有比格鲁吉亚还慢的网络。