3作者: PixelPanda大约 1 个月前原帖
很高兴分享 Nanonets-OCR-s,这是一款强大且轻量级(3B)的视觉语言模型(VLM),能够将文档转换为干净、结构化的 Markdown 格式。该模型经过训练,能够理解文档的结构和内容上下文(如表格、公式、图像、图表、水印、复选框等)。 <p>主要特点:</p> <p>LaTeX 公式识别:将行内和块级数学公式转换为正确格式的 LaTeX,区分 $...$ 和 $$...$$。</p> <p>LLMs 的图像描述:使用结构化的 &lt;img&gt; 标签描述嵌入的图像,处理徽标、图表、绘图等。</p> <p>签名检测与隔离:在扫描文档中查找并标记签名,以 &lt;signature&gt; 块的形式输出。</p> <p>水印提取:提取水印文本并将其存储在 &lt;watermark&gt; 标签中以便追溯。</p> <p>智能复选框与单选按钮处理:将复选框转换为 Unicode 符号,如 , ,以便在下游应用中可靠解析。</p> <p>复杂表格提取:处理多行/列表格,保留结构并输出 Markdown 和 HTML 格式。</p> <p>Huggingface / GitHub / 试用:</p> <a href="https://huggingface.co/nanonets/Nanonets-OCR-s" rel="nofollow">https://huggingface.co/nanonets/Nanonets-OCR-s</a> <p>在 Colab 中与 Docext 一起试用:<a href="https://github.com/NanoNets/docext/blob/main/PDF2MD_README.md#quickstart">https://github.com/NanoNets/docext/blob/main/PDF2MD_README.md#quickstart</a></p>
2作者: LandOfMightDev大约 1 个月前原帖
我在这里快一个月了……网络速度真是慢得可怜……就连加载中文网站都几乎无法正常使用……我用的是中国电信,这实在太荒谬了。几个月前我在格鲁吉亚(欧洲),那里的网络速度快了十倍。我不明白一个如此发达的国家怎么会有比格鲁吉亚还慢的网络。