返回首页
最新
我最近尝试与一位生物学背景的同事一起创办一家生物过程分析软件的初创公司。我们的初始产品是一款模拟完整生物过程的软件,允许生物实验室技术人员在进行(昂贵的)物理实验之前,初步估算出适合特定培养的可行生物过程配方。用市场营销的术语来说,就是生物过程的数字双胞胎。
由于这家初创公司未能继续推进,我决定发布原型代码——去除了基础生物模型(现在生成随机值)——作为现代软件架构的演示。它包含一个数据库、基于CRUD的后端和一个基于网页的用户界面,所有组件均可通过Docker运行。
由于这是我第一次尝试前端开发,我期待收到建设性的反馈。
很高兴分享 Nanonets-OCR-s,这是一款强大且轻量级(3B)的视觉语言模型(VLM),能够将文档转换为干净、结构化的 Markdown 格式。该模型经过训练,能够理解文档的结构和内容上下文(如表格、公式、图像、图表、水印、复选框等)。
<p>主要特点:</p>
<p>LaTeX 公式识别:将行内和块级数学公式转换为正确格式的 LaTeX,区分 $...$ 和 $$...$$。</p>
<p>LLMs 的图像描述:使用结构化的 <img> 标签描述嵌入的图像,处理徽标、图表、绘图等。</p>
<p>签名检测与隔离:在扫描文档中查找并标记签名,以 <signature> 块的形式输出。</p>
<p>水印提取:提取水印文本并将其存储在 <watermark> 标签中以便追溯。</p>
<p>智能复选框与单选按钮处理:将复选框转换为 Unicode 符号,如 , ,以便在下游应用中可靠解析。</p>
<p>复杂表格提取:处理多行/列表格,保留结构并输出 Markdown 和 HTML 格式。</p>
<p>Huggingface / GitHub / 试用:</p>
<a href="https://huggingface.co/nanonets/Nanonets-OCR-s" rel="nofollow">https://huggingface.co/nanonets/Nanonets-OCR-s</a>
<p>在 Colab 中与 Docext 一起试用:<a href="https://github.com/NanoNets/docext/blob/main/PDF2MD_README.md#quickstart">https://github.com/NanoNets/docext/blob/main/PDF2MD_README.md#quickstart</a></p>
这是一种相当有趣的互动体验,涉及一个来自未来过去的想象设备。它是使用react-three-fiber、gemini和spotify构建的,我还借助了大量的人工智能辅助来实现这一切。
我在这里快一个月了……网络速度真是慢得可怜……就连加载中文网站都几乎无法正常使用……我用的是中国电信,这实在太荒谬了。几个月前我在格鲁吉亚(欧洲),那里的网络速度快了十倍。我不明白一个如此发达的国家怎么会有比格鲁吉亚还慢的网络。