返回首页
最新
大家好,我们是Phil、Ian和Jonny,我们正在构建BlankBio([https://blank.bio](https://blank.bio))。我们正在训练RNA基础模型,以支持一个用于治疗的计算工具包。我们的第一个应用是mRNA设计,我们的愿景是让任何生物学家都能设计出有效的治疗序列([https://www.youtube.com/watch?v=ZgI7WJ1SygI](https://www.youtube.com/watch?v=ZgI7WJ1SygI))。
BlankBio源于我们在该领域的博士研究,这些研究是开源的。我们有一个模型[2]和一个带有API访问的基准[0]。
mRNA有潜力编码疫苗、基因疗法和癌症治疗。然而,设计有效的mRNA仍然是一个瓶颈。目前,科学家通过手动编辑序列AUGCGUAC...并通过反复试验测试结果来设计mRNA。这就像编写汇编代码并管理单独的内存地址。这个领域充斥着针对治疗公司的资本:Strand(1.53亿美元)、Orna(2.21亿美元)、Sail Biomedicines(4.4亿美元),但解决这些问题的工具仍然处于低级水平。这正是我们希望解决的问题。
一个大问题是mRNA序列难以理解。它们编码一些特性,比如半衰期(RNA在细胞中存活的时间)和翻译效率(蛋白质产出),但我们不知道如何优化它们。为了获得有效的治疗,我们需要更高的精度。科学家需要针对特定细胞类型的序列,以减少剂量和副作用。
我们设想一个未来,RNA设计师可以在更高的抽象层次上操作。想象一下这样的代码:
```python
seq = "AUGCAUGCAUGC..."
seq = BB.half_life(seq, target="6 hours")
seq = BB.cell_type(seq, target="hepatocytes")
seq = BB.expression(seq, level="high")
```
为了实现这一目标,我们需要来自预训练模型的可泛化RNA嵌入。在我们的博士研究期间,Ian和我致力于RNA的自监督学习(SSL)目标。这种方法使我们能够在未标记数据上进行训练,并具有以下优点:(1)我们不需要嘈杂的实验数据;(2)未标记数据的数量远大于标记数据。然而,挑战在于标准的自然语言处理(NLP)方法在基因组序列上效果不佳。
通过使用联合嵌入架构的方法(对比学习),我们训练模型识别功能相似的序列,而不是预测每个核苷酸。这一方法效果显著。我们的1000万参数模型Orthrus在4个GPU上训练14小时,超越了在1000个GPU上训练一个40亿参数模型Evo2一个月的结果[0]。在mRNA半衰期预测方面,仅通过对我们的嵌入进行线性回归,我们的表现超过了监督模型。这项在我们学术时期完成的工作是我们正在构建的基础。我们正在改进训练算法,扩大预训练数据集,并利用参数扩展,目标是设计出有效的mRNA治疗。
我们有很多话要说,为什么其他SSL方法比下一个标记预测和掩蔽语言建模效果更好:其中一些可以在Ian的博客文章[1]和我们的论文[2]中查看。一个重要的结论是,当前将NLP应用于生物序列模型扩展的方法无法完全解决问题。基因组的90%可以变异而不影响适应性,因此训练模型预测这种嘈杂序列会导致次优的嵌入[3]。
我们认为数字革命和RNA革命之间有很强的相似性。在计算机早期,程序员编写汇编代码,直接管理寄存器和内存地址。今天的RNA设计师通过反复试验手动调整序列,以提高稳定性或降低免疫原性。正如编译器解放了程序员不必关注低级细节,我们正在为RNA构建抽象层。
我们目前与一些早期阶段的生物科技公司进行试点,证明我们的嵌入的实用性,我们的开源模型已被赛诺菲和GSK等公司使用。我们正在寻找:(1)在RNA相关领域工作的合作伙伴;(2)希望从任何尝试设计RNA序列的人那里获得反馈,你们遇到了哪些痛点?(3)其他应用的想法!我们与一些生物标志物提供公司进行了交谈,一些初步分析显示出改善的分层效果。
感谢您的阅读。欢迎就技术方法、基因组与语言的不同之处或其他任何问题进行提问。
- Phil、Ian和Jonny
founders@blankbio.com
[0] mRNABench: [https://www.biorxiv.org/content/10.1101/2025.07.05.662870v1](https://www.biorxiv.org/content/10.1101/2025.07.05.662870v1)
[1] Ian的博客关于扩展: [https://quietflamingo.substack.com/p/scaling-is-dead-long-live-scaling](https://quietflamingo.substack.com/p/scaling-is-dead-long-live-scaling)
[2] Orthrus: [https://www.biorxiv.org/content/10.1101/2024.10.10.617658v3](https://www.biorxiv.org/content/10.1101/2024.10.10.617658v3)
[3] Zoonomia: [https://www.science.org/doi/10.1126/science.abn3943](https://www.science.org/doi/10.1126/science.abn3943)
<a href="https://archive.ph/5gJNi" rel="nofollow">https://archive.ph/5gJNi</a>
我发现与团队在同一个代码库中进行vibecode非常困难,因为每天都有成千上万行代码被提交。多个vibecoder如何高效地协同工作?你们使用了哪些策略来管理这个问题?
我与许多在印度的自由职业者、承包商和创作者进行了交谈,他们的收入来自国外。<p>一个明显的趋势是:
→ 由于像Skydo和Infinity这样的工具,收款几乎变得毫无障碍。
→ 但一旦涉及合规(如GST、TDS、FEMA申报、会计师协调),一切就仿佛回到了过去。<p>人们告诉我,他们不得不在电子表格之间周旋,通过WhatsApp联系会计师,并在截止日期临近时感到恐慌。对比非常明显:资金流动已经现代化,但合规流程仍然是手动的、分散的,且令人压力重重。<p>这让我思考:
→ 为什么跨境支付如此迅速地现代化,而合规却被抛在了后面?
→ 是因为法规的复杂性、缺乏对开发者的激励,还是因为“税收”并不是一个令人兴奋的问题?<p>有没有哪里(印度或其他地方)做得比较好的例子?<p>为了透明起见:我共同创办了taxtap.in ↗,旨在为印度的自由职业者和承包商解决这个问题。这篇文章并不是为了推销——我更希望听到这个社区的声音。如果你在金融科技领域有过建设经验,或者在印度合规方面遇到过困难,或者对这个差距存在的原因有想法,我非常希望向你学习。
自2015年以来,我就没有做过前端开发。我想重新深入学习这方面的知识,但希望确保我使用的工具是广泛适用的。到2025年,ReactJS 仍然是学习前端开发的首选吗?我知道所有的人工智能工具几乎可以为我编写任何代码,但我希望真正理解它们生成的代码。
致所有非技术行业的内部人士,哪些领域适合被科技和/或人工智能颠覆?工程师往往有一种特定的思维方式,可能会错过他们视野之外的机会。我很好奇在创业圈之外存在哪些小众或被忽视的问题。