嘿,HN!我在Waymo构建了自驾模拟和评估系统。现在,我正在开发Scorecard,旨在将这种方法应用于代理评估:为人工智能提供可重复、自动化的评分。Scorecard让你可以:
- 在代理工作流程中运行大型语言模型作为评审的评估:测试工具使用情况、多步骤推理和在CI/CD或游乐场中的任务完成情况。
- 使用OpenTelemetry追踪调试失败:查看哪个工具失败、为什么你的代理出现循环,以及推理出错的地方。
- 在数据集、模拟代理和评估指标上进行协作。
试试吧 → [https://app.scorecard.io](https://app.scorecard.io)(免费套餐,无需付款!)
文档 → [https://docs.scorecard.io](https://docs.scorecard.io)
我们是一个小团队(4人),刚刚筹集了375万美元,目前已有早期客户在法律科技领域使用Scorecard进行评估。
我们的使命是消除非确定性错误。你见过的最奇怪的LLM输出是什么?
返回首页
最新
嘿,HN,
这个B2B PMF评分工具可以输入一个网站URL,并生成PMF分析报告,包含一个0到100的评分、具体建议以及模拟用户研究的结果。
注意:运行大约需要5分钟!示例链接: [https://semilattice.ai/pmf-report-1760452680406.pdf](https://semilattice.ai/pmf-report-1760452680406.pdf)
这是一个展示Semilattice(模拟用户研究)功能的演示,但我们希望它本身也能对你有所帮助。
该工具解析网站上的营销信息,以匹配我们的受众模型,然后利用该模型预测与产品、信息传递和受众相关的12个PMF研究问题。基于这些模拟数据,它生成PDF报告(也提供markdown格式)。
关于Semilattice:我们正在构建用户洞察作为基础设施。我们的API可以预测特定目标受众对任意问题的回答,即近乎即时的调查。我们使用真实的基础数据构建受众模型,并提供评估工具,以确保始终有一个估计的准确性(目前平均超过87%)。文档链接:[https://docs.semilattice.ai](https://docs.semilattice.ai)
我们希望成为更好决策和更个性化用户体验/内容的API层。如果你想与我们合作,请随时联系。
嗨,HN,
和大家一样,我正在开发一个使用大型语言模型(LLMs)从照片和文档中提取数据的产品。处理流程的一部分是从PDF中提取原始文本或光栅图像。
作为我们潜在客户开发策略的一部分,我们开放了一个REST API,允许您处理PDF的页面。该API可以匿名免费使用,但限制为每30秒处理1页。创建一个免费账户可以解除此限制。
这两个端点是:
- <a href="https://extract.dev/api/pages/extract/raster" rel="nofollow">https://extract.dev/api/pages/extract/raster</a> - 将PDF的一页转换为光栅图像
- <a href="https://extract.dev/api/pages/extract/text" rel="nofollow">https://extract.dev/api/pages/extract/text</a> - 从PDF的一页中提取文本
这两个接口的请求格式相同:
```json
{
"file": "https://assets.extract-cdn.com/data/hd-receipt.pdf",
"page": 1
}
```
我在这里概述了更多文档:<a href="https://extract.dev/docs" rel="nofollow">https://extract.dev/docs</a>
在后台,API使用Poppler来提取文本和光栅化页面。请注意,文本提取功能提取的是PDF中实际编码的文本,而不使用OCR模型。欢迎试用,如果您觉得这个工具有用,我很期待您的反馈。
嗨,HN
当 ProductHunt Ship 关闭时,我很怀念一个简单的方式来收集早期注册、给我的等待名单发送邮件,以及查看一个产品创意获得多少关注,而不需要设置半打工具。
所以我创建了 Debutsoft。这是一个轻量级的预发布工具,专为创作者和独立创始人设计。你可以创建一个简洁的着陆页,收集和导出等待名单的注册,发送更新邮件,并在一个地方查看基本的分析数据。
我的目标是:
- 简单性:发布的页面加载快速且外观美观,无需编辑模板。
- 所有权:你始终拥有自己的数据,并可以随时导出。
- 经济性:没有免费套餐(所有功能都需要一定的费用),但定价较低,早期用户可以获得终身创始人计划。
目前仍在测试阶段,我非常重视你的反馈。如果你有一个预发布项目或者只是想测试一下,可以在不到一分钟的时间内创建一个。
<a href="https://debutsoft.com" rel="nofollow">https://debutsoft.com</a>
我很想听听你的想法,特别是关于哪些分析或自定义功能你觉得最有用。
感谢你的阅读,
詹姆斯