返回首页
最新
嗨,HN,
当OpenAI开始逐步将GPT-4o从主要的ChatGPT界面中淘汰时,我注意到了一些意想不到的反响——这并不是关于基准测试或功能,而是关于语气。
很多人(包括我自己)觉得4o有一种特定的对话温暖感,而后来的模型在这方面并没有完全复制。这种差异虽然微妙,却是显而易见的。
因此,我为自己建立了一个小项目: [https://www.ilove4o.com](https://www.ilove4o.com)
这是一个简约的界面,直接通过OpenAI API连接到GPT-4o。没有额外的层次,没有个性化的修改——只是一个专注于4o的聊天体验。
我在这里分享这个项目是因为:
- 似乎用户对模型“个性”有真实的偏好。
- 我很好奇其他人是否也注意到了同样的行为变化。
- 这引发了一个有趣的问题:感知到的“友好感”有多少来自系统提示、用户界面或微妙的模型调优?
如果你尝试了这个项目,我非常希望能收到反馈——尤其是来自那些与多个模型版本有过大量接触的人。
欢迎提出技术或架构方面的问题。
我正在开发 Mdit,这是一款以本地为主的笔记应用,所有内容都以纯 Markdown 文件形式存储。它旨在让写作体验更像 Notion(干净的块状编辑、流畅的格式化),同时保持 Obsidian 的“你的文件,你的控制”理念。
为什么要做这个:我热爱本地拥有和便携性,但我也希望有一个看起来精致且无干扰的编辑器,适合长篇写作。我一直在“用户体验优秀但被锁定”和“本地优先但粗糙不堪”之间徘徊,因此我决定自己动手构建。
它的特点:
- 笔记是磁盘上的真实文件(与 git、备份和其他编辑器兼容良好)
- 在 Markdown 基础上提供类似 Notion 的编辑体验
- 快速搜索,专注于本地工作流程
我希望得到的反馈:
- 关于编辑器体验的反馈(哪些地方感觉很好,哪些地方让人烦恼)
- 你对真正本地的“Notion + Obsidian”混合体的期待
- 任何必备功能,以使本地笔记感觉现代而不变得沉重
目前,Mdit 仅支持 macOS 桌面版,但我计划逐步扩展支持。
我想在不设置VPN或其他复杂网络规则的情况下,从iPhone访问我的Mac终端。因此,我创建了一个有趣的副项目——macky.dev。
当Mac应用程序运行时,它会与我的信令服务器建立出站连接,并在账户下进行注册。iPhone也会连接到这个信令服务器,并请求与该Mac的连接。一旦主机和远程设备都经过验证,就会使用WebRTC建立直接的点对点连接。
我创建 Attest 是因为我看到的每个构建 AI 代理的团队最终都需要编写相同的临时 pytest 骨架——检查是否调用了正确的工具、成本是否在预算之内、输出是否语义合理。这个方法在代理简单时有效,但一旦代理变得复杂,就会崩溃。
代理正确性的 60-70% 是完全确定性的:工具调用模式、执行顺序、成本预算、内容格式。通过大型语言模型(LLM)进行所有这些的判断是昂贵、缓慢且不必要地非确定性的。Attest 首先进行确定性检查,只有在必要时才会升级处理。
八个层次:模式验证 → 成本/性能约束 → 跟踪结构(工具顺序、循环检测) → 内容验证 → 通过本地 ONNX 嵌入进行语义相似性检测(无需 API 密钥) → LLM 作为评判者 → 故障注入模拟 → 多代理跟踪树评估。
```python
from attest import agent, expect
from attest.trace import TraceBuilder
@agent("support-agent")
def support_agent(builder: TraceBuilder, user_message: str):
builder.add_tool_call(name="lookup_user", args={"query": user_message}, result={...})
builder.add_tool_call(name="reset_password", args={"user_id": "U-123"}, result={...})
builder.set_metadata(total_tokens=150, cost_usd=0.005, latency_ms=1200)
return {"message": "Your temporary password is abc123."}
def test_support_agent(attest):
result = support_agent(user_message="Reset my password")
chain = (
expect(result)
.cost_under(0.05)
.tools_called_in_order(["lookup_user", "reset_password"])
.output_contains("temporary password")
.output_similar_to("password has been reset", threshold=0.8)
)
attest.evaluate(chain)
```
`.output_similar_to()` 调用通过 ONNX Runtime 本地运行——无需嵌入 API 密钥。第 1 到第 5 层是免费的或几乎免费的。LLM 评判者仅在进行真正主观的质量评估时被调用。
架构:单一的 Go 二进制引擎(冷启动 1.7 毫秒,100 步跟踪评估小于 2 毫秒),配有轻量级的 Python 和 TypeScript SDK。所有评估逻辑都在引擎中——两个 SDK 产生相同的断言结果。11 个适配器覆盖 OpenAI、Anthropic、Gemini、Ollama、LangChain、Google ADK、LlamaIndex、CrewAI 和 OpenTelemetry。
v0.4.0 版本增加了基于 σ 的漂移检测的持续评估、插件系统、结果历史和 CLI 骨架。引擎和 Python SDK 在四个版本中保持稳定。TypeScript SDK 较新——API 稳定,但尚未经过大规模的实战检验。
我最希望获得反馈的部分是模拟运行时。您可以定义以角色驱动的模拟用户(友好、困惑、对抗),注入故障(延迟、错误、速率限制),并在单个测试套件中对所有这些用户运行您的代理。这在实践中对持续集成(CI)有用吗,还是一个寻求问题的解决方案?
采用 Apache 2.0 许可证。没有自托管的平台,没有 BSL,没有基础设施要求。
GitHub: [https://github.com/attest-framework/attest](https://github.com/attest-framework/attest)
示例: [https://github.com/attest-framework/attest-examples](https://github.com/attest-framework/attest-examples)
网站: [https://attest-framework.github.io/attest-website/](https://attest-framework.github.io/attest-website/)
安装: `pip install attest-ai` / `npm install @attest-ai/core`
在ClawdHub供应链攻击(286个技能中的1个凭证窃取者)之后,我开发了SkillScan——一个免费的、无需身份验证的API,用于扫描skill.md文件中的威胁。
<p>它检测的内容包括:
- 已知的外泄服务(webhook.site,requestbin)
- ~/.env文件读取
- API密钥盗窃(OPENAI_API,ANTHROPIC_,STRIPE_)
- 提示注入(“忽略之前的指令”)
- 社会工程模式
<p>返回一个0到100的安全评分,并附有证据。ClawdHub窃取者的得分为0。
<p>使用以下命令进行扫描:
```
curl -X POST https://skillscan.chitacloud.dev/scan -H "Content-Type: application/json" -d '{"skill_url": "https://example.com/skill.md"}'
```
<p>之所以开发这个工具,是因为最近的研究显示22%到26%的技能存在漏洞。一次恶意安装可能会泄露您所有的LLM API密钥。