返回首页
最新
你好!我受到JRPG视频游戏和网络上脑洞内容的启发,构建了一个“平台”,通过面板向人们逐步传授知识,用户可以通过点击空格键或轻触屏幕来推进内容。为了让它与众不同,我使用了非常“轻松”的语言,并添加了一些尴尬的笑话和元素。
目前为了测试这个想法,我添加了两个教程:
- Python类型提示
- 编程面试技巧
现在我在寻找反馈,因为我想知道这种学习方式是否对任何人都有实际帮助。或者这只是我另一个“酷,但没人想要”的想法。
非常感谢任何反馈!谢谢!
嗨,HN!我们是Shraman和Shreyas Kar,正在开发Golpo(<a href="https://video.golpoai.com">https://video.golpoai.com</a>),这是一个用于生成白板风格解释视频的AI工具,能够根据任何文档或提示创建视频。
我们一直以来都通过制作视频来传达各种概念,认为这是最清晰的沟通方式。然而,制作高质量视频耗时且繁琐。它需要规划、编写脚本、录制、编辑以及将声音与画面同步。即使是一个2分钟的视频,也可能需要数小时的时间。
虽然AI视频工具在生成电影场景和炫酷内容方面表现出色,但在解释产品演示、展示复杂工作流程或教授技术主题时却显得力不从心。人们仍然需要花费数小时手动制作解释视频,因为现有的AI工具并不是为了学习或清晰度而设计的。
我们的解决方案是Golpo。我们的在线视频生成引擎能够生成与语音叙述时间对齐的图形,非常适合入职培训、产品演示和教育。它快速、可扩展,并从零开始构建,旨在通过简单的叙事帮助人们理解复杂的想法。
这里有一个演示:<a href="https://www.youtube.com/watch?v=C_LGM0dEyDA#t=7" rel="nofollow">https://www.youtube.com/watch?v=C_LGM0dEyDA#t=7</a>。
Golpo专门为解释、学习和入职培训等用例而设计。在我们(显然有偏见的!)看来,它在真实感和吸引力上是其他AI视频生成器无法比拟的。
Golpo可以生成超过190种语言的视频。在生成视频后,您可以通过自然语言描述想要在每个动态图形中看到的变化,来完全自定义其动画。
实现这一点的过程充满挑战!最初,我们使用了Manim的代码生成方法,微调了一个语言模型,以便直接从输入文本生成Python动画脚本。虽然在小示例中表现良好,但这很快变得脆弱,生成的代码通常包含错误的导入、不支持的变换以及叙述与视觉之间的时间对齐不佳。调试和重新生成这些脚本的速度往往比手动创建还要慢。
我们还探索了训练一个基于扩散的自定义视频模型,但发现这对我们的需求并不实用。扩散可以生成高保真的电影场景,但在生成超过30秒的连贯序列时不可靠,复杂的拼接使得编辑需要重新生成视频的大部分内容,视觉效果常常偏离教学意图,尤其是在抽象或技术主题上。此外,我们也没有足够的计算能力来扩展这一点。
现有的尖端系统如Sora和Veo 3也面临类似的限制:它们优化了电影叙事,而不是逐步的教育内容,并且缺乏时间对齐叙述所需的确定性控制和5到10分钟解释视频的可扩展性。
最终,我们采取了不同的路径,训练一个强化学习代理,以“绘制”白板笔画,逐步优化以实现清晰、类人化的解释。这种方法效果很好,因为动作空间简单,环境并不过于复杂,使得代理能够学习高效、精确且一致的绘图行为。
以下是一些Golpo生成的示例视频:
<a href="https://www.youtube.com/watch?v=33xNoWHYZGA" rel="nofollow">https://www.youtube.com/watch?v=33xNoWHYZGA</a>(白板健身房 - Golpo背后的技术)
<a href="https://www.youtube.com/watch?v=w_ZwKhptUqI" rel="nofollow">https://www.youtube.com/watch?v=w_ZwKhptUqI</a>(RNN是如何工作的?)
<a href="https://www.youtube.com/watch?v=RxFKo-2sWCM" rel="nofollow">https://www.youtube.com/watch?v=RxFKo-2sWCM</a>(C语言中的函数指针)
<a href="https://golpo-podcast-inputs.s3.us-east-2.amazonaws.com/files/4c26c0cf-4938-4371-a74b-a78eb18acc86.mp4" rel="nofollow">https://golpo-podcast-inputs.s3.us-east-2.amazonaws.com/file...</a>(哥德尔定理的基本介绍)
您可以在这里尝试Golpo:<a href="https://video.golpoai.com">https://video.golpoai.com</a>,我们将为您提供2个使用积分。我们非常希望听到您的反馈,特别是关于哪些地方感觉不对、您希望控制的内容以及您可能如何使用它。欢迎留言!
我一直在研究AI搜索优化,并注意到一个问题:大多数品牌并不知道当有人向ChatGPT(或其他大型语言模型)请求相关推荐时,他们是否会被展示出来。
如果你在这里是隐形的,那么你就对越来越多的潜在受众隐形了。
企业工具(如Profound、Semrush AIO等)为大公司提供这方面的跟踪服务,但我想要一个小团队或独立创作者可以在几秒钟内运行的工具,而且没有持续的费用。
GetGPTScore的工作原理如下:
- 输入你的品牌网站网址
- 我们针对ChatGPT(搜索模式)运行定向提示
- 查看GPTScore(0-100)以及改善建议
你可以以4.99美元的固定价格获得完整报告——没有追加销售,没有月度计划。
未来计划:增加Perplexity、Google AI概述、Claude、Gemini。
该工具是用Python和OpenAI API构建的。虽然没有什么花哨的,但它解决了我在尝试让一个副项目在AI回答中被引用时的挫败感。
希望能得到HN的反馈:
- 单一的“AI可见性评分”是否有用?
- 我应该先扩展到更多引擎,还是深入研究ChatGPT?
- 有没有想法让评分更具可信度?
在这里试用: [https://getgptscore.com](https://getgptscore.com)
大家好,我是伊戈尔,Inworld Runtime 的工程师之一,我们今天在公开预览中发布了这个产品。
我们构建这个工具是为了应对我们和客户普遍面临的问题:工程师在 AI 运维和基础设施上的时间往往超过了实际功能开发的时间。这通常是由于使用 Python 处理 I/O 密集型、高并发工作负载的挑战,以及维护使用不断变化的机器学习模型的管道的复杂性。
我们的解决方案是一个高性能的运行时,使用 C++ 编写,核心理念是将 AI 逻辑定义为图形。例如,一个基本的语音到语音代理由 STT(语音转文本)→ LLM(大语言模型)→ TTS(文本转语音)节点组成,而连接的边则用于流数据和强制条件。这个图形引擎是可移植的(支持 Linux、Windows、macOS),并且可以在设备上运行。
在这个 C++ 核心之上,我们构建了一些关键功能:
- 扩展。运行时架构将图形定义与实现解耦。如果不存在预构建的组件,您可以注册自己的自定义节点/代码,并在任何图形中重用,而无需编写任何粘合代码。
- 路由器。您可以根据流量动态选择每个节点的模型/设置,并配置回退和重试的策略,以使应用程序准备好投入生产。
- 门户。一个基于网页的控制面板 UI,用于部署图形、即时推送配置更改、在实时流量上进行 A/B 测试,并通过日志、跟踪和指标监控您的应用程序。
- 统一 API。通过单一、一致的接口和一个 API 密钥,使用我们优化的模型或路由到 OpenAI、Anthropic 和 Google 等提供商。
我们现在已经发布了 Node.js SDK,Python、Unity、Unreal 和原生 C++ 的 SDK 也将在不久后推出。我们计划开源这些 SDK,从 Node.js 开始。
文档在这里: [https://docs.inworld.ai/docs/runtime/overview](https://docs.inworld.ai/docs/runtime/overview)
我们期待来自其他工程师和开发者的反馈。您怎么看?