返回首页
最新
论点:
- GPU使用并行计算
- 浮点运算不具备结合性
- 舍入误差的累积方式不同
- GPU产生的计算结果具有噪声
- 数据中存在已知的噪声与准确性之间的权衡
- 噪声需要过度参数化或更大的网络才能进行泛化
- 过度参数化会阻碍网络对问题空间的充分泛化
因此,GPU的不确定性似乎对人工智能不利。我哪里出错了?
问题:
- 这是否已经被量化?据我理解,答案会因情况而异,并与网络的深度、宽度、架构、学习率等其他细节相关。归根结底,熵意味着某种噪声与准确性之间的权衡,但我们讨论的是像10%、1%、0.1%这样的数量级吗?
- 由于噪声与准确性之间的权衡,似乎可以认为使用一个经过确定性训练的小网络可以达到与一个经过非确定性训练的更大网络相同的性能。这是真的吗?即使我们只讨论一个神经元的差异?
- 如果像驾驶汽车这样的问题空间过于庞大,无法完全表示为一个数据集(考虑宇宙的原子作为硬盘),我们如何确保一个数据集是问题空间的完美抽样?
- 过度参数化难道不会保证模型学习的是数据集而不是问题空间吗?将其概念化为使用更高次的多项式来表示另一个多项式是否不正确?
- 即使有完美的抽样,当少量噪声能够引发雪崩时,噪声计算似乎也不兼容。如果这种噪声以1%量化,难道不能说数据集在网络中留下的“印象”会比应有的多出1%吗?也许在某种意义上会溢出?评估数据点“非常接近”但未包含在训练数据点中的情况,更可能被错误评估为相同的“邻近”训练数据点。也许我在这里重新发明边缘情况和过拟合,但我认为过拟合不会在训练结束时自发发生。
例如,对于一部90分钟的电影,你可以选择在连续三天内,每天观看30分钟。<p>这样可以避免观影疲劳,并更容易将观看安排融入你的日程中。
你好!我做了一个名为 Indieseas.net 的项目,纯粹是出于乐趣。
我之所以制作这个项目,是因为我不喜欢搜索引擎完全忽视小型网站,而优先显示广告和商业网站。
因此,我决定自己制作一个搜索引擎!但我该如何将商业网站排除在外呢?解决方案是使用 88x31 的按钮。这些是以前用来连接网站的图片或 GIF,这在当时的搜索引擎表现还不算太差的时候非常有用。
幸运的是,如今人们仍然经常使用这些按钮!
于是,我用 Typescript 和 Bun 编写了一个程序,利用 Cloudflare Workers 抓取网页,然后提取链接、文本、元标签(标题和描述)以及图片,之后我处理这些图片以验证它们是否确实是 88x31 的按钮。
不过,这种设置(多个 Bun Worker)非常卡顿,并消耗了大量资源,因此我自然决定用……RUST 重写它!
别误会,这比我预想的要难得多,但最终我还是得到了一个相当不错的结果。
接下来是索引。这可能是所有步骤中最简单的部分,因为我将其直接集成到抓取器中,我所做的只是“docker build”,并使用 model2vec/potion-base-32M 编写了一个迷你嵌入 API。然后我启动了同一个 Docker 容器的实例,结果就是,我得到了一个相当快速的嵌入 API。
最后一步是查询,我在 Astro 前端直接制作了一个 API。这是一个简单的 SQL 查询,但效果非常糟糕。我得去修复它!不过,“发现网站”和“按钮画廊”这两个功能受到了同事和朋友们的热烈欢迎。
就这些!感谢你来参加我的迷你 TED 演讲。