1作者: sohamrj2 分钟前原帖
Gemini Embedding 2 可以将原始视频直接投影到一个768维的向量空间中,同时处理文本。无需转录,无需逐帧标注,也不需要中间文本。像“绿色汽车切入我前面”这样的查询可以直接与30秒的视频片段在向量层面进行比较。 我利用这个功能构建了一个命令行界面(CLI),将数小时的录像索引到ChromaDB中,然后通过自然语言进行搜索,并自动剪辑匹配的片段。演示视频可以在GitHub的自述文件中找到。 索引的成本大约为每小时录像2.50美元。静帧检测可以跳过闲置片段,因此监控摄像头或哨兵模式下的录像成本会更低。