1作者: artski9 个月前原帖
当我看到一项追踪450万个虚假GitHub星标的研究时,确认了我之前的一个怀疑:星标是嘈杂的。问题在于,它们是可见的,有说服力的,并且仍然影响招聘决策、风险投资条款和依赖选择,但它们对实际质量的反映却很少。 我编写了StarGuard,以我的方法论为基础,将这个数字放在更广泛的背景中,并将更全面的供应链检查整合到一个命令行运行中。 它从最简单的原始输入开始:每个GitHub提供的starred_at时间戳。它应用中位数绝对偏差测试来定位突发情况。对于每个峰值,StarGuard会随机抽取背后的账户样本,并询问:用户多大?有关注者吗?有贡献历史吗?还在使用默认头像吗?由此,它计算出一个虚假星标指数,范围在0(自然)到1(完全合成)之间。 但虚假星标只是一个问题。同时,StarGuard解析依赖清单或SBOM,并标记常见的风险迹象:未固定版本、直接Git URL、相似的包名。它还扫描许可证——AGPL偷偷进入声称为MIT的代码库,或其他可能导致合规性问题的不一致之处。 它也检查贡献者模式。如果90%的提交来自一个几个月没有推送的用户,这将被标记。它还会寻找明显的代码红旗:eval调用、压缩的代码块、可疑的安装脚本——因为有时问题就隐藏在显而易见的地方。 所有这些信息都输入到一个加权评分模型中。最终的信任评分(0-100)一目了然地反映了代码库的健康状况,并对虚假星标行为直接施加惩罚,因此一个漂亮的README徽章无法掩盖不自然的炒作。 我还为信任评分生成了一个有趣的小徽章,哈哈。 在底层,它使用了启发式算法和大量的GitHub API分页。你可以在任何公共代码库上运行它,命令如下: ```bash python starguard.py owner/repo --format markdown ``` 它在没有令牌的情况下也能工作,但你会更快遇到速率限制。 请提供任何反馈。
1作者: scream4ik9 个月前原帖
嗨,HN, 我开发了Ragmate——一个本地的检索增强生成(RAG)服务器,它通过内置的AI助手与JetBrains IDE集成。 它会扫描你的代码库,构建本地索引,并为你选择的语言模型(例如,OpenAI、Ollama)提供相关的上下文。这意味着可以实现更智能的代码补全和理解你实际项目的回答。 主要特点: - 通过Docker本地运行(自托管) - 使用.gitignore和.aiignore来避免噪音 - 了解框架的响应(如Django、React等) - 支持Python、JavaScript、PHP、Java等多种语言 目前支持JetBrains,VS Code的支持即将推出。未来计划还包括支持Gemini、Claude、Mistral和DeepSeek。 它是免费的、开源的,专为希望实现隐私和上下文感知生成的开发者而设计。 期待你的反馈!