WP2TXT 是一个命令行工具,用于从维基百科的转储文件中提取纯文本。我最初在2006年为语料库语言学研究开发了它,并一直在维护。最新版本(2.1)进行了大幅重写,增加了选择性提取的功能:
<p>- 按语言代码自动下载转储(支持350多种语言)
- 无需下载完整转储即可按标题提取特定文章
- 从维基百科分类中提取文章,并支持子分类递归
- 按名称提取特定章节,并支持别名匹配(例如,“情节”也匹配“概要”)
- 模板扩展(日期、坐标、单位转换 → 可读文本)
- 内容类型标记(如 [MATH]、[TABLE] 等),而不是静默删除
- 输出中保留分类元数据
- 支持 JSON/JSONL 输出
- 并行处理(英文维基百科 24 GB 转储:在 Apple M4 上约需 2 小时)
- 使用 Ruby 编写。
返回首页
最新
我一直在开发一个名为 filepack 的命令行工具,用于文件验证,时断时续,终于到了可以接受反馈、审查和初步测试的阶段。
GitHub 仓库链接: [https://github.com/casey/filepack](https://github.com/casey/filepack)
该工具使用一个名为 `filepack.json` 的 JSON 清单,其中包含 BLAKE3 文件哈希和文件长度。
在当前目录中创建清单的命令是:
```
filepack create
```
在当前目录中验证清单的命令是:
```
filepack verify
```
清单可以被签名:
```
# 生成密钥对
filepack keygen
# 打印公钥
filepack key
# 创建并签名清单
filepack create --sign
```
并且可以检查是否有特定公钥的签名:
```
filepack verify --key <PUBLIC_KEY>
```
签名是基于从清单内容构建的默克尔树的根节点进行的。
这个默克尔树的根哈希被称为“包指纹”,为包提供了一个全球唯一的标识符。
可以打印包指纹:
```
filepack fingerprint
```
并且可以验证包是否具有特定的指纹:
```
filepack verify --fingerprint <FINGERPRINT>
```
此外,我认为最有趣的是,定义了一种机器可读的元数据格式,使得包能够自描述,从而使包的集合可以被索引和浏览,提供比普通文件夹更好的用户界面。
欢迎任何反馈、问题、功能请求和设计批评!我在自述文件中尽量包含了很多细节,欢迎查看。
生产就绪的人工智能代理,使用谷歌的ADK和Gemini 2.5 Flash来审查GitHub的拉取请求。该代理分析代码中的安全性、性能和正确性问题。部署到Cloud Run,并以PR评论的形式发布结构化反馈。
嗨,HN,我是lmw-lab,Script Snap的开发者。
背景故事:
我出于纯粹的挫败感构建了这个工具。之前我在尝试为一个项目找到特定的配置,唯一能找到的好资源是一段25分钟的YouTube视频。我不得不在无尽的“点赞”开场和赞助商广告中翻找,才找到一段5行的JSON负载。
我意识到我并不想要视频的“AI摘要”;我只想要隐藏在其中的原始代码。
不同之处:
市面上有很多“将YouTube转为文本”的摘要工具。Script Snap的不同之处在于它被明确设计为一个技术提取引擎。
它不会告诉你YouTuber的感受,而是扫描视频的文字稿和屏幕视觉内容,专门提取:
- 代码片段
- 终端命令
- API负载(JSON/YAML)
- 安全警告(例如标记可疑的npm安装)
它去掉了“氛围”,输出的是原始的、格式化的Markdown,你可以直接复制到你的IDE中。
关于发布的完整披露:我们的支付处理器(Stripe)在第一天就对我们进行了标记(银行似乎不喜欢AI工具),所以我转向了手动的“礼宾Alpha”进行入驻。目前提取引擎已经完全运作,只是暂时以较为繁琐的方式进行。
我很想听听你们对提取质量的看法或严厉反馈!