Ferrules 一个超快的文档解析工具
Ferrules 是一个超快的文档解析工具,主要目的是高效的生成 LLM 可用的文档。目前市面上很多文档解析工具都是基于 Python 开发的,性能相对较低。Ferrules 是使用 Rust 开发的,在性能上有很明显的优势。此项目处于积极开发中状态。
让 Ferrules 与众不同的关键特性:
-
🚀 为速度而生:使用
pdfium
进行原生 PDF 解析,具备硬件加速的机器学习推理功能 -
💪 适用于生产环境:零 Python 依赖!单二进制文件,易于部署,内置追踪功能。毫无麻烦!
-
🧠 智能处理:布局检测、OCR、文档元素的智能合并等等
-
🔄 多种输出格式:JSON、HTML 和 Markdown(非常 RAG 流水线)
一些很酷的技术细节:
-
在苹果 GPU 上运行布局检测
-
在 macOS 系统上使用苹果的视觉 API 进行高质量的 OCR
-
多线程处理
-
提供命令行界面(CLI)和 HTTP API 服务器,便于集成
-
调试模式带有可视化输出,能精确展示它是如何解析你的文档的
平台支持情况:
-
macOS:全面支持,具备硬件加速和原生光学字符识别(OCR)功能
-
Linux:支持原生 PDF 的整个处理流程(对扫描文档的支持即将推出)
如果你正在构建 RAG 系统,并且厌倦了与基于 Python 的解析器作斗争,那就试试它吧!它在 macOS 系统上尤其强大,因为它利用了原生 API 以实现最佳性能。
Github 仓库:https://github.com/aminediro/ferrules
Rust 项目将再次参与 2025 年谷歌编程之夏
Rust 语言官方博客宣布 Rust 项目将再次参与 2025 年谷歌编程之夏(Google Summer of Code,GSoC )。
- GSoC 项目简介:GSoC 是谷歌组织的年度全球计划,旨在吸引新成员参与开源项目,将开源组织(如 Rust 项目)与参与者(通常是学生)配对,在经验丰富的导师指导下进行有意义的开源贡献。
- 参与流程
- 项目讨论:已获参与资格的组织已公布,GSoC 申请人有几周时间与导师讨论项目想法,可在 #gsoc Zulip 频道交流、找导师,Rust 项目也准备了项目想法列表和提案指南。
- 提交提案:项目提案申请期为 2025 年 3 月 24 日开始,至 4 月 8 日 18:00 UTC 结束,需在 GSoC 仪表板提交,逾期不候。申请人可参考 Rust 项目提供的想法,也可自行构思。
- 参与意义与展望:Rust 项目鼓励对其感兴趣者提交 GSoC 项目提案,非 GSoC 参与者也可参与项目讨论推进。Rust 项目去年首次参与 GSoC 取得成功,今年期望参与者提升技能,吸引新贡献者,提高 Rust 语言知名度,后续还会发布参与进展的博客文章。
原文地址:https://blog.rust-lang.org/2025/03/03/Rust-participates-in-GSoC-2025.html
Pueue 4.0.0 发布
Pueue
是一个命令行任务管理工具,用于顺序和并行执行长时间运行的任务。Pueue v4.0.0 版本于 2025 年 3 月 9 日发布,此版本对库和可执行文件代码进行大量重构,重写协议,虽完全打破向后兼容性,但带来诸多改进。
- 核心改进
- 移除内部通道通信:此前,影响子进程(任务)的客户端命令经
mpsc
通道处理,导致执行延迟。新版本直接在客户端消息处理程序中操作子进程状态,解决延迟问题,使start
、stop
、pause
等命令在任务实际状态变更时才返回 。 - 全新编辑方式:旧版任务编辑繁琐,一次只能编辑单个任务且需多次打开编辑器。新版提供两种便捷的多任务编辑方式。文件模式为每个任务创建临时目录和属性文件,适合有文件树的编辑器;TOML 模式将待编辑任务序列化为单个 TOML 文件,默认启用,方便编辑简单任务,但对复杂命令需注意 TOML 格式和字符转义。
- 运行时不变量优化:引入新的任务状态表示,使用 Rust 的结构体枚举在编译时通过类型系统强制实施不变量,修复了与时间相关的不一致问题,但与旧状态不兼容,更新前需确保队列无重要任务,且需重新创建任务组。
- 移除内部通道通信:此前,影响子进程(任务)的客户端命令经
Github 仓库:https://github.com/Nukesor/pueue
4.0.0 发布说明:https://github.com/Nukesor/pueue/releases/tag/v4.0.0
--
From 日报小组 Yuan YQ
社区学习交流平台订阅:
评论区
写评论试了下 Ferrules.. 无依赖超级爽。
pdf 解析没问题,但表格 没解出来。