数据管线(闲暇调研中)
在大语言模型(LLM)的开发过程中,业界已经达成共识:“数据质量决定了模型的上限”。随着模型参数量进入千亿级,简单的、无启发式的规则过滤的Python脚本已无法满足高性能需求。在 LLM 时代之前,大规模数据处理主要依赖基于 Hadoop 生态的 MapReduce 或基于数据仓库的 Hive (HQL)。虽然这些方案在处理结构化数据时非常成熟,但在面对非结构化大模型语料时,存在明显的短板。
可调研的方案
data-juicer主要是通过datasets库和ray库来实现数据管线,它实现了很多管线算法,map式的就是通过ray库dataset的map_batches实现。
Written on January 19, 2026