索引

[Visual Generation Pretrain]
- Towards Scalable Pre-training of Visual Tokenizers for Generation

Over-Tokenized Transformer Vocabulary is Generally Worth Scaling

论文发现对数线性放缩规律（log-linear scaling law）。通过指数级放大输入的词汇尺寸可以得到线性下降的训练损失。类似结构出现在Deepseek Engram和LongCatFlashLite。

Enhancing LLM Planning Capabilities through Intrinsic Self-Critique

[pdf]

数据管线（闲暇调研中）

在大语言模型（LLM）的开发过程中，业界已经达成共识：“数据质量决定了模型的上限”。随着模型参数量进入千亿级，简单的、无启发式的规则过滤的Python脚本已无法满足高性能需求。在 LLM 时代之前，大规模数据处理主要依赖基于 Hadoop 生态的 MapReduce 或基于数据仓库的 Hive (HQL)。虽然这些方案在处理结构化数据时非常成熟，但在面对非结构化大模型语料时，存在明显的短板。