Over-Tokenized Transformer Vocabulary is Generally Worth Scaling

论文发现对数线性放缩规律（log-linear scaling law）。通过指数级放大输入的词汇尺寸可以得到线性下降的训练损失。类似结构出现在Deepseek Engram和LongCatFlashLite。

论文方案

论文主要思路就是，给以前的大部分都是1-gram的vocabulary，增加2-gram，3-gram。由于n-gram是高度稀疏的因此通过hash实现新的Embedder。相关模型结构可以参考LongCatFlashLite的开源模型，论文有伪代码。

Written on February 1, 2026