Next-Embedding Prediction Makes Strong Vision Learners [pdf][code] 一句话 视觉Backbone预训练的方案,类似NTP,区别是预测Embedding,这个Embedding是图像过了EmbeddingLayer后的序列向量。 一张图 Written on December 19, 2025