Enhancing LLM Planning Capabilities through Intrinsic Self-Critique

个人思考

大模型幻觉现象的产生，很大程度上归因于其内在自我评价与验证机制的缺失。因此，探索大模型如何进行有效的自我批判（Self-Critique），并构建一套严密的输出质量评估体系，是提升模型逻辑可靠性、解决复杂规划问题的关键科研方向。

论文方案

论文提出了一种大模型如何实现”自我批判”的方案。文中最后有prompt的template，方案归纳如下：

设计Prompt，让大模型针对Planning任务输出plan
上述的plan，给出验证规则和通过条件，让大模型自行验证plan是正确、错误还是无法达到通过条件。
将不正确的plan作为fewshot例子，加入到大模型上下文中，重复1，直到输出的plan被验证通过或者达到迭代次数上限。

对比方法

论文中四种方案的对比：No-Critique, Self-Critique, Self-{Critique+Consistency}, and Oracle。其中Oracle（先知）即存在验证器可以从外部引入工具来判断模型输出plan的正确性。Self-consistency可以参考文章。Self-{Critique+Consistency}基本上可以逼近Oracle。

Written on January 25, 2026