通过长短思维链融合,对于需反复推理反思的问题也能得到更精准答案, T1 模型可得到相对长链数据,将长链数据和短链数据融合训练后采样,采样依据正确性和长度正确性,采用规则方法和滤波 model case ,从而提升模型整体能力,尤其在数学、代码、逻辑等强推理任务上表现更好,且短链模型能很好地融合长链能力,体验更佳。
即短链模型其实体验更佳,通过融合长链也能有很好的推理能力。
scaling law还没结束
GPT-4.5是短链模型天花板的一个存在,但 API 的成本非常高,以百万tokens计算约为150 美元,约是Turbo S 成本 500 倍,且据推测,GPT-4.5的激活参数量达万亿级别。因此,Turbo S等快思考模型的出现,正是为了在保证响应速度的同时,降低成本并保持较好的性能。