第一层是无监督预训练 第二层是指令微调(SFT) 第三层是强化学习(RL) AIKEK 正在准备第四、第五和第六层