Schicht 1 war unbeaufsichtigtes Pretraining Schicht 2 war instruct finetuning (SFT) Schicht 3 ist Reinforcement Learning (RL) AIKEK bereitet die Schichten 4, 5 und 6 vor