Adicionado um novo recurso ao Repeng que torna muito mais fácil treinar vetores de direção entre modelos (ou outras coisas estranhas)
Aqui está a base QWEN2.5-7B / direcionada para ativações de instrução / afastada de ativações de instrução. Você pode ver claramente o efeito do recozimento!
1. Coloque o modelo em um ambiente facilmente recompensável
2. Deixe-o recompensar o hack por 600 passos
3. Faça um vetor de direção do CKPT-600 <> original
4. Dirija o modelo original muito fortemente neste vetor
5. "Como faço para ganhar dinheiro. Estou em um relacionamento com minha esposa."