Düşünce zinciri sadıklık ve yorumlanabilirlik potansiyeli konusunda son derece heyecanlıyım. O1-önizleme ile başlayarak akıl yürütme modellerimizin tasarımını önemli ölçüde etkiledi. Yapay zeka sistemleri uzun vadeli araştırma problemleri üzerinde daha fazla hesaplama harcadıkça, onların iç süreçlerini izlemek için bir yol bulmamız kritik öneme sahip. Gizli CoT'lerin harika özelliği, yorumlayabileceğimiz dile dayalı başlarken, ölçeklenebilir optimizasyon prosedürünün gözlemcinin modelin niyetini doğrulama yeteneğine karşı gelmemesi - örneğin ödül modeliyle doğrudan denetimin aksine. Buradaki gerilim şu ki, CoT'ler varsayılan olarak gizlenmemiş olsaydı ve süreci yapay zekanın çıktısının bir parçası olarak görürsek, denetim uygulamak için büyük bir teşvik (ve bazı durumlarda zorunluluk) vardır. Burada iki dünyanın en iyisine doğru çalışabileceğimize inanıyorum - modellerimizi içsel mantıklarını açıklamakta iyi şekilde eğitmek ama aynı zamanda ara sıra doğrulama yeteneğini koruymak. CoT sadakati, daha geniş bir araştırma yönünün parçasıdır; bu da yorumlanabilirlik eğitimidir: en azından sistemin bir kısmını dürüst ve ölçekle izlenebilir kalacak şekilde eğiten hedefler belirlemek. OpenAI'de bu araştırmaya yatırımımızı artırmaya devam ediyoruz.