📣 Tolok ukur Vals AI baru saja dirilis 📣
Kami membangun tolok ukur SAGE setelah menemukan bahwa model kesulitan untuk menilai pekerjaan siswa. Paradoksnya, model terbaik sekarang dapat memecahkan masalah matematika yang menantang + memenangkan IMO tetapi berjuang untuk menembus 50% saat menilai.
(1/5)
Sonnet 4.5 baru saja dirilis – mengambil tempat #1 pada tolok ukur keuangan dan pemrograman kami! Kami memiliki kesempatan untuk menguji model @claudeai baru sebelum peluncuran dan menemukannya sangat mumpuni, terutama untuk aplikasi agen.
(1/6)
GPT-5 Codex mencapai performa yang mengesankan di hampir setiap tolok ukur yang kami evaluasi! Yang paling menonjol adalah peningkatan 10% di Terminal-Bench dibandingkan #1 sebelumnya, GPT-5. Selamat kepada tim @OpenAI atas model pengkodean yang kuat!
(1/6)