DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Tolok ukur dalam dunia model bahasa seperti tes standar dalam pendidikan. Skor SAT yang tinggi tidak menjamin kesuksesan di setiap jurusan perguruan tinggi. Demikian pula, skor tolok ukur yang tinggi tidak menjamin model akan unggul dalam setiap tugas. Berikut cara menafsirkannya dengan bijak. 🧵

Tiga jenis tolok ukur penting bagi pengguna Cline: > kemampuan pengkodean - dapatkah ia memahami dan menghasilkan kode? > pengetahuan domain - apakah itu tahu bidang Anda? > penggunaan alat - bisakah itu bekerja dengan integrasi MCP? Tolok ukur yang berbeda menguji berbagai aspek kecerdasan.

Untuk pengkodean: SWE-Bench menonjol. Ini menguji model terhadap masalah GitHub nyata dari proyek sumber terbuka populer. Bukan masalah buatan - bug dan fitur aktual yang dihadapi pengembang setiap hari.

Skor SWE-Bench yang kuat = bagus dalam memperbaiki bug, mengimplementasikan fitur, memfaktorkan ulang kode nyata.

Tolok ukur khusus domain penting untuk pekerjaan khusus: • MMLU - 57 mata pelajaran akademik (perawatan kesehatan, keuangan, sains) • GPQA - Biologi, fisika, kimia tingkat pascasarjana. • AIME - Penalaran matematis tingkat lanjut Membuat aplikasi perawatan kesehatan? Periksa skor biologi.

Pemodelan keuangan? Kinerja matematika itu penting. Tolok ukur penggunaan alat menguji kemampuan MCP: Bisakah modelnya: • Format panggilan alat dengan benar? • Pilih alat yang sesuai? • Rantai beberapa alat bersama-sama?

Penting untuk pengaturan Cline menggunakan pengikisan web, otomatisasi browser, atau sistem memori yang diperluas.

Keterbatasan: Tolok ukur hanya menceritakan sebagian dari cerita. Dua model dengan skor SWE-Bench yang serupa mungkin unggul dalam hal yang sama sekali berbeda.

6,4K

Teratas

Peringkat

Favorit