Saya sekali lagi terkejut dengan betapa jauh lebih baik kinerja pengambilan gambar yang bisa Anda dapatkan jika Anda menyematkan ringkasan gambar yang sangat berpendirian, ringkasan yang keluar dari model bahasa visual, daripada menggunakan penyematan CLIP itu sendiri. Jika Anda memberi tahu LLM bahwa ringkasan akan disematkan dan digunakan untuk melakukan pencarian hilir. Saya memiliki satu sistem yang berubah dari 28% penarikan pada 5 menggunakan CLIP menjadi 75% penarikan pada 5 menggunakan ringkasan LLM. Dan saya hanya membutuhkan waktu sekitar 40 menit untuk meningkatkan prompt peringkasan.