يبدو البحث الدلالي عن الصور باستخدام تضمينات النص مقابل ملخصات الرؤية - LLM للصور وكأنه يعمل بشكل جيد حقا
jason liu
jason liu‏6 سبتمبر، 03:36
لقد صدمت مرة أخرى من مدى أداء استرجاع الصور الأفضل الذي يمكنك الحصول عليه إذا قمت بتضمين ملخصات عالية الرأي لصورة ، وهو ملخص خرج من نموذج لغة مرئية ، بدلا من استخدام تضمينات CLIP نفسها. إذا أخبرت LLM أن الملخص سيتم تضمينه واستخدامه لإجراء البحث في اتجاه مجرى النهر. كان لدي نظام واحد ينتقل من 28٪ استدعاء في 5 باستخدام CLIP إلى 75٪ استدعاء في 5 باستخدام ملخص LLM. واستغرق الأمر مني حوالي 40 دقيقة فقط لتحسين موجه التلخيص.
‏‎44.4‏K