Căutarea semantică a imaginilor folosind încorporarea textului împotriva rezumatelor vizuale LLM ale imaginilor sună ca și cum ar funcționa foarte bine
jason liu
jason liu6 sept., 03:36
Sunt încă o dată șocat de cât de bune performanțe de recuperare a imaginii poți obține dacă încorporezi rezumate foarte opinioase ale unei imagini, un rezumat care a ieșit dintr-un model de limbaj vizual, decât folosind încorporarile CLIP în sine. Dacă îi spuneți LLM că rezumatul va fi încorporat și folosit pentru a face căutări în aval. Am avut un sistem care a trecut de la 28% reamintire la 5 folosind CLIP la 75% reamintire la 5 folosind un rezumat LLM. Și mi-a luat doar aproximativ 40 de minute să îmbunătățesc promptul de rezumat.
44,4K