La ricerca semantica di immagini utilizzando embedding testuali contro i riassunti delle immagini di vision-LLM sembra funzionare davvero bene.
jason liu
jason liu6 set, 03:36
Sono ancora una volta scioccato da quanto possa migliorare le prestazioni di recupero delle immagini se incorpori riassunti altamente opinabili di un'immagine, un riassunto che proviene da un modello di linguaggio visivo, piuttosto che utilizzare gli embedding di CLIP stessi. Se dici al LLM che il riassunto verrà incorporato e utilizzato per effettuare ricerche a valle. Ho avuto un sistema che è passato dal 28% di richiamo a 5 utilizzando CLIP al 75% di richiamo a 5 utilizzando un riassunto LLM. E ci sono voluti solo circa 40 minuti per migliorare il prompt di riassunto.
44,4K