Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La ricerca semantica di immagini utilizzando embedding testuali contro i riassunti delle immagini di vision-LLM sembra funzionare davvero bene.

6 set, 03:36
Sono ancora una volta scioccato da quanto possa migliorare le prestazioni di recupero delle immagini se incorpori riassunti altamente opinabili di un'immagine, un riassunto che proviene da un modello di linguaggio visivo, piuttosto che utilizzare gli embedding di CLIP stessi. Se dici al LLM che il riassunto verrà incorporato e utilizzato per effettuare ricerche a valle. Ho avuto un sistema che è passato dal 28% di richiamo a 5 utilizzando CLIP al 75% di richiamo a 5 utilizzando un riassunto LLM. E ci sono voluti solo circa 40 minuti per migliorare il prompt di riassunto.
44,4K
Principali
Ranking
Preferiti