La búsqueda semántica de imágenes mediante incrustaciones de texto contra resúmenes de imágenes de vision-LLM parece que funciona muy bien
jason liu
jason liu6 sept, 03:36
Una vez más, me sorprende cuánto mejor rendimiento de recuperación de imágenes puede obtener si incrusta resúmenes altamente obstinados de una imagen, un resumen que surgió de un modelo de lenguaje visual, que usar incrustaciones de CLIP en sí. Si le dice al LLM que el resumen se incrustará y se utilizará para realizar búsquedas posteriores. Tuve un sistema que pasó del 28% de recuerdo a los 5 usando CLIP al 75% de recuerdo a los 5 usando un resumen de LLM. Y me tomó solo unos 40 minutos mejorar el mensaje de resumen.
44.4K