Znovu mě šokuje, o kolik lepšího výkonu při načítání obrázků můžete dosáhnout, pokud vložíte velmi zaujatá shrnutí obrázku, shrnutí, které pochází z vizuálního jazykového modelu, než pomocí samotného vkládání CLIP. Pokud sdělíte LLM, že souhrn bude vložen a použit k vyhledávání v downstreamu. Jeden systém se změnil z 28% vybavování v 5 pomocí CLIP na 75% vybavování v 5 pomocí souhrnu LLM. A trvalo mi jen asi 40 minut, než jsem vylepšil výzvu k shrnutí.