Wyszukiwanie obrazów semantycznych za pomocą osadzeń tekstowych w porównaniu do podsumowań obrazów w modelach wizji-LLM wydaje się działać naprawdę dobrze.