A pesquisa de imagens semânticas usando embeddings de texto contra resumos de imagens de LLM de visão parece funcionar muito bem.