Die semantische Bildsuche mit Text-Embeddings gegen Vision-LLM-Zusammenfassungen von Bildern scheint wirklich gut zu funktionieren.