我再次感到震惊,如果你嵌入高度主观的图像摘要——这个摘要来自视觉语言模型——而不是直接使用CLIP嵌入,图像检索性能会好得多。如果你告诉LLM这个摘要将被嵌入并用于后续搜索。我有一个系统的召回率从使用CLIP时的28%提升到使用LLM摘要时的75%,而且我只花了大约40分钟来改进摘要提示。