我再次感到震驚,如果你嵌入高度主觀的圖像摘要——這個摘要來自視覺語言模型——而不是直接使用CLIP嵌入,圖像檢索性能會好得多。如果你告訴LLM這個摘要將被嵌入並用於後續搜索。我有一個系統的召回率從使用CLIP時的28%提升到使用LLM摘要時的75%,而且我只花了大約40分鐘來改進摘要提示。