一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我再次感到震惊，如果你嵌入高度主观的图像摘要——这个摘要来自视觉语言模型——而不是直接使用CLIP嵌入，图像检索性能会好得多。如果你告诉LLM这个摘要将被嵌入并用于后续搜索。我有一个系统的召回率从使用CLIP时的28%提升到使用LLM摘要时的75%，而且我只花了大约40分钟来改进摘要提示。