新的 #NeurIPS2025 论文:我们应该如何在没有大型标记数据集的情况下评估机器学习模型?我们介绍了半监督模型评估(SSME),它使用标记和未标记的数据来估计性能!我们发现 SSME 的准确性远高于标准方法。