这是@WhiteHouse AI行动计划中由@DavidSacks、@mkratsios47、@sriramk和@deanwball提出的AI评估生态系统的一个绝佳示例,正在付诸实践。
lmarena.ai
lmarena.ai8月19日 20:03
🧬 BiomedArena 来了! 我们很荣幸与 @DataTecnica 和 @NIH CARD 合作,他们开发了 BiomedArena 来评估 LLMs 在生物医学发现中的应用,并帮助扩展这一领域特定的社区驱动评估。 🧪 生物医学科学复杂、风险高且不断发展。 📊 CARDBiomedBench 和表格推理测试表明,目前没有任何模型能够可靠地满足生物医学研究人员的推理和领域特定知识需求。 在下面的线程中了解更多关于 BiomedArena 的信息 👇 🧵 #AI #LLMs #BiomedicalAI #AIEvaluation #OpenScience #LMArena #BiomedArena #NIH
1.53K