Eles usaram vLLMs para benchmarking Os TPUs não estão otimizados para isso Então eles obtêm uma pontuação ruim