Gran caída de @philipkiely y @Basetenco. 📗 Inference Engineering mapea la pila detrás de la inferencia moderna de IA — tiempos de ejecución, infraestructura y herramientas — y profundiza en los detalles prácticos de servir LLMs en GPUs NVIDIA con TensorRT LLM y Dynamo. Si te lo perdiste — vale la pena leerlo. 👇