來自 @philipkiely 和 @Basetenco 的精彩分享。 📗 推理工程映射了現代 AI 推理背後的堆疊——運行時、基礎設施和工具——並深入探討了在 NVIDIA GPU 上使用 TensorRT LLM 和 Dynamo 服務 LLM 的實際細節。 如果你錯過了——值得一讀。👇