Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Vaibhav (VB) Srivastav
Jefe de Tareas de Mierda @huggingface | Fanático de la F1 | Aquí para la sabiduría de @at_sofdog | *Opiniones mías
¡Vaya! - ahora empieza a calar, la vida va a ser significativamente diferente de ahora en adelante.
Una extraña mezcla de nostalgia, nerviosismo, emoción y alivio - todo al mismo tiempo 😅

Vaibhav (VB) Srivastav28 nov, 22:29
Después de 3 años de innumerables sprints en Hugging Face, me embarco en una nueva aventura. Hoy es mi último día. 🤗
Durante mi tiempo en HF, el hub creció literalmente 200 veces, una experiencia surrealista.
Estoy orgulloso de lo que hemos construido juntos, desde el Open ASR Leaderboard hasta el lanzamiento de los llamas, gemma y gpt-oss; desde la creación de Xet, proveedores de inferencia, colab, el programa de subvenciones, y las integraciones de ollama/llama.cpp/mlx, y más. 🔥
Lo más importante, estoy agradecido de haber ayudado a formar un equipo de algunas de las personas más talentosas con las que he trabajado.
Estoy profundamente agradecido por la oportunidad de interactuar con la comunidad y el ecosistema más amplio de cerca; ustedes son realmente especiales. Hugging Face no es nada sin su comunidad.
A continuación: un par de semanas para reiniciar después de este increíble viaje, y luego a la siguiente etapa. 🧘
14,83K
Después de 3 años de innumerables sprints en Hugging Face, me embarco en una nueva aventura. Hoy es mi último día. 🤗
Durante mi tiempo en HF, el hub creció literalmente 200 veces, una experiencia surrealista.
Estoy orgulloso de lo que hemos construido juntos, desde el Open ASR Leaderboard hasta el lanzamiento de los llamas, gemma y gpt-oss; desde la creación de Xet, proveedores de inferencia, colab, el programa de subvenciones, y las integraciones de ollama/llama.cpp/mlx, y más. 🔥
Lo más importante, estoy agradecido de haber ayudado a formar un equipo de algunas de las personas más talentosas con las que he trabajado.
Estoy profundamente agradecido por la oportunidad de interactuar con la comunidad y el ecosistema más amplio de cerca; ustedes son realmente especiales. Hugging Face no es nada sin su comunidad.
A continuación: un par de semanas para reiniciar después de este increíble viaje, y luego a la siguiente etapa. 🧘
61,99K
¡otros 10 billones de dólares para Jensen!!


Artificial Analysis27 nov, 11:02
Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: El benchmarking de hardware de Artificial Analysis muestra que NVIDIA logra una ventaja de ~5x en tokens por dólar sobre TPU v6e (Trillium), y una ventaja de ~2x sobre MI300X, en nuestra métrica clave de costo de inferencia.
En nuestra métrica de costo de inferencia llamada Costo Por Millón de Tokens de Entrada y Salida a Velocidad de Referencia, vemos que los sistemas NVIDIA H100 y B200 logran un costo general más bajo que TPU v6e y MI300X. Para Llama 3.3 70B ejecutándose con vLLM a una Velocidad de Referencia Por Consulta de 30 tokens de salida/s, NVIDIA H100 logra un Costo Por Millón de Tokens de Entrada y Salida de $1.06, en comparación con MI300X a $2.24 y TPU v6e a $5.13.
Este análisis se basa en los resultados de la Prueba de Carga del Sistema de Artificial Analysis para el rendimiento de inferencia del sistema a través de una gama de niveles de concurrencia, y datos de precios de instancias de GPU que recopilamos de una variedad de proveedores de nube de GPU. "Costo Por Millón de Tokens de Entrada y Salida a Velocidad de Referencia" utiliza el rendimiento del sistema que el sistema puede lograr mientras mantiene 30 tokens de salida por segundo por consulta, y divide el costo de alquiler del sistema por ese rendimiento (escalado a un millón de tokens).
Los resultados completos a través de una gama de niveles de concurrencia y velocidad están disponibles en la página de Benchmarking de Hardware de Artificial Analysis.
Contexto importante:
➤ Solo estamos reportando resultados para TPU v6e ejecutando Llama 3.3 70B porque este es el único modelo en nuestra página de hardware para el cual vLLM en TPU está oficialmente soportado. Reportamos resultados para sistemas NVIDIA Hopper y Blackwell, y ahora para AMD MI300X, a través de los cuatro modelos en nuestra página de hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 y Llama 3.3 70B.
➤ Estos resultados se basan en lo que las empresas pueden alquilar ahora en la nube - los aceleradores de próxima generación MI355X y TPU v7 aún no están ampliamente disponibles. Tomamos el precio más bajo de un conjunto de referencia de proveedores de nube de GPU. TPU v6e tiene un precio de demanda de $2.70 por chip por hora, que es más barato que nuestro precio más bajo registrado para NVIDIA B200 ($5.50 por hora) pero similar al de NVIDIA H100 ($2.70 por hora) y AMD MI300X ($2 por hora).
➤ El TPU v7 de Google (Ironwood) estará disponible en las próximas semanas. Anticipamos que TPU v7 superará a v6e sustancialmente, dado los saltos en computación (918 TFLOPS a 4,614 TFLOPS), memoria (32GB a 192GB) y ancho de banda de memoria (1.6 TB/s a 7.4 TB/s). Sin embargo, aún no sabemos cuánto cobrará Google por estas instancias - por lo que el impacto en los costos implícitos por token aún no está claro.
➤ Nuestra métrica de Costo por Millón de Tokens de Entrada y Salida no se puede comparar directamente con los precios de API sin servidor. El costo implícito general por millón de tokens para un despliegue dado se ve afectado por la velocidad por consulta que deseas alcanzar (impulsada por el tamaño del lote/concurrencia) y la relación de tokens de entrada a salida.
➤ Estos resultados son todos para sistemas con 8 aceleradores - es decir, 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
También hemos publicado recientemente resultados actualizados de Blackwell - más análisis de estos vendrán pronto.

71,36K
Parte superior
Clasificación
Favoritos
