Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Edificio LMArena.
Estadísticas de caja negra, evaluación de modelos.
@Berkeley_EECS Ph.D., ex estudiante de investigación @GoogleDeepMind y ex alumno de @stanford_ee.
Este lanzamiento es jodidamente enorme. ¡Es una de las mayores actualizaciones de LMArena este año!
Code Arena es nuestra próxima generación de evaluaciones de codificación, comenzando con las tareas de desarrollo web.
Aquí puedes usar modelos para crear sitios web interactivos y compartirlos con tus amigos. Los enlaces son persistentes, por lo que puedes, por ejemplo, crear un juego y jugarlo cuando quieras.
Aquí mira a dos modelos, @claudeai Haiku y @grok-Code-Fast, competir para construir una galaxia. En este caso, me gustó el efecto "guerra de las galaxias" de Grok!

lmarena.ai13 nov, 01:48
🚀Introducing Code Arena: the next generation of live coding evals for frontier AI models. Built to test how models plan, scaffold, debug, and build real web apps step-by-step.
Try Claude, GPT-5, GLM-4.6 and Gemini in Code Arena today!
37.05K
🏆NUEVAS TABLAS DE🏆 CLASIFICACIÓN DE LMARENA
🤓Expertos
💻 Software y servicios de TI
✍️ Escritura, literatura y lenguaje
🔬 Ciencias de la vida, físicas y sociales
🎭 Entretenimiento, deportes y medios de comunicación
📈 Operaciones comerciales, administrativas y financieras
🧮 Matemático
⚖️ Legal y Gobierno
🩺 Medicina y atención médica
Las evaluaciones de la utilidad económica de la IA (como GDPval) son cada vez más relevantes, pero costosas de recopilar. Trabajamos con la comunidad de millones de contribuyentes mensuales de LMArena para obtener datos ocupacionales y expertos de forma orgánica, resolviendo el problema de escalabilidad.
>5% de los usuarios de LMArena son expertos, y una gran fracción de las indicaciones de LMArena se encuentran en industrias económicamente valiosas: SWE, estudiantes/investigadores, vendedores/diseñadores, médicos, abogados y más. Esto nos permite crear tablas de clasificación en línea en estas categorías basadas en nuevos comentarios todos los días. ¡Habla del poder del sistema de retroalimentación del mundo real que hemos creado en @arena!


lmarena.ai6 nov, 03:26
🚀 Presentamos Arena Expert: un nuevo marco de evaluación de LMArena para identificar las indicaciones más difíciles y de nivel experto de usuarios reales, impulsando una nueva tabla de clasificación de expertos.
También presentamos categorías ocupacionales que subyacen a ocho nuevas tablas de clasificación:
💻 Software y servicios de TI
✍️ Escritura, literatura y lenguaje
🔬 Ciencias de la vida, físicas y sociales
🎭 Entretenimiento, deportes y medios de comunicación
📈 Operaciones comerciales, administrativas y financieras
🧮 Matemático
⚖️ Legal y Gobierno
🩺 Medicina y atención médica
Explore el rendimiento de los modelos en los campos de thread 🧵 👇

12.56K
La oficina de LMArena está llena de gente hoy. El entorno es superlineal. Estamos interfiriendo constructivamente, siempre empujándonos unos a otros para aprender y superar lo que pensábamos que eran nuestros límites.
El rasgo #1 que buscamos al contratar es "Excelencia". Producir trabajos todos los días que cumplan con los más altos estándares técnicos en términos de artesanía, rendimiento y confiabilidad. También hay otros factores, pero nunca comprometas la excelencia. Como consecuencia, todos en nuestro equipo son expertos profundos. Esto es necesario para construir evaluaciones de calidad con confianza.
La excelencia engendra excelencia. Nadie quiere trabajar en un entorno con un montón de mantas mojadas, mata el impulso. Estamos constantemente subiendo el listón, y esto es lo que conduce a la sensación de energía. Es raro.
Si estás interesado en trabajar en este tipo de entorno, envíame un DM. Siempre estamos buscando personas que puedan elevar el listón un escalón más.
6.59K
Populares
Ranking
Favoritas

