Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Het bouwen van LMArena.
Black-box statistieken, modelevaluatie.
@Berkeley_EECS Ph.D., voormalig student-onderzoeker @GoogleDeepMind en @stanford_ee aluin.
Deze release is echt enorm. Het is een van de grootste updates voor LMArena dit jaar!
Code Arena is onze volgende generatie van code-evaluaties, te beginnen met webontwikkelingstaken.
Hier kun je modellen gebruiken om interactieve websites te bouwen en ze met je vrienden te delen. De links zijn persistent, dus je kunt bijvoorbeeld een spel bouwen en het spelen wanneer je maar wilt.
Hier kijk je naar twee modellen -- @claudeai Haiku en @grok-Code-Fast -- die strijden om een sterrenstelsel te bouwen. In dit geval vond ik het "star-wars" effect van Grok leuk!

lmarena.ai13 nov, 01:48
🚀Introducing Code Arena: the next generation of live coding evals for frontier AI models. Built to test how models plan, scaffold, debug, and build real web apps step-by-step.
Try Claude, GPT-5, GLM-4.6 and Gemini in Code Arena today!
37,05K
🏆NIEUWE LMARENA LEIDERBORDEN🏆
🤓Experts
💻 Software- en IT-diensten
✍️ Schrijven, Literatuur en Taal
🔬 Levens-, Fysieke en Sociale Wetenschappen
🎭 Amusement, Sport en Media
📈 Bedrijf, Management en Financiële Operaties
🧮 Wiskunde
⚖️ Juridisch en Overheid
🩺 Geneeskunde en Gezondheidszorg
Evaluaties van de economische nut van AI (zoals GDPval) zijn steeds relevanter, maar duur om te verzamelen. We hebben samengewerkt met de LMArena-gemeenschap van miljoenen maandelijkse bijdragers om beroeps- en expertdata organisch te verzamelen, waarmee we het schaalbaarheidsprobleem hebben opgelost.
>5% van de LMArena-gebruikers zijn experts, en een groot deel van de LMArena-prompts bevindt zich in economisch waardevolle sectoren: SWE, studenten/onderzoekers, marketeers/ontwerpers, artsen, advocaten en meer. Dit stelt ons in staat om online leaderboards in deze categorieën op te bouwen, gebaseerd op verse feedback elke dag. Het spreekt tot de kracht van het feedbacksysteem uit de echte wereld dat we hebben gecreëerd bij @arena!


lmarena.ai6 nov, 03:26
🚀 Introductie van Arena Expert: een nieuw LMArena-evaluatiekader om de moeilijkste, meest deskundige prompts van echte gebruikers te identificeren, wat een nieuwe Expert-leiderbord aandrijft.
We introduceren ook Beroepscategorieën die ten grondslag liggen aan acht nieuwe leaderboards:
💻 Software- en IT-diensten
✍️ Schrijven, Literatuur en Taal
🔬 Levens-, Natuur- en Sociale Wetenschappen
🎭 Amusement, Sport en Media
📈 Bedrijf, Management en Financiële Operaties
🧮 Wiskunde
⚖️ Juridisch en Overheid
🩺 Geneeskunde en Gezondheidszorg
Ontdek hoe modellen presteren in verschillende vakgebieden in de thread 🧵 👇

12,56K
Het LMArena-kantoor is vandaag druk. De omgeving is superlinair. We interfereren constructief, altijd elkaar aanmoedigend om te leren en onze grenzen te overschrijden.
De #1 eigenschap waar we naar op zoek zijn bij het aannemen is "Uitmuntendheid." Elke dag werk produceren dat voldoet aan de hoogste technische normen op het gebied van vakmanschap, prestaties en betrouwbaarheid. Er zijn ook andere factoren, maar compromitteer nooit op uitmuntendheid. Als gevolg hiervan is iedereen in ons team een diepgaande expert. Dit is vereist om kwaliteitsbeoordelingen met vertrouwen op te bouwen.
Uitmuntendheid brengt uitmuntendheid voort. Niemand wil werken in een omgeving met een stel natte dekens -- het doodt de momentum. We tillen voortdurend de lat hoger, en dit is wat leidt tot het gevoel van energie. Het is zeldzaam.
Als je geïnteresseerd bent om in deze soort omgeving te werken, stuur me dan een DM. We zijn altijd op zoek naar mensen die de lat een stap hoger kunnen tillen.
6,58K
Boven
Positie
Favorieten

