Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Anastasios Nikolas Angelopoulos
Budování LMArena.
Black-box statistika, vyhodnocení modelu.
@Berkeley_EECS Ph.D., bývalý studentský výzkumný @GoogleDeepMind a absolvent @stanford_ee.
Tohle vydání je kurevsky obrovské. Jedná se o jednu z největších aktualizací LMArena v tomto roce!
Code Arena je naše nová generace hodnocení kódování, počínaje úkoly vývoje webu.
Zde můžete pomocí modelů vytvářet interaktivní webové stránky a sdílet je se svými přáteli. Odkazy jsou trvalé, takže si můžete např. vytvořit hru a zahrát si ji, kdykoli budete chtít.
Zde se podívejte na dva modely – @claudeai Haiku a @grok-Code-Fast – které soutěží o postavení galaxie. V tomto případě se mi líbil efekt "hvězdných válek" filmu Grok!

lmarena.ai13. 11. 01:48
🚀Představujeme Code Arena: novou generaci hodnocení živého kódování pro hraniční modely umělé inteligence. Vytvořeno pro testování toho, jak modely krok za krokem plánují, generují, ladí a vytvářejí skutečné webové aplikace.
Vyzkoušejte Claude, GPT-5, GLM-4.6 a Gemini v Code Arena ještě dnes!
37,02K
🏆NOVÉ ŽEBŘÍČKY🏆 LMARENA
🤓Experti
💻 Software & IT služby
✍️ Psaní, literatura a jazyk
🔬 Život, fyzika a společenské vědy
🎭 Zábava, sport a média
📈 Obchod, management a finanční operace
🧮 Matematický
⚖️ Právní a státní správa
🩺 Medicína a zdravotnictví
Hodnocení ekonomické užitečnosti umělé inteligence (jako je GDPval) jsou stále relevantnější, ale jejich shromažďování je nákladné. Spolupracovali jsme s komunitou LMArena čítající miliony přispěvatelů měsíčně, abychom organicky získávali profesní a odborná data, čímž jsme vyřešili problém škálovatelnosti.
>5 % uživatelů LMArena jsou odborníci a velká část výzev LMArena je v ekonomicky hodnotných odvětvích: SWE, studenti/výzkumníci, marketéři/designéři, lékaři, právníci a další. To nám umožňuje vytvářet online žebříčky v těchto kategoriích na základě čerstvé zpětné vazby každý den. Vypovídá to o síle systému zpětné vazby v reálném světě, který jsme ve společnosti @arena vytvořili!


lmarena.ai6. 11. 03:26
🚀 Introducing Arena Expert: a new LMArena evaluation framework to identify the toughest, most expert-level prompts from real users, powering a new Expert leaderboard.
We also introduce Occupational Categories that underlie eight new leaderboards:
💻 Software & IT Services
✍️ Writing, Literature, & Language
🔬 Life, Physical, & Social Science
🎭 Entertainment, Sports, & Media
📈 Business, Management, & Financial Ops
🧮 Mathematical
⚖️ Legal & Government
🩺 Medicine & Healthcare
Explore how models perform across fields in thread 🧵 👇

12,55K
V kanceláři LMArena dnes panuje čilý ruch. Prostředí je superlineární. Konstruktivně zasahujeme, vždy se navzájem tlačíme k učení a překračování toho, co jsme považovali za naše limity.
Vlastností #1, kterou při náboru hledáme, je "Excellence". Každý den odvádíme práci, která splňuje nejvyšší technickou laťku z hlediska řemeslného zpracování, výkonu a spolehlivosti. Existují i další faktory, ale nikdy nekompromisujte v oblasti dokonalosti. V důsledku toho je každý v našem týmu hlubokým odborníkem. To je nutné pro vytváření hodnocení kvality s jistotou.
Dokonalost plodí dokonalost. Nikdo nechce pracovat v prostředí s hromadou mokrých přikrývek – zabíjí to dynamiku. Neustále zvyšujeme laťku a to je to, co vede k pocitu energie. Je to vzácné.
Pokud máte zájem pracovat v takovém prostředí, pošlete mi zprávu. Neustále hledáme lidi, kteří dokážou posunout laťku o stupínek výše.
6,57K
Top
Hodnocení
Oblíbené

