Resulta que la IA ya puede hacer el 65% de las tareas profesionales... Nvidia hizo que 38 PhDs y MBAs pasaran más de 10 horas cada uno creando benchmarks. Probaron más de 40 modelos en trabajo real. No ejercicios académicos. Trabajo real que los analistas junior e investigadores hacen a diario. GPT-5 obtuvo un 65.9% en general. Extraen hechos con un 64.4% de precisión. ¿Necesitas identificar a RTX como el mayor contratista del DoD? ¿Encontrar que IFFIm recaudó $3.5B a través de bonos de vacunas? Los modelos generalmente extraen información específica de documentos, incluso cuando está enterrada en docenas de páginas. El razonamiento lógico alcanza un 66.2%. Pueden seguir derivaciones de múltiples pasos, aplicar fórmulas correctamente, validar cadenas causales. Cuando necesitas un análisis sistemático siguiendo marcos establecidos, los modelos lo logran dos de cada tres veces. El sorprendente ganador: marcos de consultoría con un 80% de precisión. Los modelos estructuran con éxito análisis de entrada al mercado, evaluaciones competitivas y recomendaciones estratégicas. Entienden que las Cinco Fuerzas de Porter no son solo listar competidores, sino analizar las dinámicas del poder de negociación. ¿Problemas de química? Tasa de éxito del 70.6%. Los modelos manejan mecanismos de reacción, rutas de síntesis y cálculos de equilibrio que desafiarían a la mayoría de los no especialistas. Están calculando molaridad, prediciendo productos, equilibrando ecuaciones a niveles que aprueban cursos de posgrado. Incluso en finanzas, donde los modelos son más débiles con un 63.7%, completan con éxito la mayoría de los modelos de valoración, interpretan estructuras de titulización y redactan memorandos de inversión coherentes. Eso es casi dos tercios del análisis financiero a nivel MBA manejado correctamente. ProfBench revela esto al probar en cuatro dominios profesionales con 7,347 criterios escritos por expertos. A diferencia de los benchmarks estrechos limitados a campos únicos, captura la amplitud del trabajo del conocimiento. Y a $12 por evaluación (frente a $8000 por PaperBench), cualquier investigador puede medir la capacidad real. Claro, los modelos tienen dificultades con el formato profesional (65.3%), derivaciones de física (49.3%), y aún no pueden revisar 1,000 páginas. Pero hemos cruzado un umbral donde la IA maneja la mayoría de las tareas profesionales correctamente. No perfectamente. No completamente. Pero el 65% es suficiente para cambiar fundamentalmente cómo se realiza el trabajo del conocimiento.