DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Ahmad

pesquisador de IA e engenheiro de software, em uma missão para construir um cluster de GPU DGX B200

> ser Arcee > olhe ao redor > percebo que o MoE fronteiriço de peso aberto é basicamente um monopólio Qwen/DeepSeek > decidir: "não, vamos construir a nossa própria" > pré-treinamento completo > em solo americano > apresentando Trinity > Nano (6B MoE) e Mini (26B MoE) > pesos abertos, Apache 2.0 > gratuito no OpenRouter por enquanto > Nano: modelo de personalidade com parâmetros ativos de 800M > Mini: modelo de raciocínio com 3B ativo > Grande: estou treinando agora com 2048 B300s porque por que não > futuro é óbvio > modelos não serão eletrodomésticos estáticos > serão sistemas que crescerão > adaptação > aprender com seus usuários > retreinar a partir do uso ao vivo > você não pode fazer isso se não tiver os pesos > ou o ciclo de treinamento > então Arcee vira a mesa > decide pré-treinar tudo sozinho > passo 1: AFM-4.5B > tokens curados 8T > treinado com DatologyAI > experimento de "será que podemos fazer isso?" > resposta: sim > também: matemática e código ainda prejudicam > seguir mesmo assim > passo 2: Trinity Nano & Mini > pular direto para as terras fronteiriças do MoE > 56 camadas, 128 especialistas > roteamento sigmoide, shared expert, sem perda aux > atenção bloqueada, QK-norm, consultas agrupadas > Padrões locais/globais > otimizador de múons > treinamento do bf16 em 512 H200s > todo o especial Dion/TorchTitan/HSDP > duração do contexto? > Nano treinou em 256k (inferir em 128k) > Mini treinou em 128 km > dados? > tokens 10T distribuídos por 3 fases > larga → afiada → pesada em STEM > Datologia produzindo mangueiras sintéticas de incêndio > Intelecto Primário mantendo vivos os clusters H100 > e sim > treinar o MoE nessa escala é um incômodo > "não há um jeito educado de dizer isso", dor > tokens 20T para Trinity Large > H100s 2048 gerando dados sintéticos > 2048 B300s treinando o modelo real > (depuração é um estilo de vida, aliás) > mas é aqui que começa a ser divertido > porque, uma vez que você possui o pré-treinamento > você é dono de tudo acima do "produto" > Proveniência dos dados > Objetivos > deriva comportamental > Requalificação on-premises > sistemas verdadeiramente longevos > não é um purgatório de API-como-dependência > e agora? > Trinity Large > Parâmetros 420B > 13 bilhões ativos por token > totalmente aberto > mirando para janeiro de 2026 > o momento em que "Mestre da Educação Americano" se torna uma coisa™ > Nano + Mini são o aquecimento > modelos que você realmente pode usar agora > download > apresentador > ajuste fino > pausa > reportar bugs > moldar o treinamento do Grande > loop da comunidade desbloqueado > se você se importa com pesos abertos > ou sobre não terceirizar toda a sua stack para laboratórios de caixa preta > Trinity é basicamente o arremesso de desafio > pegar Nano + Mini no Hugging Face > ou rodar no OpenRouter > teste de estresse > encontrar as rachaduras > enviar o feedback > o ponto é a posse Eu gosto da Arcee, eles estão construindo esses modelos para que você não precise alugar sua inteligência de outra pessoa

Melhores

Classificação

Favoritos