Anteriormente, apresentei aos meus colegas as quatro publicações da @SentientAGI que foram aceitas pela @NeurIPSConf, e a mais valiosa entre elas é, sem dúvida, a OML 1.0, que subiu para a competição principal. OML (Open Model License / Ownership Marking Layer) é uma tecnologia que "marca" grandes modelos de linguagem com um selo de autenticidade. Ela pode embutir milhares de "impressões digitais" dentro do modelo sem afetar seu desempenho — como se houvesse muitas marcas d'água invisíveis no modelo, usadas para provar a identidade e a origem do modelo. Os métodos anteriores de impressão digital de modelos tinham muitas limitações: ❶ Podiam embutir no máximo algumas dezenas de impressões digitais; mais do que isso, o modelo "quebrava"; ❷ As impressões digitais eram fáceis de serem descobertas ou removidas; tornavam-se ineficazes após ajuste fino, destilação ou fusão do modelo; ❸ Não conseguiam realmente suportar o rastreamento de direitos autorais e a comercialização de modelos de código aberto. O OML insere chaves invisíveis — pares de chave-resposta — nas "áreas de borda" do modelo que não são frequentemente utilizadas, permitindo que o modelo mantenha um desempenho totalmente consistente durante o uso normal, mas apenas pessoas que inserem chaves específicas podem acionar respostas exclusivas, validando assim a autenticidade do modelo. Em testes práticos, a Sentient embutiu 24.576 pares de chave-resposta independentes na versão ajustada do Llama-3.1-8B, mantendo a estabilidade de desempenho, e essas chaves ainda existiam após ajuste fino, destilação ou mistura. O OML permite que os modelos tenham uma "assinatura" como as obras humanas. Isso traz muitas possibilidades importantes: - Rastreabilidade do modelo: saber de onde vem um modelo e quem o treinou. - Licenciamento e comercialização: modelos de código aberto também podem ser distribuídos legalmente e licenciados por uma taxa. - Proteção contra falsificação e adulteração: impede que outros copiem ou se façam passar por originais após ajuste fino. - Auditoria confiável: pode verificar em ambientes reais se um modelo pertence a um determinado emissor. Em resumo, o OML é o primeiro passo para dar aos modelos de IA um "mecanismo de proteção de direitos autorais", e é a base que a Sentient pode alcançar com uma AGI de código aberto impulsionada pela comunidade.