Eerder heb ik aan mijn vrienden de vier papers van @SentientAGI voorgesteld die zijn geaccepteerd door @NeurIPSConf, en de meest waardevolle daarvan is OML 1.0, dat op het hoofdpodium staat. OML (Open Model License / Ownership Marking Layer) is een technologie die "watermerken" aan grote taalmodellen toevoegt. Het kan duizenden "vingerafdrukken" in het model inbedden zonder de prestaties van het model te beïnvloeden - net zoals er veel onzichtbare watermerken in het model zijn verborgen, om de identiteit en oorsprong van het model te bewijzen. Eerdere methoden voor modelvingerafdrukken hadden veel beperkingen: ❶ maximaal konden er tientallen vingerafdrukken worden ingebed, meer zou het model "beschadigen"; ❷ vingerafdrukken zijn gemakkelijk te ontdekken of te verwijderen; ze vervallen na modelafstemming, distillatie of samenvoeging; ❸ ze kunnen niet echt de copyright-tracking en commercialisering van open-source modellen ondersteunen. OML voegt onzichtbare sleutels - responsparen toe in de "randgebieden" van het model, zodat het model tijdens normaal gebruik volledig consistent presteert, maar alleen mensen die specifieke sleutels invoeren, kunnen exclusieve antwoorden activeren, waardoor de echtheid van het model kan worden geverifieerd. In praktische tests heeft Sentient 24.576 onafhankelijke sleutel-responsparen ingebed in de afstemmingsversie van Llama-3.1-8B, terwijl de prestaties stabiel bleven, en ze blijven bestaan na afstemming, distillatie of menging. OML geeft modellen een "handtekening" zoals menselijke werken. Dit brengt veel belangrijke mogelijkheden met zich mee: - Modelherkomst: weten waar een model vandaan komt en wie het heeft getraind. - Autorisatie en commercialisering: open-source modellen kunnen ook legaal worden verspreid en geautoriseerd voor betaling. - Bescherming tegen vervalsing en wijziging: voorkomen dat anderen plagiaat plegen of zich als origineel voordoen na afstemming. - Betrouwbare audit: kan in de echte wereld controleren of een model tot een bepaalde uitgever behoort. Kortom, OML is de eerste stap om AI-modellen een "copyright-beschermingsmechanisme" te geven, en het is de basis die Sentient kan realiseren met community-gedreven open-source AGI.