Några av teknikerna bakom SAM 3D som jag är särskilt entusiastisk över: 1⃣ Befintliga 3D-dataset (Objaverse-XL, ProcTHOR, etc.) är utmärkta för att lära ut "3D-priors" (grundläggande form och utseende). Men de räcker inte för att helt överbrygga klyftan till verkligheten, där scenerna är röriga, föremål är tilltufsade, små och allmänt röriga. 2⃣Här kommer vår modell i loopen 3D-datamotor: modell ➜ förutspår 3D från verkliga bilder ➜ människor granskar snabbt bra kandidater (endast ja/nej) ➜ granskad 3D går tillbaka i träning ➜ förbättrad modell återgår in i loopen. En positiv cykel som förbättrar 3D-annoteringskvalitet, märkningshastighet och modellprestanda, utan att kräva 3D-verktyg eller designexpertis. 3⃣3D-objektiv är knepiga: ingen sluten form av differentierbar förlust fångar fullt ut "bra 3Dness" (symmetrier, mjukhet, fullständighet). Så vi lånar från LLM-handboken och eftertränar med mänskliga preferensdata. Denna justering syns knappt i mätvärden (som ärver samma begränsningar som förlusterna) men den förbättrar dramatiskt den upplevda kvaliteten på 3D-utgångarna. Fler detaljer finns i tidningen.