Ho scritto di quanto sia sorprendentemente efficace il pensiero di GPT-5 nell'utilizzare il suo strumento di ricerca supportato da Bing, illustrato con 8 esempi delle ultime 48 ore.
Ho iniziato a chiamarlo il mio Goblin della Ricerca.
Sono ancora una volta scioccato da quanto possa migliorare le prestazioni di recupero delle immagini se incorpori riassunti altamente opinabili di un'immagine, un riassunto che proviene da un modello di linguaggio visivo, piuttosto che utilizzare gli embedding di CLIP stessi. Se dici al LLM che il riassunto verrà incorporato e utilizzato per effettuare ricerche a valle. Ho avuto un sistema che è passato dal 28% di richiamo a 5 utilizzando CLIP al 75% di richiamo a 5 utilizzando un riassunto LLM. E ci sono voluti solo circa 40 minuti per migliorare il prompt di riassunto.
Le mie note su Kimi-K2-Instruct-0905, alias Kimi K-2.1 - un miglioramento incrementale rispetto al precedente modello open weights da un trilione di parametri di Moonshot, ora con il doppio della lunghezza del contesto (256k rispetto a 128k)