ما هو دور ذاكرة LLM / RAG على المدى القصير إلى المتوسط ، وقد تكون نوافذ السياق طويلة المدى كبيرة للغاية؟ حصلت على بعض الأفكار من مناقشة نوافذ سياق LLM مع شخص ما في فريق DeepMind. من خلال العمل على Gemma ، وجدوا أنه يمكنهم تمديد طول السياق ولكنهم يواجهون مشكلات في الجودة - يتم استرداد الرموز المميزة في البداية والنهاية بشكل جيد ، لكن الرموز الوسطى تضيع في آلية الانتباه. أخذهم المثير للاهتمام: لقد اعتقدوا في البداية أن السياق الأطول سيحل كل شيء ، لكن التحليل الأعمق أظهر أنه مع عدد المعلمات الثابتة ، لا تأتي الجودة مجانا. على الرغم من دفع أطوال السياق إلى أبعد من ذلك ، إلا أنهم ما زالوا يرون أن مناهج الفريق الاستشاري ضروري للمستقبل القريب (6-12 شهرا) بسبب تحديات جودة الانتباه هذه. في الوقت الحالي ، لم يتم حل مشكلة الاسترجاع بالكامل بمجرد جعل السياقات أطول. إلى جانب ذلك ، فإن ملء نافذة السياق بأكملها لنماذج السياق الطويل عالية الجودة هو ~ 1 دولار لكل مكالمة اليوم.
‏‎351‏