أصدرت OpenAI مؤخرا أول نموذج للأوزان المفتوحة منذ GPT-2 ، حيث دخلت مجالا بقيادة DeepSeek و Qwen من Alibaba. يكسر Ankit (@GuptaAnkitV) أفضل نماذج OSS هذه ، بما في ذلك ما يميزها تحت الغطاء: مزيج من الخبراء ، والتدريب طويل السياق ، وتقنيات ما بعد التدريب التي تشكل التفكير والمحاذاة - وكيف تؤدي خيارات التصميم المختلفة إلى أداء مماثل بشكل مدهش. 00:00 - إطلاق OpenAI OSS 01:00 - مقارنة معماريات LLM مفتوحة المصدر 01:46 - نظرة عامة على GPT OSS 02:37 - تحت غطاء محرك GPT OSS 03:25 - Qwen-3 الهندسة المعمارية 04:17 - تدريب Qwen-3 05:12 - Qwen-3 ما بعد التدريب 06:08 - Qwen-3 Reasoning & RL Innovations 06:52 - نظرة عامة على DeepSeek V3 07:40 - تحديثات DeepSeek V3.1 08:39 - آلية الانتباه (MLA) 09:39 - مقارنة أحجام النماذج 10:35 - استراتيجيات السياق الطويل 11:25 - تأملات في الأساليب 12:00 - الوجبات الجاهزة
‏‎2.53‏K