رؤية جديدة للذكاء الاصطناعي متعدد الوسائط مع Llama 3.2 Vision

Haytictimeنوفمبر 16, 2024

13 دقيقة واحدة

إطلاق Llama 3.2 Vision من Meta

أعلنت شركة Meta عن إطلاق النموذج الجديد Llama 3.2-Vision، الذي يضع معياراً جديداً في عالم الذكاء الاصطناعي متعدد الوسائط. يتميز هذا النموذج بقدرته على دمج المعلومات النصية والصورية بسلاسة، مما يفتح آفاقاً واسعة أمام المطورين والشركات لتطبيقات مبتكرة.

أحجام النماذج ومميزاتها

تقدم Llama 3.2-Vision نماذج بحجمين:

11 مليار معلمة.
90 مليار معلمة.

تم تصميم هذه النماذج خصيصاً للتعامل مع المهام التي تتطلب التكامل بين النصوص والصور. تجمع النماذج بين قدرات اللغة في Llama 3.1 وخيارات متقدمة للتعرف البصري وتوضيح الصور باستخدام محول رؤية مدرب بشكل منفصل. بفضل استخدام التدريب المُشرف (SFT) وتقنيات التعلم التعزيزي بالتغذية الراجعة البشرية (RLHF)، تضمن النماذج توافقها مع تفضيلات المستخدم من حيث المساعدة والسلامة.

مجالات التطبيق

تشمل التطبيقات البارزة للنماذج الجديدة:

توليد تسميات الصور (Captioning): حيث يستطيع النموذج فهم المشاهد وتوليد وصف مناسب لها.
تحويل الصورة إلى نص (Image-to-Text Queries): مشابه لمحرك بحث يفهم المعلومات النصية والصورية معاً.
الأساس البصري (Visual Foundation): يسمح للنموذج بتحديد أشياء أو مناطق محددة في الصور بناءً على أوصاف باللغة الطبيعية.

Llama3.2 Vision: Image Q&A ; Source: Ollama

دمج الذكاء الاصطناعي في الأجهزة المحمولة

أحد الابتكارات المهمة من Meta هو دمج النماذج في الأجهزة الطرفية والمحمولة. تعمل الشراكات مع شركات مثل Arm وMediaTek وQualcomm على تقديم ذكاء اصطناعي قوي إلى الأجهزة ذات الموارد الحوسبية المحدودة. هذا يتيح للمطورين إنشاء تطبيقات تُستخدم على نطاق واسع في الحياة اليومية.

ترخيص مجتمعي

يأتي Llama 3.2 Vision بترخيص مجتمعي يتيح استخدامه في الأغراض التجارية والعلمية، مما يفتح الباب أمام تطوير البيانات والنماذج لتطبيقات متعددة.

أهمية التحديث

يمثل إطلاق نماذج Llama 3.2 Vision خطوة مهمة إلى الأمام في أبحاث الذكاء الاصطناعي. يتمثل التفوق الأساسي للنماذج متعددة الوسائط في قدرتها على سد الفجوة بين أشكال البيانات المختلفة، مما يوفر حلولاً مرنة ومتعددة الاستخدامات. تعزز هذه التطورات أهمية الذكاء الاصطناعي في مجالات مثل التعليم، التصميم، والطب، حيث تتطلب التطبيقات فهماً للنصوص والصور معاً.