{ الذكاء الاصطناعي - AI }

رؤية جديدة للذكاء الاصطناعي متعدد الوسائط مع Llama 3.2 Vision


إطلاق Llama 3.2 Vision من Meta

أعلنت شركة Meta عن إطلاق النموذج الجديد Llama 3.2-Vision، الذي يضع معياراً جديداً في عالم الذكاء الاصطناعي متعدد الوسائط. يتميز هذا النموذج بقدرته على دمج المعلومات النصية والصورية بسلاسة، مما يفتح آفاقاً واسعة أمام المطورين والشركات لتطبيقات مبتكرة.


أحجام النماذج ومميزاتها

تقدم Llama 3.2-Vision نماذج بحجمين:

  • 11 مليار معلمة.
  • 90 مليار معلمة.

تم تصميم هذه النماذج خصيصاً للتعامل مع المهام التي تتطلب التكامل بين النصوص والصور. تجمع النماذج بين قدرات اللغة في Llama 3.1 وخيارات متقدمة للتعرف البصري وتوضيح الصور باستخدام محول رؤية مدرب بشكل منفصل. بفضل استخدام التدريب المُشرف (SFT) وتقنيات التعلم التعزيزي بالتغذية الراجعة البشرية (RLHF)، تضمن النماذج توافقها مع تفضيلات المستخدم من حيث المساعدة والسلامة.


مجالات التطبيق

تشمل التطبيقات البارزة للنماذج الجديدة:

  • توليد تسميات الصور (Captioning): حيث يستطيع النموذج فهم المشاهد وتوليد وصف مناسب لها.
  • تحويل الصورة إلى نص (Image-to-Text Queries): مشابه لمحرك بحث يفهم المعلومات النصية والصورية معاً.
  • الأساس البصري (Visual Foundation): يسمح للنموذج بتحديد أشياء أو مناطق محددة في الصور بناءً على أوصاف باللغة الطبيعية.
Llama3.2 Vision: Image Q&A ; Source: Ollama


دمج الذكاء الاصطناعي في الأجهزة المحمولة

أحد الابتكارات المهمة من Meta هو دمج النماذج في الأجهزة الطرفية والمحمولة. تعمل الشراكات مع شركات مثل Arm وMediaTek وQualcomm على تقديم ذكاء اصطناعي قوي إلى الأجهزة ذات الموارد الحوسبية المحدودة. هذا يتيح للمطورين إنشاء تطبيقات تُستخدم على نطاق واسع في الحياة اليومية.


ترخيص مجتمعي

يأتي Llama 3.2 Vision بترخيص مجتمعي يتيح استخدامه في الأغراض التجارية والعلمية، مما يفتح الباب أمام تطوير البيانات والنماذج لتطبيقات متعددة.


أهمية التحديث

يمثل إطلاق نماذج Llama 3.2 Vision خطوة مهمة إلى الأمام في أبحاث الذكاء الاصطناعي. يتمثل التفوق الأساسي للنماذج متعددة الوسائط في قدرتها على سد الفجوة بين أشكال البيانات المختلفة، مما يوفر حلولاً مرنة ومتعددة الاستخدامات. تعزز هذه التطورات أهمية الذكاء الاصطناعي في مجالات مثل التعليم، التصميم، والطب، حيث تتطلب التطبيقات فهماً للنصوص والصور معاً.

أبرز النقاط حول التحديث

  • توفر Llama 3.2-Vision نماذج بحجمين: 11 و90 مليار معلمة.
  • تشمل مجالات التطبيق: التسمية والأساس البصري.
  • تستفيد النماذج من التدريب المُشرف والتعلم التعزيزي بالتغذية الراجعة البشرية.
  • التكامل في الأجهزة الطرفية والمحمولة عبر شراكات مع الشركات الرائدة.
  • الترخيص المجتمعي يدعم التطبيقات التجارية والعلمية.

يشير هذا التحديث إلى تحول كبير في طرق استخدام الذكاء الاصطناعي مستقبلاً، مما يشجع على مناقشة الإمكانات الهائلة للنماذج متعددة الوسائط.

المصدر: أولاما Ollama

مقالات ذات صلة

زر الذهاب إلى الأعلى