در روز سهشنبه، ۲ مرداد، متا از راهاندازی مجموعه Llama 3.1 از مدلهای زبان بزرگ چند زبانه (LLM) خود خبر داد. Llama 3.1 شامل مدلهای هوش مصنوعی مولد منبع باز و متن باز از پیش آموزش دیده و تنظیم شده در اندازههای ۷۰B ،۸B و برای اولین بار 405B است.
این مدل جدید 405B به نظر میرسد بزرگترین و قدرتمندترین مدل زبان منبع باز موجود امروزی و قابل رقابت با بهترین مدلهای اختصاصی موجود در بازار است، امروز در watsonx.ai در فضای ابری IBM، در یک محیط ابری ترکیبی یا در یک محل مستقر شده، در دسترس خواهد بود.
انتشار Llama 3.1 به دنبال عرضه مدلهای Llama 3 در 18 آوریل است. در اطلاعیه راهاندازی، متا بیان کرد که هدف [آنها] در آینده نزدیک این است که Llama 3 را چند زبانه و چندوجهی کنند تا زمینه طولانیتری داشته باشد و به بهبود عملکرد کلی در قابلیتهای LLM مانند استدلال و کدنویسی ادامه دهد.
هوش مصنوعی منبع باز جدید متا Llama 3.1
راهاندازی Llama 3.1 پیشرفت قابل توجهی را به سمت هدفهای جدید متا یعنی، افزایش چشمگیر طول متن تا استفاده گسترده از ابزار و قابلیتهای چند زبانه را نشان میدهد.
در دسامبر سال 2023، متا و IBM اتحاد هوش مصنوعی را با همکاری بیش از 50 عضو و همکار جهانی راهاندازی کردند. اتحاد هوش مصنوعی با گرد هم آوردن سازمانهای پیشرو در سراسر صنعت، استارتآپها، دانشگاهها، تحقیقات و دولت، میخواهد تکامل هوش مصنوعی را شکل دهد تا نیازها و پیچیدگیهای جوامع ما را به بهترین شکل منعکس کند. از زمان تأسیس، این اتحاد به بیش از 100 عضو افزایش یافته است.
به طور خاص، اتحاد هوش مصنوعی به پرورش یک جامعه باز اختصاص دارد که توسعه دهندگان و محققان را قادر میسازد تا نوآوری مسئولانه را سرعت بخشند و در عین حال اعتماد، ایمنی، امنیت، تنوع، دقت علمی و رقابت اقتصادی را تضمین کنند. برای این منظور، اتحاد از پروژههایی حمایت میکند که معیارها و استانداردهای ارزیابی را توسعه و استقرار میدهند، به حل چالشهای جامعه کمک میکنند، از ایجاد مهارتهای هوش مصنوعی جهانی حمایت میکنند و توسعه متن باز هوش مصنوعی را به روشهای ایمن و سودمند تشویق میکنند.
Llama 3.1 این ماموریت را با ارائه یک خانواده مدل باز و پیشرفته و اکوسیستم توسعه برای جامعه جهانی هوش مصنوعی برای ساخت، آزمایش و مقیاسپذیری مسئولانه ایدهها و رویکردهای جدید ادامه میدهد. در کنار مدلهای جدید قدرتمند، این نسخه شامل اقدامات ایمنی قوی در سطح سیستم، اقدامات جدید ارزیابی امنیت سایبری و حفاظهای به روز شده است. در مجموع، این منابع استانداردسازی توسعه و استفاده از ابزارهای اعتماد و ایمنی را برای هوش مصنوعی مولد تشویق میکنند.
مقایسه Llama 3.1-405B با مدلهای پیشرو بازار
مدلهای جدید Llama با “بیش از 400B پارامتر” در اعلامیه آوریل Llama 3، از جمله برخی ارزیابیهای اولیه از عملکرد مدل، مورد بحث قرار گرفتند، اما اندازه دقیق و مشخصات آنها تا زمان عرضه منتشر نشد. در حالی که Llama 3.1 ارتقاهای عمده را در همه اندازههای مدل نشان میدهد، مدل منبع باز جدید 405B برابری بیسابقهای با LLMهای اختصاصی و منبع بسته پیشرو دارد.
ارقام بهروزشده که امروز توسط متا منتشر شده است، تصویری جامع از اینکه عملکرد مدل 405B در برابر سایر مدلهای پیشرفته چقدر است. در ادامه نحوه مقایسه آن با LLMهای پیشرو در معیارهای رایج آمده است.
- دانش سطح کارشناسی (MMLU، 5 شات): با امتیاز 87.3٪، Llama 405B تقریبا با مدلهای معروف مانند GPT-4-Turbo OpenAI که (86.5٪) است، آنتروپیک Claude 3 Opus که (86.8٪) است و گوگل جمینی ۱.۵ با (85.9%) مطابقت دارد. در حالی که به طور واضح از Gemini 1.0 Ultra (83.7%)، بزرگترین مدل جیمینی گوگل، بهتر عمل میکند.
- سطح استدلال (GPQA، 0-shot): با امتیاز ۵۰.۷٪، Llama 405B تقریبا با مدلهای معروف مانند edged GPT-4T که (۴۸٪) است، آنتروپیک Claude 3 Opus که (۵۰.۴٪) است، مطابقت دارد. در حالی که به طور واضح از Claude 3 Sonnet (83.7%) و GPT-4 (35.7%)، بهتر عمل میکند.
- درک مطلب (DROP، F1): Llama 405B (84.8) از پیش آموزش دیده بهتر از GPT-4o (83.4)، Claude 3 Opus (83.1)، Gemini 1.0 Ultra (82.4) و Gemini 1.5 Pro (78.9) عمل میکند. تنها از GPT-4T (86.0) و کلود 3.5 Sonnet (87.1) عملکرد ضعیفتری دارد.
- پرسش و پاسخ (ARC-Challenge، 25-shot): Llama 400B+ (96.1٪) از قبل آموزش دیده با عملکرد GPT-4 (96.3٪) و Claude 3 Opus (96.4٪) مطابقت دارد.
- کدنویسی (HumanEval، 0-shot): مدل Llama با امتیاز (89.0%) تقریباً در این کلاس بهترین است، و همه مدلها به جز Claude 3.5 Sonnet و GPT-4o را با یک حاشیه راحت شکست میدهد.
هنگام مقایسه 405B با سایر مدلهای پیشرفته، معیارهای عملکرد تنها عاملی نیستند که باید در نظر گرفته شوند. Llama 3.1-405B بر خلاف همتاهای منبع بسته خود، که فقط از طریق یک API که در آن مدل اصلی ممکن است بدون اطلاع قبلی تغییر کند، قابل دسترسی است. این سطح از کنترل و قابل پیشبینی بودن برای محققان، شرکتها و سایر نهادهایی که ثبات و تکرارپذیری را ارج مینهند، موهبتی است.
چطور بهترین استفاده را از Llama-3.1-405B داشته باشیم
آیبیام، مانند متا، معتقد است که در دسترس بودن مدلهای باز پایدار، محصولات بهتر و ایمنتر را شکل میدهد، نوآوری را تسریع میکند و به یک بازار کلی هوش مصنوعی کمک میکند. مقیاس و قابلیت یک مدل منبع باز پیچیده با پارامتر 405B فرصتها و موارد استفاده منحصر به فردی را برای سازمانها در هر اندازه ارائه میدهد.
گذشته از استفاده مستقیم از مدل برای استنتاج و تولید متن، که با توجه به اندازه و نیازهای محاسباتی متناظر آن، ممکن است برای اجرای محلی در اکثر تنظیمات سخت افزاری به روشهای کوانتیزاسیون یا دیگر بهینهسازی نیاز داشته باشد، 405B میتواند برای موارد زیر استفاده شود:
- تولید داده مصنوعی: زمانی که دادههای مناسب برای پیشآموزش، تنظیم دقیق یا تنظیم دستورالعمل کمیاب یا بسیار گران است، دادههای مصنوعی میتوانند شکاف را پر کنند. 405B میتواند دادههای مصنوعی کار و دامنه با کیفیت بالا را برای آموزش LLM دیگر تولید کند. تراز مقیاس بزرگ آیبیام برای رباتهای چت (LAB) یک پروتکل آموزشی مرحلهای برای بهروزرسانی کارآمد LLM با دادههای مصنوعی و در عین حال حفظ دانش فعلی مدل است.
- تقطیر دانش: دانش و تواناییهای نوظهور مدل 405B را میتوان به مدل کوچکتری تقطیر کرد و قابلیتهای یک مدل بزرگ «معلم» را با استنتاج سریع و مقرونبهصرفه مدل «دانشآموزی» (مانند 8B یا 70B) ترکیب کرد. این مدل جدید تقطیر دانش، بهویژه از طریق تنظیم دستورالعمل روی دادههای مصنوعی تولید شده توسط مدلهای بزرگتر GPT، برای ایجاد مدلهای تأثیرگذار مبتنی بر لاما مانند آلپاکا و ویکونا ضروری بود.
- یک تنظیم دقیق قدرتمند و خاص دامنه: بسیاری از مدلهای بسته پیشرو مجوز تنظیم دقیق را فقط به صورت موردی، فقط برای نسخههای مدل قدیمیتر یا کوچکتر یا اصلاً نمیدهند. برعکس، متا Llama 3.1-405B را بهطور کامل برای پیشآموزش مداوم (برای بهروز نگهداشتن دانش عمومی مدل) یا تنظیم دقیق در یک دامنه خاص، بهزودی در استودیوی تنظیم watsonx در دسترس قرار خواهد داد.
برای راهاندازی موفق با مدلهای Llama 3.1، متا “اکیدا” استفاده از پلتفرمی را توصیه میکند که مانند IBM® watsonx، ویژگیهای اصلی را برای ارزیابی مدل، موارد محافظ ایمنی و بازیابی نسل افزوده (RAG) ارائه میدهد.
شروع کار با Llama 3.1
آخرین نسخه متا فرصتی بیسابقه برای تنظیم و تطبیق مدلهای واقعاً پیشرفته هوش مصنوعی برای استفاده خاص شماست. پشتیبانی از Llama 3.1 بخشی از تعهد IBM به پیشبرد نوآوری منبع باز در هوش مصنوعی و ارائه دسترسی به بهترین مدلهای باز در کلاس watsonx، از جمله مدلهای شخص ثالث و خانواده مدلهای IBM Granite است.
IBM watsonx به مشتریان کمک میکند تا پیادهسازی مدلهای منبع باز مانند Llama 3.1 را به گونهای که به بهترین وجه متناسب با نیازهایشان باشد، از انعطافپذیری برای استقرار مدلها در محل یا در محیط ابری ترجیحیشان تا جریانهای کاری بصری برای تنظیم دقیق و مهندسی سریع، سفارشی کنند. و ادغام با برنامههای کاربردی سازمانی. به راحتی برنامههای هوش مصنوعی سفارشی را برای کسب و کار خود بسازید، همه منابع داده را مدیریت کنید، و گردشهای کاری هوش مصنوعی را تسریع کنید، همه در یک پلت فرم.
Llama 3.1-405B امروز در IBM watsonx.ai در دسترس خواهد بود و مدل های 8B و 70B به زودی در دسترس خواهند بود.
منبع : ibm