هوش مصنوعی منبع باز

متا بزرگترین مدل هوش مصنوعی منبع باز خود Llama 3.1 را معرفی می‌کند

فهرست مطالب

در روز سه‌شنبه، ۲ مرداد، متا از راه‌اندازی مجموعه Llama 3.1 از مدل‌های زبان بزرگ چند زبانه (LLM) خود خبر داد. Llama 3.1 شامل مدل‌های هوش مصنوعی مولد منبع باز و متن باز از پیش آموزش دیده و تنظیم شده در اندازه‌های ۷۰B ،۸B و برای اولین بار 405B است.

این مدل جدید 405B به نظر می‌رسد بزرگترین و قدرتمندترین مدل زبان منبع باز موجود امروزی و قابل رقابت با بهترین مدل‌های اختصاصی موجود در بازار است، امروز در watsonx.ai در فضای ابری IBM، در یک محیط ابری ترکیبی یا در یک محل مستقر شده، در دسترس خواهد بود.

انتشار Llama 3.1 به دنبال عرضه مدل‌های Llama 3 در 18 آوریل است. در اطلاعیه راه‌اندازی، متا بیان کرد که هدف [آنها] در آینده نزدیک این است که Llama 3 را چند زبانه و چندوجهی کنند تا زمینه طولانی‌تری داشته باشد و به بهبود عملکرد کلی در قابلیت‌های LLM مانند استدلال و کدنویسی ادامه دهد.

هوش مصنوعی منبع باز جدید متا Llama 3.1

هوش مصنوعی Llama 3.1

راه‌اندازی Llama 3.1 پیشرفت قابل توجهی را به سمت هدف‌‌های جدید متا یعنی، افزایش چشمگیر طول متن تا استفاده گسترده از ابزار و قابلیت‌های چند زبانه را نشان می‌دهد.

در دسامبر سال 2023، متا و IBM اتحاد هوش مصنوعی را با همکاری بیش از 50 عضو و همکار جهانی راه‌اندازی کردند. اتحاد هوش مصنوعی با گرد هم آوردن سازمان‌های پیشرو در سراسر صنعت، استارت‌آپ‌ها، دانشگاه‌ها، تحقیقات و دولت، می‌خواهد تکامل هوش مصنوعی را شکل دهد تا نیازها و پیچیدگی‌های جوامع ما را به بهترین شکل منعکس کند. از زمان تأسیس، این اتحاد به بیش از 100 عضو افزایش یافته است.

به طور خاص، اتحاد هوش مصنوعی به پرورش یک جامعه باز اختصاص دارد که توسعه دهندگان و محققان را قادر می‌سازد تا نوآوری مسئولانه را سرعت بخشند و در عین حال اعتماد، ایمنی، امنیت، تنوع، دقت علمی و رقابت اقتصادی را تضمین کنند. برای این منظور، اتحاد از پروژه‌هایی حمایت می‌کند که معیارها و استانداردهای ارزیابی را توسعه و استقرار می‌دهند، به حل چالش‌های جامعه کمک می‌کنند، از ایجاد مهارت‌های هوش مصنوعی جهانی حمایت می‌کنند و توسعه متن باز هوش مصنوعی را به روش‌های ایمن و سودمند تشویق می‌کنند.

Llama 3.1 این ماموریت را با ارائه یک خانواده مدل باز و پیشرفته و اکوسیستم توسعه برای جامعه جهانی هوش مصنوعی برای ساخت، آزمایش و مقیاس‌پذیری مسئولانه ایده‌ها و رویکردهای جدید ادامه می‌دهد. در کنار مدل‌های جدید قدرتمند، این نسخه شامل اقدامات ایمنی قوی در سطح سیستم، اقدامات جدید ارزیابی امنیت سایبری و حفاظ‌های به روز شده است. در مجموع، این منابع استانداردسازی توسعه و استفاده از ابزارهای اعتماد و ایمنی را برای هوش مصنوعی مولد تشویق می‌کنند.

مقایسه Llama 3.1-405B با مدل‌های پیشرو بازار

مدل‌های جدید Llama با “بیش از 400B پارامتر” در اعلامیه آوریل Llama 3، از جمله برخی ارزیابی‌های اولیه از عملکرد مدل، مورد بحث قرار گرفتند، اما اندازه دقیق و مشخصات آنها تا زمان عرضه منتشر نشد. در حالی که Llama 3.1 ارتقاهای عمده را در همه اندازه‌های مدل نشان می‌دهد، مدل منبع باز جدید 405B برابری بی‌سابقه‌ای با LLM‌های اختصاصی و منبع بسته پیشرو دارد.

ارقام به‌روز‌شده که امروز توسط متا منتشر شده است، تصویری جامع از اینکه عملکرد مدل 405B در برابر سایر مدل‌های پیشرفته چقدر است. در ادامه نحوه مقایسه آن با LLM‌های پیشرو در معیارهای رایج آمده است.

  • دانش سطح کارشناسی (MMLU، 5 شات): با امتیاز 87.3٪، Llama 405B تقریبا با مدل‌های معروف مانند GPT-4-Turbo OpenAI که (86.5٪) است، آنتروپیک Claude 3 Opus که (86.8٪) است و گوگل جمینی ۱.۵ با (85.9%) مطابقت دارد. در حالی که به طور واضح از Gemini 1.0 Ultra (83.7%)، بزرگترین مدل جیمینی گوگل، بهتر عمل می‌کند.
  • سطح استدلال (GPQA، 0-shot): با امتیاز ۵۰.۷٪، Llama 405B تقریبا با مدل‌های معروف مانند edged GPT-4T که (۴۸٪) است، آنتروپیک Claude 3 Opus که (۵۰.۴٪) است، مطابقت دارد. در حالی که به طور واضح از Claude 3 Sonnet (83.7%) و GPT-4 (35.7%)، بهتر عمل می‌کند.
  • درک مطلب (DROP، F1): Llama 405B (84.8) از پیش آموزش دیده بهتر از GPT-4o (83.4)، Claude 3 Opus (83.1)، Gemini 1.0 Ultra (82.4) و Gemini 1.5 Pro (78.9) عمل می‌کند. تنها از GPT-4T (86.0) و کلود 3.5 Sonnet (87.1) عملکرد ضعیف‌تری دارد.
  • پرسش و پاسخ (ARC-Challenge، 25-shot): Llama 400B+ (96.1٪) از قبل آموزش دیده با عملکرد GPT-4 (96.3٪) و Claude 3 Opus (96.4٪) مطابقت دارد.
  • کدنویسی (HumanEval، 0-shot): مدل Llama با امتیاز (89.0%) تقریباً در این کلاس بهترین است، و همه مدل‌ها به جز Claude 3.5 Sonnet و GPT-4o را با یک حاشیه راحت شکست می‌دهد.

هنگام مقایسه 405B با سایر مدل‌های پیشرفته، معیارهای عملکرد تنها عاملی نیستند که باید در نظر گرفته شوند. Llama 3.1-405B بر خلاف همتاهای منبع بسته خود، که فقط از طریق یک API که در آن مدل اصلی ممکن است بدون اطلاع قبلی تغییر کند، قابل دسترسی است. این سطح از کنترل و قابل پیش‌بینی بودن برای محققان، شرکت‌ها و سایر نهادهایی که ثبات و تکرارپذیری را ارج می‌نهند، موهبتی است.

چطور بهترین استفاده را از Llama-3.1-405B داشته باشیم

آی‌بی‌ام، مانند متا، معتقد است که در دسترس بودن مدل‌های باز پایدار، محصولات بهتر و ایمن‌تر را شکل می‌دهد، نوآوری را تسریع می‌کند و به یک بازار کلی هوش مصنوعی کمک می‌کند. مقیاس و قابلیت یک مدل منبع باز پیچیده با پارامتر 405B فرصت‌ها و موارد استفاده منحصر به فردی را برای سازمان‌ها در هر اندازه ارائه می‌دهد.

گذشته از استفاده مستقیم از مدل برای استنتاج و تولید متن، که با توجه به اندازه و نیازهای محاسباتی متناظر آن، ممکن است برای اجرای محلی در اکثر تنظیمات سخت افزاری به روش‌های کوانتیزاسیون یا دیگر بهینه‌سازی نیاز داشته باشد، 405B می‌تواند برای موارد زیر استفاده شود:

  • تولید داده مصنوعی: زمانی که داده‌های مناسب برای پیش‌آموزش، تنظیم دقیق یا تنظیم دستورالعمل کمیاب یا بسیار گران است، داده‌های مصنوعی می‌توانند شکاف را پر کنند. 405B می‌تواند داده‌های مصنوعی کار و دامنه با کیفیت بالا را برای آموزش LLM دیگر تولید کند. تراز مقیاس بزرگ آی‌بی‌ام برای ربات‌های چت (LAB) یک پروتکل آموزشی مرحله‌ای برای به‌روزرسانی کارآمد LLM با داده‌های مصنوعی و در عین حال حفظ دانش فعلی مدل است.
  • تقطیر دانش: دانش و توانایی‌های نوظهور مدل 405B را می‌توان به مدل کوچک‌تری تقطیر کرد و قابلیت‌های یک مدل بزرگ «معلم» را با استنتاج سریع و مقرون‌به‌صرفه مدل «دانش‌آموزی» (مانند 8B یا 70B) ترکیب کرد. این مدل جدید تقطیر دانش، به‌ویژه از طریق تنظیم دستورالعمل روی داده‌های مصنوعی تولید شده توسط مدل‌های بزرگ‌تر GPT، برای ایجاد مدل‌های تأثیرگذار مبتنی بر لاما مانند آلپاکا و ویکونا ضروری بود.
  • یک تنظیم دقیق قدرتمند و خاص دامنه: بسیاری از مدل‌های بسته پیشرو مجوز تنظیم دقیق را فقط به صورت موردی، فقط برای نسخه‌های مدل قدیمی‌تر یا کوچک‌تر یا اصلاً نمی‌دهند. برعکس، متا Llama 3.1-405B را به‌طور کامل برای پیش‌آموزش مداوم (برای به‌روز نگه‌داشتن دانش عمومی مدل) یا تنظیم دقیق در یک دامنه خاص، به‌زودی در استودیوی تنظیم watsonx در دسترس قرار خواهد داد.

برای راه‌اندازی موفق با مدل‌های Llama 3.1، متا “اکیدا” استفاده از پلتفرمی را توصیه می‌کند که مانند IBM® watsonx، ویژگی‌های اصلی را برای ارزیابی مدل، موارد محافظ ایمنی و بازیابی نسل افزوده (RAG) ارائه می‌دهد.

شروع کار با Llama 3.1

آخرین نسخه متا فرصتی بی‌سابقه برای تنظیم و تطبیق مدل‌های واقعاً پیشرفته هوش مصنوعی برای استفاده خاص شماست. پشتیبانی از Llama 3.1 بخشی از تعهد IBM به پیشبرد نوآوری منبع باز در هوش مصنوعی و ارائه دسترسی به بهترین مدل‌های باز در کلاس watsonx، از جمله مدل‌های شخص ثالث و خانواده مدل‌های IBM Granite است.

IBM watsonx به مشتریان کمک می‌کند تا پیاده‌سازی مدل‌های منبع باز مانند Llama 3.1 را به گونه‌ای که به بهترین وجه متناسب با نیازهایشان باشد، از انعطاف‌پذیری برای استقرار مدل‌ها در محل یا در محیط ابری ترجیحی‌شان تا جریان‌های کاری بصری برای تنظیم دقیق و مهندسی سریع، سفارشی کنند. و ادغام با برنامه‌های کاربردی سازمانی. به راحتی برنامه‌های هوش مصنوعی سفارشی را برای کسب و کار خود بسازید، همه منابع داده را مدیریت کنید، و گردش‌های کاری هوش مصنوعی را تسریع کنید، همه در یک پلت فرم.

Llama 3.1-405B امروز در IBM watsonx.ai در دسترس خواهد بود و مدل های 8B و 70B به زودی در دسترس خواهند بود.

منبع : ibm

نظرت رو برامون بنویس

برنامه هوش مصنوعی

دستیار صوتی هوشمند

دانلود زیگپ