مدل زبانی یا LM، استفاده از تکنیکهای آماری و احتمالی مختلف برای تعیین احتمال وجود یک توالی معین از کلمات در یک جمله است. مدلهای زبان بدنه دادههای متنی را تجزیه و تحلیل میکنند تا مبنایی برای پیشبینیهای کلمهشان فراهم کنند.
مدلهای زبانی در هوش مصنوعی (AI)، پردازش زبان طبیعی (NLP)، درک زبان طبیعی و سیستمهای تولید زبان طبیعی، بهویژه سیستمهایی که تولید متن، ترجمه ماشینی و پاسخگویی به سؤال را انجام میدهند، استفاده میشود.
مدلهای زبان بزرگ (LLM) نیز از مدلسازی زبان استفاده میکنند. آنها مدلهای زبانی پیشرفتهای هستند، مانند GPT-3 و Palm 2، که میلیاردها پارامتر داده آموزشی را مدیریت میکنند و خروجی متن تولید میکنند.
نحوه کار مدل زبانی چگونه است؟
مدلهای زبانی با تجزیه و تحلیل دادههای متنی احتمال کلمه را تعیین میکنند. آنها این دادهها را با تغذیه از طریق الگوریتمی تفسیر میکنند که قوانینی را برای زمینه در زبان طبیعی ایجاد میکند. سپس، مدل این قوانین را در تکالیف زبانی به کار میبرد تا به طور دقیق جملات جدید را پیشبینی یا تولید کند. این مدل اساساً ویژگیها و ویژگیهای زبان پایه را میآموزد و از آن ویژگیها برای درک عبارات جدید استفاده میکند.
چندین رویکرد احتمالی مختلف برای مدل زبانی وجود دارد. آنها بسته به هدف مدل زبان متفاوت هستند. از منظر فنی، انواع مدلهای زبان مختلف از نظر میزان دادههای متنی که تجزیه و تحلیل میکنند و ریاضیاتی که برای تجزیه و تحلیل آن استفاده میکنند متفاوت است.
به عنوان مثال، یک مدل زبانی که برای تولید جملات برای یک ربات رسانه اجتماعی خودکار طراحی شده است، ممکن است از ریاضی متفاوتی استفاده کند و دادههای متنی را به روشهای متفاوتی نسبت به مدل زبانی که برای تعیین احتمال جستجو طراحی شده است، استفاده کند.
انواع مدلهای زبان
چندین رویکرد برای ساختن مدلهای زبانی وجود دارد. برخی از انواع رایج مدلهای زبان به شرح زیر است:
N-gram
این رویکرد ساده به یک مدل زبان، توزیع احتمال را برای دنبالهای از n ایجاد میکند. n میتواند هر عددی باشد و اندازه گرم یا دنبالهای از کلمات یا متغیرهای تصادفی را مشخص میکند که به آنها یک احتمال اختصاص داده شده است. این به مدل اجازه میدهد تا کلمه یا متغیر بعدی را به طور دقیق در یک جمله پیشبینی کند. به عنوان مثال، اگر n = 5، یک گرم ممکن است به این صورت باشد: “می توانید لطفا با من تماس بگیرید.” سپس مدل با استفاده از دنبالههایی با اندازه n احتمالات را اختصاص میدهد. اساساً، n را میتوان بهعنوان مقدار زمینهای در نظر گرفت که به مدل گفته میشود در نظر بگیرد. N-gramها همچنین میتوانند با تجزیه و تحلیل رشتهها در یک فایل به شناسایی بدافزار کمک کنند.
Unigram
این سادهترین نوع مدل زبان است. در محاسبات خود به هیچ زمینه شرطی نگاه نمیکند. هر کلمه یا اصطلاح را به طور مستقل ارزیابی میکند. مدلهای Unigram معمولاً وظایف پردازش زبان مانند بازیابی اطلاعات را انجام میدهند. یونیگرام پایه یک مدل خاصتری به نام مدل احتمال پرس و جو است که از بازیابی اطلاعات برای بررسی مجموعهای از اسناد و تطبیق مرتبطترین آنها با یک پرس و جو خاص استفاده میکند.
Bidirectional
بر خلاف مدلهای n-gram که متن را در یک جهت تجزیه و تحلیل میکنند، مدلهای عقبگرد و دوطرفه متن را در هر دو جهت، عقب و جلو، تحلیل میکنند. این مدلها میتوانند هر کلمهای را در یک جمله یا بدنه متن با استفاده از هر کلمه دیگری در متن پیشبینی کنند. بررسی متن به صورت دو طرفه دقت نتیجه را افزایش میدهد. این نوع اغلب در مدلهای یادگیری ماشینی و برنامههای تولید گفتار استفاده میشود. به عنوان مثال، گوگل از یک مدل دو جهته برای پردازش پرس و جوهای جستجو استفاده میکند.
Exponential
مدلهای نمایی که به عنوان مدلهای حداکثر آنتروپی نیز شناخته میشوند، پیچیدهتر از nگرم هستند. به عبارت ساده، متن را با استفاده از معادلهای ارزیابی میکند که توابع ویژگی و n-gram را ترکیب میکند. اساساً، این نوع مدل ویژگیها و پارامترهای نتایج مورد نظر را مشخص میکند و بر خلاف n-gram، پارامترهای تجزیه و تحلیل را مبهمتر میکند.
مثلاً اندازههای جداگانه گرم را مشخص نمیکند. این مدل بر اساس اصل آنتروپی است که بیان میکند که توزیع احتمال با بیشترین آنتروپی بهترین انتخاب است. به عبارت دیگر، مدلی با بیشترین هرج و مرج و کمترین جا برای فرضیات، دقیقترین مدل است. مدلهای نمایی برای به حداکثر رساندن آنتروپی متقاطع طراحی شدهاند، که میزان فرضیات آماری را به حداقل میرساند. این به کاربران اجازه میدهد تا به نتایجی که از این مدلها میگیرند اعتماد بیشتری داشته باشند.
Neural language models
مدلهای زبان عصبی از تکنیکهای یادگیری عمیق برای غلبه بر محدودیتهای مدلهای n-gram استفاده میکنند. این مدلها از شبکههای عصبی مانند شبکههای عصبی بازگشتی (RNN) و ترانسفورماتورها برای ثبت الگوها و وابستگیهای پیچیده در متن استفاده میکنند. مدلهای زبان RNN شامل حافظه کوتاهمدت و مدلهای واحد بازگشتی دروازهدار هستند.
این مدلها میتوانند هنگام پیش بینی کلمه بعدی، تمام کلمات قبلی را در یک جمله در نظر بگیرند. این به آنها امکان میدهد وابستگیهای دوربرد را دریافت کنند و متن مرتبطتری را تولید کنند. ترانسفورماتورها از مکانیسمهای توجه به خود برای سنجش اهمیت کلمات مختلف در یک جمله استفاده میکنند و آنها را قادر میسازد تا وابستگیهای جهانی را دریافت کنند. مدلهای مولد هوش مصنوعی، مانند GPT-3 و Palm 2، بر اساس معماری ترانسفورماتور هستند.
Continuous space
این نوع دیگری از مدل زبان عصبی است که کلمات را به صورت ترکیبی غیرخطی از وزنها در یک شبکه عصبی نشان میدهد. فرآیند تعیین وزن به یک کلمه به عنوان جاسازی کلمه نیز شناخته میشود. این نوع مدل به ویژه با بزرگتر شدن مجموعه دادهها مفید میشود، زیرا مجموعه دادههای بزرگتر اغلب شامل کلمات منحصر به فرد بیشتری است.
وجود بسیاری از کلمات منحصر به فرد که به ندرت استفاده میشود میتواند برای مدلهای خطی مانند n-gram مشکل ایجاد کند. این به این دلیل است که تعداد توالی کلمات ممکن، افزایش مییابد و الگوهایی که نتایج را نشان میدهند ضعیفتر میشوند. با وزندهی کلمات به روش غیرخطی و توزیع شده، این مدل میتواند کلمات را تقریبی “یاد بگیرد” و توسط هیچ مقدار ناشناختهای گمراه نشود. “درک” آن از یک کلمه داده شده به همان اندازه که در مدلهای n-gram است به کلمات اطراف آن متصل نیست.
مدلهای فهرستشده در بالا، رویکردهای آماری عمومیتری هستند که از آنها مدلهای زبانی متفاوتتری مشتق میشوند. به عنوان مثال، همانطور که در توضیحات n-gram ذکر شد، مدل احتمال پرس و جو یک مدل خاص یا تخصصیتر است که از رویکرد n-gram استفاده میکند. انواع مدلهای زبانی را میتوان، همراه با یکدیگر استفاده کرد.
یک مدل زبانی خوب همچنین باید بتواند وابستگیهای طولانیمدت را پردازش کند و کلماتی را که ممکن است معنای خود را از کلمات دیگری که در بخشهای دوردست و نامتجانس متن به کار میروند مشتق کنند، بکار میبرد. یک مدل زبانی باید بتواند بفهمد که یک کلمه چه زمانی به یک کلمه دیگر از فاصله دور ارجاع میدهد، نه اینکه همیشه به کلمات نزدیک در یک تاریخچه ثابت خاص تکیه کند.
کاربردهای مدلهای زبانی
مدلهای زبانی ستون فقرات NLP هستند. در زیر برخی از موارد استفاده و وظایف NLP که از مدل زبانی استفاده میکنند آورده شده است:
- تشخیص گفتار: این شامل ماشینی است که میتواند صدای گفتار را پردازش کند. دستیارهای صوتی مانند سیری و الکسا معمولاً از تشخیص گفتار استفاده میکنند.
- تولید متن : این برنامه از پیش بینی برای تولید متن منسجم و مرتبط با زمینه استفاده میکند. این برنامه در نوشتن خلاق، تولید محتوا و خلاصه سازی دادههای ساختاریافته و سایر متنها کاربرد دارد.
- چتباتها : این رباتها در مکالمات انسانمانند با کاربران شرکت میکنند و همچنین پاسخهای دقیقی به سؤالات میدهند. چتباتها در دستیاران مجازی، برنامههای کاربردی پشتیبانی مشتری و سیستمهای بازیابی اطلاعات استفاده میشوند.
- ترجمه ماشینی: این شامل ترجمه یک زبان به زبان دیگر توسط یک ماشین است. گوگل Translate و مایکروسافت Translator دو برنامهای هستند که این کار را انجام میدهند. دیگر SDL است که برای ترجمه فیدهای رسانههای اجتماعی خارجی در زمان واقعی برای دولت ایالات متحده استفاده میشود.
- بازیابی اطلاعات : این رویکرد شامل جستجو در یک سند برای اطلاعات، جستجوی اسناد به طور کلی و جستجوی فرادادهای است که با یک سند مطابقت دارد. مرورگرهای وب رایجترین برنامههای بازیابی اطلاعات هستند.
- تجزیه و تحلیل دادههای مشاهده شده : این مدلهای زبانی دادههای مشاهدهشده مانند دادههای حسگر، دادههای تلهمتری و دادههای آزمایشها را تجزیه و تحلیل میکنند.
آینده مدلهای زبانی
LLMهای پیشرفته تواناییهای چشمگیری در تولید زبان انسانی و متن انسان مانند و درک الگوهای زبانی پیچیده نشان دادهاند. مدلهای پیشرو مانند مدلهایی که ChatGPT و جمینی را نیرو میدهند، میلیاردها پارامتر دارند و بر روی حجم عظیمی از داده آموزش دیدهاند. موفقیت آنها باعث شده است که در موتورهای جستجوی بینگ و گوگل پیادهسازی شوند و قول تغییر تجربه جستجو را بدهند.
تکنیکهای جدید علم داده، مانند تنظیم دقیق و انتقال یادگیری، در مدل زبانی ضروری شدهاند. به جای آموزش یک مدل از ابتدا، تنظیم دقیق به توسعه دهندگان این امکان را میدهد که یک مدل زبان از پیش آموزش دیده را انتخاب کنند و آن را با یک کار یا دامنه تطبیق دهند. این رویکرد مقدار دادههای برچسبگذاری شده مورد نیاز برای آموزش را کاهش داده و عملکرد کلی مدل را بهبود بخشیده است.
همانطور که مدلهای زبان و تکنیکهای آنها قدرتمندتر و تواناتر میشوند، ملاحظات اخلاقی اهمیت بیشتری پیدا میکنند. مسائلی مانند سوگیری در متن تولید شده، اطلاعات نادرست و استفاده نادرست بالقوه از مدلهای زبان مبتنی بر هوش مصنوعی، بسیاری از کارشناسان و توسعهدهندگان هوش مصنوعی مانند ایلان ماسک را بر آن داشته است که نسبت به توسعه بی قانون آنها هشدار دهند.