مدل زبان چیست؟
یک مدل زبان احتمال وقوع یک توکن یا دنباله ای از نشانه ها را در یک دنباله طولانی تر از نشانه ها تخمین می زند. یک نشانه می تواند یک کلمه، یک زیرکلمه (زیر مجموعه یک کلمه) یا حتی یک کاراکتر باشد.
جمله زیر و نشانه(هایی) که ممکن است آن را کامل کنند را در نظر بگیرید:
When I hear rain on my roof, I _______ in my kitchen.
یک مدل زبان، احتمال توکنها یا دنبالهای از نشانهها را برای تکمیل آن جای خالی تعیین میکند. به عنوان مثال، جدول احتمال زیر برخی از نشانه های ممکن و احتمالات آنها را مشخص می کند:
احتمال | توکن(ها) |
---|---|
9.4٪ | سوپ بپز |
5.2٪ | یک کتری را گرم کنید |
3.6٪ | خفه کردن |
2.5٪ | چرت زدن |
2.2٪ | استراحت کن |
در برخی موقعیتها، توالی نشانهها میتواند یک جمله، پاراگراف یا حتی یک مقاله کامل باشد.
یک برنامه کاربردی می تواند از جدول احتمال برای پیش بینی استفاده کند. پیشبینی ممکن است بالاترین احتمال (مثلاً «سوپ پختن») یا انتخاب تصادفی از نشانههایی باشد که احتمال بیشتری از یک آستانه خاص دارند.
تخمین احتمال چیزی که در یک دنباله متنی جای خالی را پر می کند را می توان به کارهای پیچیده تر، از جمله:
- تولید متن
- ترجمه متن از یک زبان به زبان دیگر.
- جمع بندی اسناد
با مدلسازی الگوهای آماری نشانهها، مدلهای زبان مدرن بازنماییهای درونی بسیار قدرتمندی از زبان ایجاد میکنند و میتوانند زبان قابل قبولی تولید کنند.
مدل های زبان N-gram
N-gram ها دنباله های مرتبی از کلمات هستند که برای ساخت مدل های زبان استفاده می شوند، که در آن N تعداد کلمات در دنباله است. به عنوان مثال، هنگامی که N 2 باشد، N-گرم یک 2 گرم (یا یک بیگرم ) نامیده می شود. وقتی N 5 باشد، N-گرم 5 گرم نامیده می شود. با توجه به عبارت زیر در یک سند آموزشی:
you are very nice
2 گرم حاصل به شرح زیر است:
- شما هستید
- بسیار هستند
- بسیار زیبا
هنگامی که N 3 باشد، N-گرم 3 گرم (یا سه گرم ) نامیده می شود. با توجه به همان عبارت، 3 گرم حاصل به صورت زیر است:
- تو خیلی هستی
- بسیار خوب هستند
با در نظر گرفتن دو کلمه به عنوان ورودی، یک مدل زبان بر اساس 3 گرم می تواند احتمال کلمه سوم را پیش بینی کند. به عنوان مثال، با توجه به دو کلمه زیر:
orange is
یک مدل زبان تمام 3 گرم های مختلف مشتق شده از مجموعه آموزشی خود را که با orange is
شروع می شود بررسی می کند تا محتمل ترین کلمه سوم را تعیین کند. صدها 3 گرم می تواند با دو کلمه orange is
شروع شود، اما شما می توانید فقط روی دو احتمال زیر تمرکز کنید:
orange is ripe orange is cheerful
احتمال اول ( orange is ripe
) در مورد میوه نارنجی است، در حالی که احتمال دوم ( orange is cheerful
) در مورد رنگ نارنجی است.
زمینه
انسان ها می توانند زمینه های نسبتا طولانی را حفظ کنند. هنگام تماشای عمل 3 یک نمایشنامه، دانش شخصیت های معرفی شده در قانون 1 را حفظ می کنید. به طور مشابه، خط پانچ یک شوخی طولانی شما را می خنداند زیرا می توانید زمینه را از تنظیم جوک به خاطر بسپارید.
در مدل های زبان، زمینه اطلاعات مفیدی قبل یا بعد از نشانه هدف است. زمینه می تواند به مدل زبانی کمک کند تا تعیین کند که «نارنجی» به یک مرکبات اشاره دارد یا یک رنگ.
زمینه می تواند به مدل زبان کمک کند تا پیش بینی های بهتری داشته باشد، اما آیا 3 گرم زمینه کافی را فراهم می کند؟ متأسفانه، تنها زمینه ای که یک 3 گرم ارائه می دهد، دو کلمه اول است. برای مثال، دو کلمه orange is
زمینه کافی برای مدل زبانی برای پیشبینی کلمه سوم فراهم نمیکند. به دلیل نداشتن زمینه، مدل های زبانی مبتنی بر 3 گرم اشتباهات زیادی را مرتکب می شوند.
N-گرم های بلندتر مطمئنا زمینه بیشتری را نسبت به N-gram های کوتاه تر فراهم می کند. با این حال، با رشد N، وقوع نسبی هر نمونه کاهش می یابد. وقتی N بسیار بزرگ می شود، مدل زبان معمولاً تنها یک نمونه از هر رخداد N نشانه دارد، که برای پیش بینی نشانه هدف چندان مفید نیست.
شبکه های عصبی مکرر
شبکه های عصبی مکرر زمینه بیشتری را نسبت به N-gram فراهم می کنند. شبکه عصبی بازگشتی نوعی از شبکه عصبی است که بر روی دنباله ای از نشانه ها آموزش می بیند. به عنوان مثال، یک شبکه عصبی مکرر می تواند به تدریج بافت انتخاب شده از هر کلمه در یک جمله را بیاموزد (و بیاموزد که نادیده بگیرد). یک شبکه عصبی عودکننده بزرگ میتواند زمینه را از چند جمله به دست آورد.
اگرچه شبکههای عصبی بازگشتی، زمینه بیشتری را نسبت به N-gram یاد میگیرند، اما میزان مفیدی که شبکههای عصبی بازگشتی میتوانند بشناسند، هنوز نسبتاً محدود است. شبکه های عصبی مکرر اطلاعات را «توکن به نشانه» ارزیابی می کنند. در مقابل، مدلهای بزرگ زبان - موضوع بخش بعدی - میتوانند کل زمینه را به یکباره ارزیابی کنند.
توجه داشته باشید که آموزش شبکههای عصبی مکرر برای زمینههای طولانی توسط مشکل گرادیان ناپدید محدود میشود.
تمرین: درک خود را بررسی کنید
- یک مدل زبان بر اساس 6 گرم
- یک مدل زبان بر اساس 5 گرم