مدل‌های زبانی بزرگ و نحوه آموزش آن‌ها

فکر می‌کنم حتی اگر اخبار هوش مصنوعی رو دنبال نکرده باشید، راجع به ChatGPT حداقل یک بار شنیدید.

زمانی ترند روز بیت‌کوین و بلاک چین بود و می‌خواستند همه رو چی با بلاک چین انجام بدن، الان ترند ChatGPT و به طور عام‌تر مدل‌های زبانی بزرگه. چیزی که علمای دیپ لرنینگ به طور خلاصه میگن LLM؛ مخفف Large Language Models.

بالاخره از قدیم‌الایام سعی داشتند که بتوانند زبان‌های بشری رو مدل‌سازی کنند و بفهمند. هر چی باشه فهم داده متنی نسبت به فهم انواع دیگه داده مثل تصویر نسبتاً راحت‌تره.

علتش هم به نظر من اینه که تصویر خیلی بی‌قاعده و بی‌نظمه. تصویر می‌تونه هر شکل و فرمی داشته باشه. از رزولوشن گرفته تا تعداد کانال و کلی پارامتر دیگه.

ولی متن به نسبت محدودتره. معنای هر کلمه تو زبان کمابیش مشخصه و قواعد زبانی هم طرز قرارگیری کلمات در کنار هم رو به شدت محدود می‌کنند.

زمانی رویکردمون نسبت به مدل‌سازی انجام یک سری کارهای از پیش تعریف شده بود؛ یعنی یک مدل درست می‌کردیم برای دسته‌بندی متن. یک مدل برای خوشه‌بندی و خلاصه می‌رفتیم برای هر کاری که داشتیم یک مدل جداگانه آموزش می‌دادیم.

البته منظورم زمان رضاشاه یا عقد دقیانوس نیست. کل بحث یادگیری عمیق و بحث‌های مرتبط ۱۰ ۱۵ سال (تقریباً از ۲۰۱۲) هست که رونق گرفته و همه این اتفاقات هم تو همین مدت اتفاق افتاده.

خلاصه از یک جایی به بعد دیدن که داریم دوباره کاری می‌کنیم. مثلاً دیدند که مدل‌هایی که برای تشخیص احساس آموزش می‌دیم با مدلی که برای دسته‌بندی نوع خبر آموزش می‌دیم، مقدار زیادی اشتراک دارند.

در واقع با بررسی‌های خیلی زیاد متوجه شدند که لایه‌های اولیه شبکه‌های عمیق تو خیلی از این تسک‌های به ظاهر متفاوت، مقادیر کمابیش یکسانی رو دارند و چیزهای یکسانی رو یاد گرفتند.

میشه اینطور بهش نگاه کرد که مدل برای این که احساس رو در متن تشخیص بده نیاز هست که ساختار جمله و معانی کلمات (مثلاً قیدهای مثبت و منفی) رو بفهمه.

پس گفتند که بریم یک سری مدل پایه زبانی (با چند صد ده میلیون یا چند صد میلیون پارامتر) درست کنیم که صرفاً زبان رو بهشون یاد بدیم و بعد از اون صرفاً می‌تونیم لایه‌های انتهایی مدل رو تنظیم کنیم و مسئله‌مون رو حل کنیم.

اتفاقاً جواب هم داد و خیلی هم خوب جواب داد. مدل‌هایی مثل Bert از این دسته هستند. انگار مدل Bert زبان انگلیسی رو یاد گرفته بود و ما با تنظیم لایه‌های آخر می‌تونستیم کار رو دربیاریم. ولی باز هم یک مشکل داشتیم و اون این بود که نیاز داشتیم برای هر تسک مجدداً لایه‌های آخر رو قدری تنظیم (Tune) کنیم.

من اینطوری میگم که ما برای Tune کردن هر مدل کافی بود، کله‌اش رو بکنیم و یه کله دیگه براش بذاریم. ولی خب خوبیش این بود نیاز نبود کل ستون فقرات و بدنش رو از نو درست کنیم. همین که کله‌اش رو می‌کندیم و کله جدید آموزش می‌دادیم کافی بود.

چیزی که میگم تو ادبیات یادگیری عمیق هم کاملآ استفاده میشه. در واقع کله همون Head هست و ستون فقرات همون Backbone. شاید براتون جالب باشه که به قسمتی که ستون فقرات رو به سر وصل می‌کنه میگیم Neck یا گردن.

از بحث منحرف نشیم. از یک جایی به بعد یک سری‌ها گفتند که چه کاریه که هی بریم کله مدل رو بکنیم؟ یه بار مثل آدم بشینیم یک مدل خوب درست کنیم و از همون استفاده کنیم برای همه چیز!

اینجا بود که مدل‌های زبانی بزرگ بوجود اومدند. بزرگ که میگم به این معنا هست که تعداد پارامترهای مدل از میلیون به میلیارد رسید. چیزی تو حدود چند ده میلیارد یا در مواردی حتی چند صد میلیارد.

همه این روضه‌ها رو خوندم که در ادامه توضیح بدم مدل‌های زبانی بزرگ چگونه آموزش داده شده‌اند. جواب دادن به این سؤال یک سال پیش به مراتب سخت‌تر بود ولی الان با تحقیق‌هایی که تو این حوزه انجام شده میشه حرف‌هایی راجع بهشون زد.

آموزش مدل‌های زبانی بزرگ

خب. آموزش‌دادن این مدل‌ها سه تا فاز داره.

پیش آموزش (Pre-training)
تنظیم دقیق (Fine-tuning) یا Instruction tuning
یادگیری تقویتی با فیدبک انسانی یاReinforcement learning with human feedback

این تصویر از سایت OpenAI خیلی واضح‌تر و شفاف‌تر مسئله رو توضیح میده.

پیش‌ آموزش مدل

خب اولین فاز اینه که بیایم به مدل زبان‌ رو یاد بدیم. این زبان می‌تونه زبان‌های انسانی یا حتی زبان‌های برنامه‌نویسی باشه. سؤال اینه که چطوری یک زبان رو به کامپیوتر یاد بدیم؟ در واقع چطوری یک زبان رو مدل‌سازی کنیم؟

محققان اینجا فهمیدند که یکی از روش‌های یاد دادن زبان به کامپیوتر از طریق، «پرکردن کلمات» هست! همون چیزی که تو دبستان به ما یاد می‌دادند و می‌گفتند که «جاهای خالی را با کلمات مناسب پر کنید».

بگذارید مثال بزنم. ما به سادگی می‌تونیم متن‌های ویکی‌پدیا و سایت‌های خبری و بسیاری سایت‌های دیگه رو خزش (Crawl) کنیم و میلیون‌ها پاراگراف مثل پاراگراف زیر بدست بیاریم.

بعد از اون میایم بصورت کاملاً تصادفی درصدی از کلمات رو Mask می‌کنیم. یعنی اون کلمه رو خالی می‌گذاریم. چیزی شبیه این.

خیلی بخوام ساده و البته غیرعلمی‌اش کنم، اینطوری میشه که به مدل یک دیکشنری از کلمات فارسی رو میدیم و بهش می‌گیم که سعی کن از بین این کلمات، کلمه مورد نظر رو حدس بزنی! یک اسم باکلاس هم برای این کار می‌گذاریم و بهش می‌گیم Masked Word Prediction.

شاید براتون سؤال پیش بیاد که این کار چه ربطی به درک زبان داره؟ و اصلاً چرا باید مدل با همچین کاری توانایی درک زبان رو بدست بیاره؟

در واقع اگر بخوام جواب این سؤال رو بدم باید کل تاریخچه فیلد NLP یا پردازش زبان‌های طبیعی که یکی از شاخه‌های هوش‌مصنوعی هست رو مرور کنم؛ ولی بیاید موردی همون پاراگراف بالا رو بررسی کنیم.

برای این که مدل بتونه کلمه «اینترنتی» رو بعد از دانشنامه تشخیص بده، نیاز هست که جمله بعد رو هم بخونه و ببینه که راجع به اینترنت و همچنین انتشار جهانی صحبت شده.

یا این که بتونه تشخیص بده، کلمه بعد از اینترنت بهتره «آزاد» باشه و مثلاً «حسین» نباشه، نیاز به توانایی بالایی در زبان هست. خیلی وقت‌ها نیاز هست که Context کلمه کاملاً درک بشه و جملات قبل و بعد در نظر گرفته بشه.

این کار به مراتب کار پیچیده‌ای هست. حداقل مدل‌هایی که با همین روش آموزش دیدند، نشون دادند که میشه تقریباً همه زبان‌های انسانی (!) رو با همین روش ساده به مدل‌های کامپیوتری یاد داد.

خوبیش اینه که هزینه این کار برای ما بسیار کمه. میشه برنامه‌هایی بنویسیم که بخش بزرگی از اینترنت به خزش (Crawl) کنند و بعد بیایم بصورت تصادفی درصدی (مثلاً ۱۰ درصد) از کلمات رو تو بیندازیم و بعد به مدل یاد بدیم که درست حدس بزنه. اینجا هر بار مدل اشتباه حدس زد، اشتباهش رو بهش یادآوری می‌کنیم و کلمه درستش رو هم بهش می‌دیم و مدل خودش رو آپدیت می‌کنه.

چیزی که نباید ازش غافل بشیم اینه که این‌کار هزینه سخت‌افزاری بسیار زیادی داره. مدل‌های امروزی با حجم بسیار زیادی از متن آموزش می‌بینند (مثلاً ۱۰ ترابایت). برای این که درک درستی از ۱۰ ترابایت متن داشته باشید، اینطوری بهتون بگم که من زمانی ۳۳۰ هزار مقاله از سایت خبری عصر ایران رو خزش کردم و فقط متن‌ها رو درآوردم و اینجا ذخیره کردم و حجم دیتاست، ۱ گیگابایت شد. در نظر بگیرید که خبرهای عصر ایران معمولاً هر کدوم طول زیادی (چندین پاراگراف بزرگ) دارند.

تنظیم دقیق با دستور

بسیار خوب. الان مدلی داریم که بلده که جاهای خالی را با کلمات مناسب پر کنه! دقیقاً همون‌کاری که تو سال اول و دوم ابتدایی خودمون انجام می‌دادیم.

الان این بچه بزرگ شده و می‌خواد بره راهنمایی و گیر معلم بداخلاقی افتاده. اگر یادتون باشه، تو دوره تحصیلی بعضی معلم‌ها ازمون می‌خواستند که جواب سؤال رو موبه‌مو و عیناً همون چیزی بدیم که بهمون گفتند.

مثلاً اگر می‌گفتند که تاریخ چیست؟ باید می‌گفتیم که:

منظور از تاریخ، مجموعهٔ رخدادهای فرهنگی، طبیعی، اجتماعی، اقتصادی و سیاسی و رویدادهایی است که در گذشته و در زمان و مکان زندگی انسان‌ها و در رابطه با آن‌ها رخ داده‌است.

این تعریف رو از ویکی‌پدیا برداشتم و قطعاً خودم هم حفظ نیستم ولی خب کل دوران تحصیل ما تو مدرسه به حفظ کردن مطالبی از این دست گذشت. هیچ‌کدومش رو هم واقعاً یادمون نمونده. دقیقاً هم یادمه که استاد تاریخی که داشتیم، از ما می‌خواست عین کتاب و بدون جا انداختن حتی یک نقطه، جواب بدیم.

حالا ما همین‌کار رو از مدل می‌خوایم که برامون انجام بده! یک مجموعه‌ای از سؤال و جواب نسبتاً طولانی درست می‌کنیم و ازش می‌خوایم که بهمون جواب میده.

تو این مرحله تعداد سؤال جواب‌هایی که لازمه در حد چند میلیون خواهد بود. چیزهایی شبیه این:

منبع: yahma/alpaca-cleaned · Datasets at Hugging Face

خیلی هم خوب یاد می‌گیره و الان مدلی داریم که می‌تونه به سؤالاتمون (ما بهش میگیم دستورات‌مون) جواب بده.

حالا می‌تونید از این مدل بدست اومده هر چیزی راجع به جغرافیا و اقتصاد و فیزیک و بسیاری از رشته‌های دیگه بپرسید و به خوبی هم جواب میدن. حتی می‌تونید احکام بپرسید و راجع به احکام دینی ازشون اطلاعات دریافت کنید یا این که راجع به فلان تسک توی زبان طبیعی بپرسید.

این‌ها سعی می‌کنند با دانشی که تو مرحله قبل و این مرحله راجع به دنیا بدست آوردند، چیزهایی تولید کنند.

فکر می‌کنم هممون همچین حسی داشتیم که این که صرفاً بشینیم یک چیزی رو حفظ کنیم، به درد هیچی نمی‌خوره و خب الان می‌بینیم کامپیوتر به این مرحله رسیده.

ولی برای این مرحله محدودیت‌های زیادی داریم؛ چون ما تعداد کمی مجموعه داده از سؤال جواب‌های متنوع داریم. ما نیاز به مجموعه دادگانی از رشته‌های مختلف داریم که همه نوع سؤالی داخل‌شون باشه. از سؤال سخت و پیچیده تا سؤال‌های ساده و پیش پا افتاده که هر بچه‌‌ای بلده بهشون جواب بده.

دقت کنید که تو مرحله قبل چون صرفاً بصورت تصادفی یک سری کلمات رو از جمله حذف می‌کردیم، تولید کردن مجموعه داده کار بسیار ساده‌ای بود. ولی الان چون نیاز به «انسان» و «هوش انسانی» برای تولید سؤال جواب داریم، این کار به شدت سخت و هزینه‌بر خواهد بود.

به هر حال الان نسبت به دو سال پیش حجم داده بسیار زیادی تولید شده و محدودیت این مرحله‌ هم تا حد زیادی حل شده.

یادگیری تقویتی با فیدبک انسانی

تا حالا راجع به بچه‌‌ای صحبت کردیم که دوران مدرسه‌اش رو به اتمام رسوند و کلی مطالب حفظ کرده و تازه می‌خواد وارد دانشگاه بشه!

بچه‌مون باید کم‌کم بزرگ بشه و یاد بگیره که درست نیست هر حرفی رو هر جایی بزنه! باید بفهمه که به سادگی نمیشه راجع به مسائل سیاسی و مذهبی و جنسی نظر بده! تو این موارد باید محتاط باشه.

مثلاً اگر ازش راجع به خدا و فلان شخصیت مذهبی پرسیدیم، نباید نظر رادیکال بده.

در واقع باید بهش یاد بدیم که جوری حرف بزنه که اکثر آدم‌ها (چه بسا همه آدم‌ها) خوششون بیاد و حداقل ناراحت نشن. دقیقاً به همین شکل! این جواب نه چیزی به من و شما اضافه می‌کنه و نه فایده‌ای داره؛ ولی جوری جواب داده که تقریباً هیچ کسی نمی‌تونه بگه من مخالفم. یه سری کلی‌گویی کرده و خیلی ریز از زیر مسئله در رفته.

این چیزی هست که ما تو دانشگاه یاد می‌گیریم! یاد می‌گیریم چطوری از زیر نظردادن راجع به مسائلی که حساسیت ایجاد می‌کنند در بریم.

سؤال اینه که چطوری این رو یاد می‌گیره؟ خب اینجا مدل قدری پیچیده‌تر میشه و یک «مدل تقویتی» از خوشایند اکثر انسان‌ها درست می‌کنه و سعی می‌کنه جملاتی رو بگه که خوشایند اکثر انسان‌ها باشه.

با اون دکمه لایک و دیسلایک پایین جواب مدل هم یک مجموعه داده از جواب‌های خوب و بد براش درست میشه. البته اینجا دیگه به مدل بیشتر اعتماد داریم و دستش رو باز می‌گذاریم که خودش کم کم بفهمه که چه حرف‌هایی رو نباید بزنه و چه حرف‌هایی حساسیتی ایجاد نمی‌کنند.

تو این فاز یک مدل قدرتمند مثل ChatGPT داریم که حالا می‌تونیم تو کسب و کار خودمون ازش استفاده بکنیم. تو فاز بعدی می‌خوایم که مدل رو از دانشگاه بیرون بیاریم و حالا تازه کنار دستمون تو شرکت استخدامش کنیم و مثلاً به عنوان یک دستیار ازش استفاده کنیم!

اگر بخوام فاز بعدی مدل‌ رو توضیح بدم باید وارد بحث RAG و Finetuning بشم که ترجیح میدم در یک پست جداگانه راجع به این قضیه صحبت کنم.

هزینه آموزش مدل

دوست داشتم یک صحبتی هم راجع به هزینه آموزش این مدل‌ها بکنم.

طبق چیزی که تو تصویر بالا هم اومده (تصویر رو از این ویدئو برداشتم)، هزینه آموزش این مدل‌ها فقط برای یک بار آموزش چیزی حدود ۲ میلیون دلار هست که این عدد برای مدل‌های صنعتی حدود ۱۰ برابر هست.

یعنی مثلاً ۲۰ میلیون دلار هزینه یک بار آموزش مدل‌ها هست که اگر بخوایم با دلار ۵۰ هزارتومن حساب کنیم میشه هزار میلیارد تومن!

یعنی ما ۱۰ ترابایت تکست و داده متنی رو با هزاران GPU آموزش میدیم و خروجی یک فایل (مثلاً ۱۰۰ گیگابایتی) بدست میاریم که این انگار خلاصه کل اینترنت هست. یعنی کل داده‌های بشری رو تونستیم به نوعی داخل این فایل قرار بدیم.

در نظر بگیرید که پیچیدگی‌های انجام این کار بسیار بسیار زیاده و کار هر کسی نیست. شرکت ChatGPT که همچین مدل‌هایی رو آموزش داده نزدیک ۸۰۰ تا کارمند داره که تخصصی روی همین‌ چیزها کار می‌کنند.

البته اینطور هم نیست که حالا که هزینه انقدر سرسام‌آور هست، هیچ راه حلی نداشته باشیم. خدا رو شکر جامعه متن‌باز گسترش پیدا کرده و آدم‌ها دور هم جمع شدند و راه‌حل‌هایی خوب برای حل این مسئله دادند. ولی می‌خوام بگم که هزینه انقدر زیاد هست که هر کسی نباید به این فکر کنه که حالا با ۵ تا GPU ای که دارم بشینم یه مدل زبانی بزرگ آموزش بدم که از ChatGPT هم بهتر بشه.

البته شرکت‌هایی بزرگی تو دنیا داریم که این اعداد براشون چیزی نیست و حاضرن خیلی بیشتر از این‌ها هم سرمایه‌گذاری کنند و می‌کنند؛ ولی می‌خوام بگم کار هر کسی نیست.

فکر می‌کنم برای امروز زیاد شد. ادامه این پست، دو تا پست باید بنویسم. یکی راجع به روش‌های متن‌باز و چگونگی توسعه‌شون و دیگری راجع به این که چطوری آدم‌ها، مدل‌های زبانی بزرگ رو (که بنا به استعاره من، صرفاً دانشگاه رفتند و مطلب حفظ کردند) می‌تونند برای کسب و کارهای خودشون استفاده بکنند.

آموزش مدل‌های زبانی بزرگ#

پیش‌ آموزش مدل#

تنظیم دقیق با دستور#

یادگیری تقویتی با فیدبک انسانی#

هزینه آموزش مدل#

آموزش مدل‌های زبانی بزرگ

پیش‌ آموزش مدل

تنظیم دقیق با دستور

یادگیری تقویتی با فیدبک انسانی

هزینه آموزش مدل