توجه کنید که این متن توسط مدلهای هوشمصنوعی تولید شده است و احتمال خطا در آن وجود دارد.
[0.00s -> 30.00s] سلام من امیر پورمندم و این قسمت پنجم از ایستگاه هوش مصنوعیه تو این قسمت میخوایم راجع به این صحبت کنیم که یه دیتا ساینتیست یا متخصص داده چی کار میکنه یعنی فرض کنید یه مدل و یه سری داده دادید به یه دیتا ساینتیست بعد میگید اوکی شما
[30.00s -> 60.00s] این داده ها رو بگیر یه مدل به من تحویل بده حالا فرض کنید مدلش رگرسیون خطیه که حالا خیلی چیز پیچیده ایم نیست به من تحویل بده که بتونه پیش بینی کنه یعنی مثلا همون مثالهایی که زدم مشخصات خونه رو بگیره قیمت خونه رو بتونه پیش بینی کنه این دیتا ساینتیست چی کار میکنه و این سوالیه که میخوام راجع بهش صحبت کنم قبلش فقط یه نکته رو دوست دارم بگم که فیلد
[60.00s -> 90.00s] شده تعداد شغلهایی که تو شون به وجود اومده خیلی زیاد شده و سخت میشه فهمید که طرف داره چی کار میکنه اینم خب طبیعی هست دیگه یعنی هر کاری که تخصصی بشه یه سری آدم به وجود میان که اونا تو یه سری فیلدای خاصش دوباره میرن متخصص میشن و همین جور میرن جلو مثلا پزشکی رو نگاه کنید الان چند صد تا تخصص داریم ما متخصص قلب جدا
[90.00s -> 120.00s] مغز و اعصاب جدا متخصص گوارش جدا بعد متخصص مغز و اعصاب خودش چند تا چند تا فرد مختلفن که دارن کار میکننو یکی شون مثلا جراحی نمیکنه فقط ویزیت میکنه یه سری ها هستن که جراحی میکنن یه سری ها دوباره هستن میگن اوکی ما جراحی می کنیم فقط ولی فقط بخش خاصی از ستون فقرات رو جراحی می کنیم یکی دیگه هست میگه من مثلا
[120.00s -> 150.00s] متخصصم رو این که فلان قسمت مغز رو مثلا جراحی کنم و همین جور میره جلو دیگه و فیلد کامپیو ترم همین طوره یعنی بیست سال پیش طرف میگفتن برنامه نویس برنامه نویس خب همه کارو میکرد دیگه بهش می گفتیم من این برنامه رو میخوام مینوشت دیگه خودش از ب بسم الله تا ته شو میرفت همه کارم خودش میکرد
[150.00s -> 180.00s] ولی خب الان جدا شده دیگه الان عه کسی که نیازمندی های پروژه رو در میاره یه عنوان شغلی داره اون کسی که فرانت میزنه کارش متفاوته یو آی یو ایکس دیزاینر داریم که متخصص طراحی یو آیه بعد همین یو آی یو ایکس خودش یه شغله که سه چهار نفر هستن یه نفر یو آی کار میکنه یه نفر فقط یو یوزر اکسپرینس کار میکنه تجربه کاربری نمیدونم میاید سمت اون طرف می بینید بک
[180.00s -> 210.00s] داریم یکی فقط یه فرامورک خاصیو بلده از اون سمت نگاه می کنیم بچه های زیرساخت هستن بچه های شرکه هستن خلاصه تخصصی شدن یک روندیه که از اون قدیم زمان اجدادمون شروع شده و الانم تو همه شغل ها بروزشو می بینیم و روزبه روزم شغل های جدید تر به وجود میان و تو فیلد هوشم همین طور اتفاقی افتاده دیگه یکی دیتا ساینتیست میشه یا دانش
[210.00s -> 240.00s] مند داده ترجمه فارسیش یکی مثل من ترجیح میده امل انجینیر باشه اون یکی میشه دیتا انجینیر یکی دیگه ای آی ریسرچر میشه یکی میشه دیتا انلیست و این ها خب با هم تفاوتهایی دارن که میتونیم سر فرصت بشینیم راجع بهش صحبت کنیم ولی من چیزی که الان مد نظرم بود این بود که بگیم آقا فرض کن یه دیتا ساینتیست داره یه شرکت استخدام کرده بعد این دیتا ساینتیست
[240.00s -> 270.00s] عه میخواد یه مدل ساده رو هر مدلی چندان هم تفاوت نمیکنه روند کاریش میخواد یه مدل یه مدل رو برداره ترین کنه آموزش بده و این مدل رو برای پیش بینی استفاده کنه چه کارهایی انجام میشه و چه کارهایی وجود داره که انجام بشه یکم دوست داشتم که نگاه جامع تریب مسئله داشته باشم و بعد اول یه کلیتی راجع به بحث
[270.00s -> 300.00s] ماشین لرنینگ بدونید بعد بیایم حالا راجع به اون جزئیاتش هم بیشتر صحبت کنیم
[300.00s -> 330.00s] بره و ببینیم اصلا این مسئله نیازی به هوش مصنوعی داره یا نداره اصلا ورودی و خروجی چیه تو این مسئله چون الان یه تب یا یه روندی جا افتاده همه دوست دارن که به زور حالا تو هر مسئله ای یه هوش مصنوعی هم در بیارن یه سری کلمه مشخصه دیگه یعنی هوش مصنوعی و بلاکچین و متاورس و با هم با هاش یه سوپ به کلمات درست میکنن میگن که خب
[330.00s -> 360.00s] این خیلی دیگه چیز خفنیه و هم تو داخل من دیدم هم تو خارج که دوست دارن که بگن ما همه چی هوش مصنوعی داریم چند وقت پیش یه خبری رو میخوندم از نماینده مجلس که میگفت که میخوایم با هوش مصنوعی رفتار عه مصرف کنندگان نون رو در واقع نظارت کنیم که بتونیم اونایی که پرمصرفن رو به شون تذکر بدیم و خب این اصلا جدای
[360.00s -> 390.00s] از این که مسئله اش مشخص نیست که دقیقا چیه و میخواد چی کار کنه به نظرم چندان هوش مصنوعی هم نمیخواد یعنی اگر بخوایم که با همون کارت بررسی کنیم که کیا دارن کارت میکشن ما خود شون میدونن که هر کارتی ماله چه کد ملی و میدونن که عه دستگاه های پز کدوم هاش ماله در واقع نون وایه هاست و کامل میتونن نظارت کنن که طرف چقدر تو ماه نون خریده و اصلا نیازی به حالا هوش مصن
[390.00s -> 420.00s] نیست که لزوما بیایم هوش مصنوعی رو اینجا هم بزاریم من چند وقت پیش یه رویدادی شرکت کرده بودم به نام فکر کنم دو سال پیش بود آره به نام ای اکسپرینت که کارگزاری مفید برگزار میکنن که متخصصان هوش مصنوعی میان حالا تجربیات واقعی شونو از کار کردن با هوش مصنوعی و ابزارای اونو و اینکه چگونه اینو داخل عه صنعت پیاده سازی کردن صحبت میکننو یک
[420.00s -> 450.00s] از مدیران هوش مصنوعی یکی از شرکت ها اومده بود و اونم از همین روند گلایه داشت که مثال میزد میگفت که یه بار تو شرکت شون یه اتفاقی افتاده مثلا در حد دویست تا رکورد داده مخصوص شده و رویکرد اولیه بچه ها این بوده که خب ما تیم هوش مصنوعی داریم دیگه اینا بریم یه مدل توسعه بدیم که بیاد پیش بینی کنه که این مقادیری که بودن چی بودن و بیایم جا بزاریم و
[450.00s -> 480.00s] طی کنیم و نهایتا این داده ها رو پر کنیم و طرف گفته بود که آقا اصلا چه کاریه ما الان بخوایم بریم مدل توسعه بدیم که شاید چند هفته طول بکشه ما یه صبح تا ظهر اگه یه نفر رو بزاریم این دادههایی که مخصوص شده رو میتونه درست کنه و من هم خیلی اون زمان لذت بردم از حرفی که زد و واقعا به نظرم درست هم هست و آدم باید قشنگ سبک سنگین کنه ببینه آیا میصرفه این
[480.00s -> 510.00s] داده کنیم و میدونیم هم به عنوان یه چیزی که به عنوان یه فکت میدونیم که حداقل تا الان هیچ مدلی صد در صد نیست و همه مدل ها دوباره یه درصدی از خطا دارن انسان هم خطا داره باید ببینیم اصلا اون درصد خطایی که مدل داره برای ما ارزش داره یا نه و کلی چیزا رو باید در نظر بگیریم قبلش بعد شروع کنیم خب حالا فرض کنید که تصمیم گرفتیم از یه مدل هوش مسن
[510.00s -> 540.00s] قاعدتا ورودی خروجی مون مشخص کردیم دیگه یعنی میدونیم که مثلا کاری که میخوایم انجام بدیم تبدیل صوت به متن طرف داره حرف میزنه بتونیم زیر نویس ازش در بیاریم یا برعکس یه متن داشته باشیم به صوت تبدیلش کنیم یا اینکه مثل چیزی که اخیرا جا افتاده متن تولید کنیم همین مثل مدل های چچی پی تی یا اینکه پیش بینی قیمت خونه رو انجام
[540.00s -> 570.00s] بدیم پیش بینی قیمت سهام رو انجام بدیم سرطان سینا رو پیش بینی کنیم و اینجا اگه دقت کنید یه دو تا دسته هم داریم که بعدا خیلی میتونیم راجع به شون صحبت کنیم و خیلی وارد بحثش میشم کامل مدل های پیش بینی مدل های پریدیکتیو در مقابل مدل های جنریشن تولیدی جنریتیو ای آی در مقابل پریدیکتیو ای آی مدل های پیش بینی یه چیزی رو پیش بینی میکنن
[570.00s -> 600.00s] مدل های جنریتیو یه چیزی رو تولید میکنن مثلا بهش متن میدی میه گی برام تصویر درست کن داره جنریت میکنه و خب این یه بحث دیگه است و حالا بعد از اینکه تصمیم گرفتیم ورودی خروجی مون چیه دو تا مسیر داریم یکی اینکه از مدلهایی که از قبل به وجود اومدن استفاده کنیم مثلا یه مدل اپن سورسی رو بر داریم استفاده کنیم یا اصلا یه مدلی رو بخریم از یه جا
[600.00s -> 630.00s] یی استفاده کنیم یا اینکه بریم خود مون یه مدلی رو آموزش بدیم خود مون از نوترین کنیم و تو هر مسئله باید جدا گونه بررسی بشه که اصلا اون مدلهایی که حالا اپن سورسن مدلهایی که هستن میشه دانلود کرد اینا به درد کار ما میخورن یا نه و مثل کتابخونه است دیگه یه سری وقتا یه سری چیزا تو گیتاب هست کسی که برنامه نویسه خب میبینه مثلا یه کتابخونه
[630.00s -> 660.00s] یه چیزی نوشته شده بعد میره از همون کتابخونه استفاده میکنه دیگه نیازی نیست که حتما خودش بره اون کتابخونه رو توسعه بده و بعضی وقتا خب جواب جواب کارش رو نمیده و باید خودش بره یه چیزی رو توسعه بده اینجا هم دقیقا همین طوریه البته مسیر اول به نظر ساده میاد ولی وقتی که آدم وارد یه پروژه میشه پروژه واقعی میشه میبینه که حتی اگه یه مدل آماده هم داشته ب
[660.00s -> 690.00s] شه دغدغه است که باید بهش جواب بدی مثلا اینکه آیا این مدلی که من میخوام بیارم بالا جی پی او میخواد یا نمیخواد اگه جی پی او میخواد چند تا میخواد اگه سی پی او میخواد چه مشخصاتی نیاز داره ما چند تا درخواست تو ثانیه باید بتونیم جواب بدیم ورودی خروجی مدل شاید اصلا مناسب نباشه نیاز به پردازش بیشتر داشته باشه که بشه دقیقا اون ورودی خروجی ورودی رو بهش داد و یه س
[690.00s -> 720.00s] هست که سری مدل ها رو باید به هم وصل کرد مثلا نیازه که از چند تا مدل پشت سر هم استفاده بشه مثلا شما یه متنو میدی بعد یه مدل تصحیح متن میاد متنتو به یه متن بهتر تبدیل میکنه بعد خروجی شما رو میدم به یه مدل عه ایمیل جنریشن تولید عکس که اون عکس که اون ته اش بتونه خروجی بده و اینا خب نیاز به پایپلاین داره و
[720.00s -> 750.00s] این کارا رو بیشتر حالا امیل انجینیر انجام میده اون کسایی که این کارا رو میکنن بیشتر امیل انجینیرن و امیل انجینیر بیشتر سمت محصوله مسیر دومم خب مسیریه که بیشتر دیتا ساینتیستا میرن و ای آی ریسرچر ها هم همین طور میرن میگن که ما میخوایم مدل رو حالا ترین کنیم اوکی اولا که خب ترین کردن مدل آدم باید تصمیم شو با احتیاط بگیره
[750.00s -> 780.00s] که آدم همه جا تصمیم بگیره که برای خودش یه چیزی رو ترین کنه درست نیست و همیشه هم درست نیست که از چیزایی که آماده است استفاده کنیم باید بسته به اون پروژه تصمیم گیری بشیم حالا فرض کنید که اوکی این تصمیم رو گرفتیم حالا باید چی کار کنیم
[780.00s -> 810.00s] اولین فاز اینه که بریم دیتا رو جمع کنیم اینجا هم دوباره پروژه ها دو دسته میشن یه سری از پروژه ها دیتاشون از همون اول هست و آماده است و میشه شروع کرد اون دیتا رو از اونجا شروع کرد یه سری
[810.00s -> 840.00s] از پروژه ها نه دیتاشون هم نیست و آدم تازه باید بره حالا دیتا جمع کنه پروژه های آکادمیک معمولا نمیگم همیشه این جوری هم که دیتاشون از قبل هست و علتش هم ماهیت تحقیق بر میگرده شما وقتی میخواید تحقیق کنید معمولا سه دیتا سه ثابت هست که از قبل تعریف شده و همه ریسرچرا رفتن رو این دیتا سه تا مدل ترن کردن
[840.00s -> 870.00s] خب بعد حالا شما وقتی میای رو اون دیتا ست یه مدل جدید ترن می کنی میه گی ببین با همین دیتا ستهایی که شما ترن کردید من یه مدل ترن کردم که دقت خیلی بهتری میتونه بده و غیر از این باشه دیگه قابل مقایسه نیست دیگه یعنی فرض کنید تو آکادمیک این جوری باشه که هر کسی برابر خودش دیتای خودش رو جمع کنه بعد یه سری مدل ترن کنه بعد چه جوری میخواید این مدل ها رو با
[870.00s -> 900.00s] کنید ارزیابی باید معیارش ثابت باشه پس هم داده ترینگی که دارن هم داده ای که برای ارزیابی دارن معمولا ثابته ولی بازم همیشه این طور نیست بعضی وقتا هم حتی تو آکادمیک هم نیازه که این فازه جمع آوری دیتا طی بشه و خب اصلا هم هزینه اش کم نیست یعنی تو پروژه های صنعتی که انجام میدن خیلی وقتا میگن میگن که هشتاد درصد
[900.00s -> 930.00s] وقتی که صرف پروژه میشه صرف همین جمع آوری دیتا و اینکه دیتا رو حالا تمیز کنیم و فیلتر کنیم و پراسس کنیم یه سری از این جور کارا میشه و اکثر وقت سر همین گرفته میشه یعنی اون فازه آموزش دادن مدل و انتخاب و ارزیابی اون اون زیاد طول نمیکشه و این فازه که خیلی طول میکشه البته بازم پروژه های داریم که اونش هم خیلی زیاد طول میکشه و خیلی واقعا بستگی به پرو�
[930.00s -> 960.00s] داره که چطوری باشه و مثلا فرض کنید که مثلا میخواید از اول شروع کنید و هیچ دیتایی ما نداریم و هیچ مدلی هم نداریم برای تبدیل صوت به متن خب در صورتی که الان داریما ولی فرض می کنیم نداریم و ما تصمیم گرفتیم که از بیس شروع کنیم از ابتدا شروع کنیم مثلا از این جا میتونیم چی کار کنیم مثلا از این جا میتونیم بریم از یوتیوب یک سری ویس جمع کنیم مثلا یا بریم
[960.00s -> 990.00s] عه جای مختلف یه سری ویس جمع آوری کنیم بعد یک سری آدم استخدام کنیم بگیم شما بیاید داده های ما رو برچسب بزن و این کاره ها یه کاریه شغله مثلا لیبلر به شون میگن و شغل کم درآمدی هست ولی خب هست این طوری هست که مثلا شما بهش میگید که ویس ها گوش بده مثلا ویس ها تکه تکه می کنید براش بعد این ویسی هم که جمع می کنید کلی باید پردازش کنید که مثلا تکه تکه کش کنید
[990.00s -> 1020.00s] بعد استانداردش کنید نمیدونم بعضی وقتا دو کانال هست تک کانال هست کلی از این پیچیدگی ها داره این ویس رو بیاد تکه تکه کنید مثلا ده ثانیه ده ثانیه بهش بگید این ده ثانیه رو گوش بده متنش رو بنویس بعد خب این کار هزینه اش خیلی زیاده دیگه مثلا فرض کنید شما صد ساعت ویس دارید که این صد ساعت ویس رو میخواید متنش رو بنویسید و میگن که بعد
[1020.00s -> 1050.00s] شصت زدم حالا کیفیت داشته باشه بستگی به کیفیتی که حالا طرف داره مینویسه هر یک ساعتی ممکنه مثلا دو تا چهار ساعت طول بکشه و مثلا اگر حالا ویسش پیچیده تر باشه یا بخواد بیشتر دقت کنه چهار تا هشت ساعت ممکنه طول بکشه شما اصلا میانگین در نظر بگیرید پنج ساعت برای صد ساعت ویس میشه پونصد ساعت و خب شما خود تون بهتر میدونید که پونصد نفر ساعت
[1050.00s -> 1080.00s] هزینه اش چنده تو بازار ما حتی با حقوق پایه حساب کنید عه هزینه ای که داره فقط برای برچسب دادن میشه عید زیادیه و یه سری وقتا هم هست که حالا اون دیتایی که داره مثلا اون دیتا ساینتیست میتونه مثلا از بخش های بغلی بگیره مثلا اگر دیوار زمانی تصمیم بگیره که یه مدل داشته باشه برای پیش بینی قیمت خونه یا رهن یا اجاره یا حتی پیش بینی
[1080.00s -> 1110.00s] ماشین کی زمانی اضافه کرده بود یه بازه رنجی میداد برای قیمت ماشین عه اگر تصمیم بگیره که حالا اینو اضافه کنه دیگه نیازی نیست که بره دیتاشو از ابتدا جمع آوری کنه دیتاشو داره فقط کلی نیازه که حالا پردازش بشه داده ها فیلتر بشه تمیز بشه و از این جور بحثا و اهمیت دیتا و ارزش دیتا هرچی بگیم راجع بهش کمه دیگه
[1110.00s -> 1140.00s] و اصلا خیلی از مقالات پزشکی که داده میشه عه اگر دقت کنید شاید تو خود مدل شاید اون زمینه خود مدلی که استفاده کردن کار خاصی انجام نشده ولی چون دیتایی که تو پزشکی هست دیتای معمولا شخصی هست و دیتا پابلیک نمیشه خیلی وقتا طرف میره با دیتای خصوصی خودش یه مدلیو ترین میکنه آموزش میده و بعد گزارش میکنه میگه آقا من رو دیتای خودم همچین
[1140.00s -> 1170.00s] اعدادیو خروجی گرفتم میدونم که ممکنه با اعداد شما قابل مقایسه نباشه ولی خب به هر حال این کاریه که من انجام دادم و این هم به عنوان یه عه کاره تحقیقاتی قابل قبوله و اتفاقا خیلیم ارزشمنده کلی راجع به دیتا حرف زدم و خب میگم هرچی راجع به دیتا حرف بزنیم بازم کمه چون که عه ارزشمند ترین عه منبعی که داریم الان داد هست و اصلا یه سری از شرکت
[1170.00s -> 1200.00s] های بزرگ که تونستم بزرگ بشم به خاطر همین داده ها شونه اوپنه یایی که تونستم چچیپیتیو بده اینکه بقیه نمیتونن بدن یه بخش بزرگیش به خاطر دادههایی که تو این مدت هاست جمع کرده و بقیه نمیتونن به پاش برسن تو کیفیت و حالا اون پردازشهایی که رو داده ها انجام میده بعد از اینکه داده جمع آوری شد نیازه که داده تمیز بشه داده چون ذاتا داده ای که دریافت میکنه
[1200.00s -> 1230.00s] طرف حتی اگر از دیتا بیس داده ها شو بخونه از یه جا داده ها رو بهش بدن یه سری از داده ها کثیفن یه سری از داده ها اصلا به درد آموزش نمیخورن این داده ها باید از اون اول کنار گذاشته بشن شاید بگید مثلا چی مثلا فرض کنید تو پیش بینی قیمت خونه اگر دقت کرده باشی یه سری وقتا هستن که طرف قیمت خونه شو نمیخواد بزاره و توافقی نمیزاره تو دیوار
[1230.00s -> 1260.00s] کاری که انجام میده اینه که مثلا یه هفت هشت تا یک میزاره یا مثلا پنج تا یک میزاره خب این داده اگه وارد فرایند آموزش بشه که بعدا اصلا مدلو خراب میکنه و نیازه که اینجا یه فازی داشته باشیم که بتونیم داده ها رو تمیز کنیم و میدونیم که هرچی کیفیت داده بیشتر باشه اون مدلی که نهایتا به دست میاد خیلی میتونه بهتر باشه و خیلی تاثیر داره فازی نیست که بتونیم
[1260.00s -> 1290.00s] به این سادگی ازش بگذریم تو همین فاز شاید لازم باشه که یه سری جاها داده ها رو طرف اون دیتا ساینتیست برا خودش ویژوال ایزی کنه یعنی داده ها رو با یه سری چارت و گراف و از این چیزا نشون بده که بتونه بهتر داده ها رو بفهمه جالبه این همه راجع به داده صحبت کردیم هنوز تمومم نشده و خب سعی می کنم که یکم خلاصه تر بگم که
[1290.00s -> 1320.00s] خیلی هم طولانی نشه این قسمت بعدش میریم سراغ روش های پیش پردازش داده یعنی داده هم این جوری نیست که بتونیم با هر فرمتی به مدل بدیم نیازه که گفتم یاد تون باشه قسمت های قبل به تون گفتم ته اش این داده باید به عدد تبدیل بشه پس باید یک فرمت استاندارد داشته باشن و باید پردازش بشن به یه حالت خاصی و اینو حالا زیاد درگیرش نمیشن بعدا میتونیم بیشتر راجع بهش ص
[1320.00s -> 1350.00s] حبت کنیم بعد از این طرف باید دیتا رو اسپلیت کنه یا جدا کنه از هم و سه قسمتش کنه یه قسمت ترین یه قسمت ولیدیشن و یه قسمت تست من قسمت ولیدیشن رو توضیح نمیدم ولی بحث ترین و تست داستانش اینه که ما نمیتونیم رو همون داده ای که مدل آموزش دادیم
[1350.00s -> 1380.00s] ازش تست بگیریم مثلا مسئله این که نمیتونیم مسئله فنی نیست چرا میتونیم فنی میتونیم بگیم آقا شما رو داده ای که آموزش دیدی که باید خوب عمل کنی دیگه مثلا فرض کن من هزار تا قیمت خونه رو بهت دادم تو باید بتونی این هزار تا خونه رو قیمت ها شو خوب پیش همین هزار تایی که بهت دادم رو که یاد گرفتی میگه آره من یاد گرفتم ولی ما اینو ازش نمیخوایم میخوایم بگیم آقا ه
[1380.00s -> 1410.00s] هزار و یکمی هم که اومد باید بلد باشی به خاطر همین اون داده هایی که دیده قبلا چون دیده ما نمیتونیم برای ارزیابیش استفاده کنیم به خاطر همین میگم اول جدا می کنیم مثلا میگم هشتاد درصد داده ها رو می زنیم برای ترین جدا می کنیم می زنیم کنار میگیم اینا باشه برای ترین بیست درصد باشه برای تست و حالا وقتی میخوایم ارزیابی کنیم هم از داده ترین استفاده می کنیم
[1410.00s -> 1440.00s] میگیم شما رو داده ترینینگ که باید اصلا خوب باشی اون که وظیفته و علاوه بر اون رو داده تستم باید عملکرد خوبی داشته باشی و ما اینو ارزیابی می کنیم خب این قصه سر دراز داره و میتونم ساعت ها راجع به این چیزا صحبت کنم ولی گفتم یه خلاصه ای بگم راجع به این که اصلا دیتا چجوری جمع آوری میشه
[1440.00s -> 1470.00s] بعد از اینکه تازه دیتا جمع آوری شد باید بریم سراغ انتخاب مدل ببینیم که حالا با این داده هایی که ما داریم چه مدلهایی میتونن خوب باشن و قاعدتا ما میلیون ها و چه بسا میلیارد ها مدل داریم الانه که دارم
[1470.00s -> 1500.00s] صحبت می کنم و دیتا ساینتیست باید انتخاب کنه چون همه شون رو که نمیتونه تست کنه باید یه مثلا ده تاش رو انتخاب کنه بگه من میخوام تست کنم حتی همون ده تا هم زیاده شاید سه تاش رو بیشتر نتونه تست کنه و باید بره تحقیقات رو بخونه ببینه اوکی مثلا کسایی که قبلا مدل ترین کردن چه مدلهایی بوده که خوب بوده بعد اون مدل ها رو برداره بیاره ترین کنه
[1500.00s -> 1530.00s] بعد آموزش بده بعد اینجا تو آموزشم دوباره ما کلی داستان داریم چون ممکنه یه سری مدل ها جی پی او بخوان هر کدوم از این مدل ها رو میخوای ترین کنی شاید روز ها طول بکشه شاید چند ساعت طول بکشه و بعد خلاصه بعد ارزیابی شون کنه یعنی مدل ها که به دست اومدن ارزیابی شون کنیم ببینیم اصلا دقت شون و روی معیارهایی که داریم حالا ما معیار زیاد داریم و روی
[1530.00s -> 1560.00s] معیارهایی که داریم مشخصه که باید چه مقداری باشه و قبلا بقیه به چه عهدایی رسیدن باید سعی کنه که به عهد خوبی برسه و خب اینم یه روالیه که خیلی طول میکشه یعنی این جوری نیست که یه بار یه مدلی ترین کنه تموم شه بره هی مدل های مختلف رو تست میکنه هی میبینه خوب نشد یه جا اشتباه میکنه تو فرایند دوباره میرحمه از اول یه سری مدل های دیگه رو تست میکنه هی
[1560.00s -> 1590.00s] تست میکنه تا نهایتا مثلا به یه مدل میرسه که میگه خوب اوکی تو این کار کاربردی که ما داریم عملکردش خوبه باشه بسیار خوب ولی هنوز این کار تموم نشده بعد از این که دیتا ساینتیست این کار رو انجام داد باید این مدل رو بریم یه جا دیپلوی کنیم یعنی دیتا ساینتیست معمولا این جا کارش تموم میشه و مثلا مدل رو تحویل میده به یه امل انجینیر البته میگم این تقسیم بندی ها
[1590.00s -> 1620.00s] خیلی هنوز کامل مشخص نیست چون من امل انجینیر بودم خودم هم مدل ترنگ کردم و خودم هم دیتا جمع آوری کردم و این جوری نیست که هنوز مثل فیلد پزشکی این طوری باشه که همه وظایف شون دقیقا مشخص باشه ولی خوب این هم بعد از چند سال که میشه کامل جا میافته دیگه مثل این که الان کسی نیست که مثلا کم تر کسیه که هم فرانت اند دیولوپر باشه و مثلا کار مثلا بکند انجام
[1620.00s -> 1650.00s] بده اینا انجام نمیشه معمولا و فیلد امل هم همین اتفاق براش میافته و خوب بعدش که این مدلو تحویل داد به امل انجینیر دوباره داستان اینه که این مدل باید کانتینوئس لی ترنگ بشه یعنی همواره باید آموزش ببینه این جوری نیست که شما یه مدلو یه بار بزاری ترنگ شد همون شب بره علتش هم اینه که ما شرایط بیرونی مون همواره دارن تغییر میکنن یعنی
[1650.00s -> 1680.00s] این طوری نیست که مثلا تو همون مسئله قیمت خونه پیش بینی قیمت خونه در نظر بگیرید که اولش ممکنه خیلی ساده به نظر برسه یه باره یه مدل ترنگ می کنی که قیمت خونه رو یاد بگیره دیگه ولی این طوری هم نیست قیمت خونه تو فصل های مختلف فرق داره و حتی اگه اونم در نظر بگیری قیمت خونه بسته به اینکه شرایط محیطی اون خونه تغییر میکنن تغییر میکنه مثلا ممکنه
[1680.00s -> 1710.00s] بزنه طرف یه مترو توی محله ای اضافه بشه قیمت خونه خب بیشتر میشه ممکنه که خونه وارد طرح ترافیک مثلا مجلس بشینه یه چیز دیگه دوباره تصویب کنه خب این ها هر کدوم روی قیمت اون منطقه تاثیر داره یا مثلا یه پل بزنن این خیابون رو وصل کنن به اون خیابون کلی مسیر ها ممکنه راحت تر بشه ترافیک کم تر بشه یا بیشتر بشه و مدل باید همواره ترین بشه بهش میگ
[1710.00s -> 1740.00s] ترینینگ و اینم کاریه که باید انجام بشه و بعد یک سری سرور داشته باشیم که بتونیم یک سری فضا داشته باشیم که بتونیم اون مدل ها رو اونجا بزاریم و حالا یکی بهش درخواست بده بگه این خونه با این مشخصات چند اون مدل هم جواب بد و این جوری در نظر بگیرید یک سری مدل داریم که همش دارن ترین میشن و وقتی ترین شدن میذاریم شون اونجا و هی به شون درخواست میدیم این خونه با این
[1740.00s -> 1770.00s] مشخصات چند میگه این قد تازه هنوز تموم نشده و بعد از اون بخش مدل مانیتورینگ هم اضافه میشه چون مدل ما باید ورودی خروجی ها شون مانیتور کنیم ببینیم که داره چی جواب میده این جوری نیست که ولش کنیم به امون خدا هر جوابی خواست به مشتری بده هر قیمتی خواست خروجی بده باید توضیح خروجی هایی که میده رو بررسی کنیم ببینیم چطوریه و آیا مناسب هست و اصلا ممکنه یه
[1770.00s -> 1800.00s] مشکلی پیش اومده باشه تو روال آموزش مدل و اینکه میگم این پروسه در کل اینکه بشینیم یه مدل رو ترین کنیم کار هزینه بریه و باید قشنگ آدم ترید آفش رو ببینه و بعد اقدام کنه که اوکی حالا من میخوام مدل رو ترین کنم و در نظر بگیرید که مثلا فیسبوک و اینها این جورین که همواره سرورهایی رو گذاشتن اونجا که
[1800.00s -> 1830.00s] رفتار کاربر تو اینستاگرام یا مثلا تو یوتیوب گوگل گذاشته رفتار کاربر رو مانیتور کنه رفتار کاربر ازش بره یه سری مدل ترین کنه شاید بعضی ها شون این جورین که به ازای هر کاربر میرن یه مدل ترین میکنن که بتونید وقتی شما اون اکسپلور رو باز می کنید به مدل بگید چه ویدیوهایی رو به این کاربر نشون بدم و برای این کاربر خاص یه سری مدل بیاره یه سری ویدیو بیاره که بگه
[1830.00s -> 1860.00s] این ویدیو ها رو ببینه احتمالا از این ویدیو ها بیشتر خوشش میاد و همین این قسمت خیلی حرف زدم و دوست داشتم که یه نگاه کلی بدم از یه دید کلی بدم از کل این فرایندی که داره اتفاق میوفته که بعد وقتی دارم راجع به جزئیاتش صحبت می کنم اون کله تو ذهن تون باشه و تو ذهن تون باشه که این فرایندی که داریم اون چیزی
[1860.00s -> 1890.00s] که راجع به مدل ها صحبت میشم مدل صرفا یه بخشی از این فرایند کله که بعد دوباره همین فرایند کلم یک سری آدم دیگه میان مشارکت میکنن که بتونن براش عه رابط کاربری درست کننو نرم افزار یا بیان هول اون پیاده سازی کننو یه مدل ای آی به خودی خود اصلا قابل استفاده نیست و شاید مثلا فقط اون محقق میتونه ازش استفاده کنه و وقتی بخوایم مدلو به عموم
[1890.00s -> 1916.87s] عرضه کنیم نیازه که کلی کارای دیگه دورش انجام بدیم که قابل استفاده بشیم و امیدوارم که خوشتون اومده باشه خدا نگه دار