Google LIMoE – گامی به سوی هدف یک هوش مصنوعی

گوگل فناوری جدیدی به نام LIMoE را معرفی کرد که می گوید نشان دهنده گامی در جهت رسیدن به هدف گوگل برای معماری هوش مصنوعی به نام Pathways است.

Pathways یک معماری هوش مصنوعی است که یک مدل واحد است که می تواند چندین کار را که در حال حاضر با استفاده از الگوریتم های متعدد انجام می شود، یاد بگیرد.

LIMoE مخفف عبارت Learning Multiple Modalities with One Sparse Mixture-of-Experts Model است. این مدلی است که دید و متن را با هم پردازش می کند.

در حالی که معماری های دیگری برای انجام کارهای مشابه وجود دارد، پیشرفت در روشی است که مدل جدید این وظایف را با استفاده از تکنیک شبکه عصبی به نام مدل پراکنده انجام می دهد.

مدل پراکنده در یک مقاله تحقیقاتی در سال 2017 که رویکرد لایه ترکیبی از متخصصان (MoE) را معرفی کرد، در مقاله تحقیقاتی با عنوان شبکه‌های عصبی بسیار بزرگ: لایه ترکیبی متخصصان با دروازه پراکنده توضیح داده شده است.

در سال 2021 گوگل یک مدل MoE به نام GLaM: مقیاس‌بندی کارآمد مدل‌های زبانی با ترکیبی از متخصصان را معرفی کرد که فقط بر روی متن آموزش داده شده بود.

تفاوت LIMoE این است که روی متن و تصاویر به طور همزمان کار می کند.

مدل پراکنده با مدل‌های «متراکم» متفاوت است، زیرا به جای اختصاص دادن هر بخش از مدل به انجام یک کار، مدل پراکنده این کار را به «متخصصان» مختلفی که در بخشی از کار تخصص دارند، محول می‌کند.

کاری که این کار انجام می دهد کاهش هزینه محاسباتی است که مدل را کارآمدتر می کند.

بنابراین، مشابه این که مغز یک سگ را می بیند و می داند که سگ است، میناکاری است و میناکاری یک کت رنگ نقره ای حنایی را نشان می دهد، این مدل نیز می تواند یک تصویر را به روشی مشابه مشاهده کند و با اختصاص محاسباتی کار را انجام دهد. وظایف به متخصصان مختلف که در تشخیص سگ، نژاد، رنگ و غیره تخصص دارند.

مدل LIMoE مشکلات را به "متخصصان" متخصص در یک کار خاص هدایت می کند و به نتایج مشابه یا بهتری نسبت به رویکردهای فعلی برای حل مشکلات دست می یابد.

یکی از ویژگی های جالب مدل این است که چگونه برخی از متخصصان بیشتر در پردازش تصاویر تخصص دارند، برخی دیگر بیشتر در پردازش متن و برخی از متخصصان در انجام هر دو تخصص دارند.

توضیح Google درباره نحوه عملکرد LIMoE نشان می‌دهد که چگونه یک متخصص در چشم، دیگری برای چرخ‌ها، یک متخصص برای بافت‌های راه راه، بافت‌های جامد، کلمات، دستگیره‌های در، غذا و میوه‌ها، دریا و آسمان، و یک متخصص برای تصاویر گیاهی وجود دارد.

اطلاعیه در مورد الگوریتم جدید این متخصصان را توصیف می کند:

همچنین برخی از الگوهای کیفی واضح در میان متخصصان تصویر وجود دارد - به عنوان مثال، در اکثر مدل‌های LIMoE، متخصصی وجود دارد که تمام وصله‌های تصویر حاوی متن را پردازش می‌کند. یکی از متخصصان جانوران و فضای سبز را پردازش می کند و دیگری دستان انسان را پردازش می کند.

کارشناسانی که در بخش‌های مختلف مشکلات تخصص دارند، توانایی مقیاس‌بندی و انجام دقیق بسیاری از وظایف مختلف را اما با هزینه محاسباتی کمتر ارائه می‌دهند.

مقاله پژوهشی یافته های آنها را به طور خلاصه بیان می کند:

ما LIMoE، اولین ترکیب چندوجهی در مقیاس بزرگ از مدل‌های متخصص را پیشنهاد می‌کنیم.
ما با جزئیات نشان می‌دهیم که چگونه رویکردهای قبلی برای منظم کردن ترکیبی از مدل‌های خبره برای یادگیری چندوجهی کوتاهی می‌کنند، و یک طرح منظم‌سازی مبتنی بر آنتروپی جدید برای تثبیت آموزش پیشنهاد می‌کنیم.
ما نشان می‌دهیم که LIMoE در مقیاس‌های معماری تعمیم می‌یابد، با پیشرفت‌های نسبی در دقت ImageNet صفر شات که از ۷٪ تا ۱۳٪ نسبت به مدل‌های متراکم معادل متغیر است.
با مقیاس بیشتر، LIMoE-H/14 به دقت تصویر نت صفر شات 84.1 درصد، قابل مقایسه با مدل های کنتراست SOTA با ستون فقرات هر مدالیت و قبل از آموزش، می رسد.
سریعترین راه برای بررسی موارد حیاتی وب اصلی شما
آیا برای تجربه کاربری بهینه سازی می کنید؟ افزایش سرعت سایت، ثبات محتوا و تعامل می تواند رتبه بندی ارگانیک، آگاهی از برند و فروش را افزایش دهد.

امتحانش مجانی است
تبلیغات
مطابق با وضعیت هنر
مقالات تحقیقاتی زیادی هر ماه منتشر می شود. اما تنها تعدادی از آنها توسط گوگل برجسته شده است.

به طور معمول، گوگل تحقیقات را مورد توجه قرار می دهد، زیرا علاوه بر دستیابی به یک وضعیت هنری، چیز جدیدی را انجام می دهد.

LIMoE این شاهکار دستیابی به نتایج قابل مقایسه با بهترین الگوریتم های امروزی را انجام می دهد، اما این کار را با کارایی بیشتری انجام می دهد.

محققان این مزیت را برجسته می کنند:

در طبقه بندی تصاویر صفر شات، LIMoE از هر دو مدل متراکم چندوجهی قابل مقایسه و رویکردهای دو برج برتری دارد.

بزرگترین LIMoE به 84.1% دقت ImageNet صفر شات دست می یابد که با مدل های پیشرفته گران قیمت قابل مقایسه است.

Sparity به LIMoE این امکان را می‌دهد تا به‌خوبی بزرگ‌تر شود و یاد بگیرد که ورودی‌های بسیار متفاوت را مدیریت کند، و به تنش بین یک متخصص حرفه‌ای بودن و یک متخصص حرفه‌ای رسیدگی می‌کند.

نتایج موفقیت‌آمیز LIMoE باعث شد تا محققان مشاهده کنند که LIMoE می‌تواند راهی به جلو برای دستیابی به یک مدل کلی چندوجهی باشد.

محققان مشاهده کردند:

ما بر این باوریم که توانایی ساخت یک مدل کلی با اجزای تخصصی، که می‌تواند تصمیم بگیرد که چگونه روش‌ها یا وظایف مختلف باید با هم تعامل داشته باشند، کلید ایجاد مدل‌های چندوظیفه‌ای چندوجهی است که در هر کاری که انجام می‌دهند عالی باشد.

LIMoE اولین گام امیدوارکننده در این مسیر است."

کاستی های احتمالی، سوگیری ها و سایر مشکلات اخلاقی
کاستی هایی در این معماری وجود دارد که در اطلاعیه گوگل مطرح نشده است اما در خود مقاله تحقیقاتی به آن اشاره شده است.

مقاله تحقیقاتی اشاره می‌کند که مشابه سایر مدل‌های مقیاس بزرگ، LIMoE ممکن است سوگیری‌هایی را نیز در نتایج ایجاد کند.

محققان بیان می‌کنند که هنوز «به‌صراحت» به مشکلات ذاتی مدل‌های مقیاس بزرگ رسیدگی نکرده‌اند.

آنها می نویسند:

«مضرات بالقوه مدل‌های مقیاس بزرگ…، مدل‌های متضاد… و داده‌های چندوجهی در مقیاس وب… نیز به اینجا منتقل می‌شوند، زیرا LIMoE به صراحت به آن‌ها رسیدگی نمی‌کند».

بیانیه بالا اشاره ای (در پیوند پاورقی) به یک مقاله تحقیقاتی در سال 2021 به نام «درباره فرصت ها و خطرات مدل های بنیاد » دارد ( pdf اینجا ).

این مقاله تحقیقاتی از سال 2021 هشدار می دهد که چگونه فناوری های هوش مصنوعی نوظهور می توانند تأثیرات منفی اجتماعی مانند:

"...بی عدالتی، سوء استفاده، اثرات اقتصادی و زیست محیطی، ملاحظات قانونی و اخلاقی."

با توجه به مقاله ذکر شده، مشکلات اخلاقی نیز می تواند از تمایل به یکسان سازی وظایف ناشی شود، که سپس می تواند نقطه شکست را معرفی کند که سپس به وظایف دیگر که در پایین دست هستند بازتولید می شود.

در مقاله تحقیقاتی هشدار دهنده آمده است:

اهمیت مدل های فونداسیون را می توان با دو کلمه خلاصه کرد: ظهور و همگن سازی.

ظهور به این معنی است که رفتار یک سیستم به طور ضمنی القا می شود تا اینکه به طور صریح ساخته شود. هم منبع هیجان علمی و هم اضطراب در مورد پیامدهای پیش بینی نشده است.

همگن سازی نشان دهنده ادغام روش ها برای ساخت سیستم های یادگیری ماشین در طیف گسترده ای از کاربردها است. این اهرم قوی برای بسیاری از وظایف فراهم می کند، اما همچنین نقاط شکست واحدی را ایجاد می کند.

یکی از زمینه های احتیاط در هوش مصنوعی مربوط به بینایی است.

مقاله 2021 بیان می‌کند که فراگیر بودن دوربین‌ها به این معنی است که هر گونه پیشرفت در هوش مصنوعی مرتبط با بینایی می‌تواند خطرات همزمانی را برای استفاده از فناوری به‌صورت پیش‌بینی‌نشده داشته باشد که می‌تواند «تاثیری مخرب» داشته باشد، از جمله در مورد حفظ حریم خصوصی و نظارت.

یکی دیگر از هشدارهای هشدار دهنده مربوط به پیشرفت در هوش مصنوعی مرتبط با بینایی، مشکلات مربوط به دقت و سوگیری است.

آنها متذکر می شوند:

سابقه کاملاً مستندی از سوگیری آموخته‌شده در مدل‌های بینایی رایانه‌ای وجود دارد که منجر به دقت کمتر و خطاهای مرتبط برای گروه‌های کم‌نمایش شده و در نتیجه استقرار نامناسب و زودهنگام در برخی تنظیمات دنیای واقعی می‌شود.»

بقیه مقاله نشان می دهد که چگونه فناوری های هوش مصنوعی می توانند سوگیری های موجود را یاد بگیرند و نابرابری ها را تداوم بخشند.

«مدل‌های بنیادی این پتانسیل را دارند که نتایج ناعادلانه ای به همراه داشته باشند: رفتار ناعادلانه با مردم، به ویژه به دلیل توزیع نابرابر در امتداد خطوطی که تبعیض تاریخی را تشدید می‌کند... مانند هر سیستم هوش مصنوعی، مدل‌های بنیادی می‌توانند نابرابری‌های موجود را با تولید نتایج ناعادلانه، تقویت سیستم‌های قدرت، و توزیع نامتناسب پیامدهای منفی فناوری بین کسانی که قبلاً به حاشیه رانده شده‌اند، ترکیب کنند.»

محققان LIMoE خاطرنشان کردند که این مدل خاص ممکن است به دلیل ماهیت چگونگی تخصص متخصصان در موارد خاص، بتواند برخی از سوگیری‌ها را در برابر گروه‌هایی که کمتر ارائه شده‌اند، حل کند.

این نوع پیامدهای منفی تئوری نیستند، واقعیت هستند و قبلاً تأثیر منفی بر زندگی در کاربردهای دنیای واقعی مانند سوگیری‌های ناعادلانه مبتنی بر نژاد که توسط الگوریتم‌های استخدام استخدامی معرفی شده‌اند، داشته‌اند .

نویسندگان مقاله LIMoE آن کاستی های بالقوه را در یک پاراگراف کوتاه که به عنوان یک هشدار هشدار دهنده عمل می کند، تصدیق می کنند.

اما آنها همچنین خاطرنشان می کنند که ممکن است با این رویکرد جدید، امکان رسیدگی به برخی از سوگیری ها وجود داشته باشد.

آنها نوشتند:

«...توانایی مقیاس‌سازی مدل‌ها با کارشناسانی که می‌توانند عمیقاً متخصص شوند، ممکن است منجر به عملکرد بهتر در گروه‌های کم‌نمایش شود».

در نهایت، یکی از ویژگی های کلیدی این فناوری جدید که باید به آن اشاره کرد این است که هیچ کاربرد صریحی برای آن ذکر نشده است.

این به سادگی یک فناوری است که می تواند تصاویر و متن را به شیوه ای کارآمد پردازش کند.

اینکه چگونه می توان آن را اعمال کرد، اگر در این شکل یا در فرم آینده اعمال شود، هرگز به آن پرداخته نمی شود.

و این عامل مهمی است که توسط مقاله هشدار دهنده ( فرصت‌ها و خطرات مدل‌های بنیادی ) مطرح می‌شود و توجه محققان را بدون توجه به نحوه استفاده از آنها و تأثیری که ممکن است بر مسائلی مانند حریم خصوصی و حریم خصوصی داشته باشند، برای هوش مصنوعی ایجاد می‌کنند. امنیت.

«مدل های بنیادی دارایی های واسطه ای هستند که قبل از انطباق، هدف مشخصی ندارند. درک مضرات آنها مستلزم استدلال در مورد ویژگی های آنها و نقش آنها در ساخت مدل های خاص کار است.

همه این اخطارها در مقاله اعلامیه گوگل حذف شده اند اما در نسخه PDF خود مقاله تحقیقاتی به آنها اشاره شده است.

Pathways AI Architecture & LIMoE
متن، تصاویر، داده‌های صوتی به عنوان روش‌ها، انواع مختلف داده‌ها یا تخصص‌های کار نامیده می‌شوند. مدالیته همچنین می تواند به معنای زبان گفتاری و نمادها باشد.

بنابراین وقتی عبارت "چند وجهی" یا "روش" را در مقالات علمی و مقالات تحقیقاتی می بینید، آنچه که آنها به طور کلی در مورد آن صحبت می کنند انواع مختلف داده ها است.

هدف نهایی گوگل برای هوش مصنوعی همان چیزی است که Pathways نسل بعدی معماری هوش مصنوعی می نامد.

Pathways نشان‌دهنده دور شدن از مدل‌های یادگیری ماشینی است که یک کار را واقعاً خوب انجام می‌دهند (در نتیجه به هزاران مورد نیاز دارند) به یک مدل واحد که همه چیز را واقعاً خوب انجام می‌دهد.

Pathways (و LIMoE) یک رویکرد چندوجهی برای حل مشکلات است.

اینطور توصیف شده است :

«مردم برای درک جهان به حواس چندگانه متکی هستند. این بسیار متفاوت از نحوه هضم اطلاعات توسط سیستم های هوش مصنوعی معاصر است.

اکثر مدل های امروزی در هر زمان فقط یک روش اطلاعات را پردازش می کنند. آنها می توانند متن، یا تصویر یا گفتار را دریافت کنند - اما معمولاً نه هر سه را در یک زمان.

مسیرها می‌توانند مدل‌های چندوجهی را فعال کنند که درک بینایی، شنوایی و زبان را به طور همزمان در بر می‌گیرد.»

آنچه که LIMoE را مهم می کند این است که یک معماری چندوجهی است که توسط محققان به عنوان " ...گام مهم به سوی چشم انداز Pathways... " یاد می شود .

محققان LIMoE را یک « گام » توصیف می‌کنند، زیرا کارهای بیشتری باید انجام شود، که شامل بررسی این است که چگونه این رویکرد می‌تواند با روش‌هایی فراتر از تصاویر و متن کار کند.

این مقاله تحقیقاتی و مقاله خلاصه همراه آن نشان می دهد که تحقیقات هوش مصنوعی گوگل به چه سمتی می رود و چگونه به آنجا می رسد.

۰۱/۰۳/۲۹

علیرضا رر

طراحی سایت تاپ

طراحی سایت تاپ

مقالات در مورد وب و طراحی سایت

در این بلاگ در مورد مسائل روز حوزه وب و سئو مقالات جذابی را را پست میکنیم

Google LIMoE – گامی به سوی هدف یک هوش مصنوعی

سئو

فناوری

هوش مصنوعی

گوگل

نظرات (۰)

ارسال نظر