گوگل فناوری جدیدی به نام LIMoE را معرفی کرد که می گوید نشان دهنده گامی در جهت رسیدن به هدف گوگل برای معماری هوش مصنوعی به نام Pathways است.
Pathways یک معماری هوش مصنوعی است که یک مدل واحد است که می تواند چندین کار را که در حال حاضر با استفاده از الگوریتم های متعدد انجام می شود، یاد بگیرد.
LIMoE مخفف عبارت Learning Multiple Modalities with One Sparse Mixture-of-Experts Model است. این مدلی است که دید و متن را با هم پردازش می کند.
در حالی که معماری های دیگری برای انجام کارهای مشابه وجود دارد، پیشرفت در روشی است که مدل جدید این وظایف را با استفاده از تکنیک شبکه عصبی به نام مدل پراکنده انجام می دهد.
مدل پراکنده در یک مقاله تحقیقاتی در سال 2017 که رویکرد لایه ترکیبی از متخصصان (MoE) را معرفی کرد، در مقاله تحقیقاتی با عنوان شبکههای عصبی بسیار بزرگ: لایه ترکیبی متخصصان با دروازه پراکنده توضیح داده شده است.
در سال 2021 گوگل یک مدل MoE به نام GLaM: مقیاسبندی کارآمد مدلهای زبانی با ترکیبی از متخصصان را معرفی کرد که فقط بر روی متن آموزش داده شده بود.
تفاوت LIMoE این است که روی متن و تصاویر به طور همزمان کار می کند.
مدل پراکنده با مدلهای «متراکم» متفاوت است، زیرا به جای اختصاص دادن هر بخش از مدل به انجام یک کار، مدل پراکنده این کار را به «متخصصان» مختلفی که در بخشی از کار تخصص دارند، محول میکند.
کاری که این کار انجام می دهد کاهش هزینه محاسباتی است که مدل را کارآمدتر می کند.
بنابراین، مشابه این که مغز یک سگ را می بیند و می داند که سگ است، میناکاری است و میناکاری یک کت رنگ نقره ای حنایی را نشان می دهد، این مدل نیز می تواند یک تصویر را به روشی مشابه مشاهده کند و با اختصاص محاسباتی کار را انجام دهد. وظایف به متخصصان مختلف که در تشخیص سگ، نژاد، رنگ و غیره تخصص دارند.
مدل LIMoE مشکلات را به "متخصصان" متخصص در یک کار خاص هدایت می کند و به نتایج مشابه یا بهتری نسبت به رویکردهای فعلی برای حل مشکلات دست می یابد.
یکی از ویژگی های جالب مدل این است که چگونه برخی از متخصصان بیشتر در پردازش تصاویر تخصص دارند، برخی دیگر بیشتر در پردازش متن و برخی از متخصصان در انجام هر دو تخصص دارند.
توضیح Google درباره نحوه عملکرد LIMoE نشان میدهد که چگونه یک متخصص در چشم، دیگری برای چرخها، یک متخصص برای بافتهای راه راه، بافتهای جامد، کلمات، دستگیرههای در، غذا و میوهها، دریا و آسمان، و یک متخصص برای تصاویر گیاهی وجود دارد.
اطلاعیه در مورد الگوریتم جدید این متخصصان را توصیف می کند:
همچنین برخی از الگوهای کیفی واضح در میان متخصصان تصویر وجود دارد - به عنوان مثال، در اکثر مدلهای LIMoE، متخصصی وجود دارد که تمام وصلههای تصویر حاوی متن را پردازش میکند. یکی از متخصصان جانوران و فضای سبز را پردازش می کند و دیگری دستان انسان را پردازش می کند.
کارشناسانی که در بخشهای مختلف مشکلات تخصص دارند، توانایی مقیاسبندی و انجام دقیق بسیاری از وظایف مختلف را اما با هزینه محاسباتی کمتر ارائه میدهند.
مقاله پژوهشی یافته های آنها را به طور خلاصه بیان می کند:
ما LIMoE، اولین ترکیب چندوجهی در مقیاس بزرگ از مدلهای متخصص را پیشنهاد میکنیم.
ما با جزئیات نشان میدهیم که چگونه رویکردهای قبلی برای منظم کردن ترکیبی از مدلهای خبره برای یادگیری چندوجهی کوتاهی میکنند، و یک طرح منظمسازی مبتنی بر آنتروپی جدید برای تثبیت آموزش پیشنهاد میکنیم.
ما نشان میدهیم که LIMoE در مقیاسهای معماری تعمیم مییابد، با پیشرفتهای نسبی در دقت ImageNet صفر شات که از ۷٪ تا ۱۳٪ نسبت به مدلهای متراکم معادل متغیر است.
با مقیاس بیشتر، LIMoE-H/14 به دقت تصویر نت صفر شات 84.1 درصد، قابل مقایسه با مدل های کنتراست SOTA با ستون فقرات هر مدالیت و قبل از آموزش، می رسد.
سریعترین راه برای بررسی موارد حیاتی وب اصلی شما
آیا برای تجربه کاربری بهینه سازی می کنید؟ افزایش سرعت سایت، ثبات محتوا و تعامل می تواند رتبه بندی ارگانیک، آگاهی از برند و فروش را افزایش دهد.
امتحانش مجانی است
تبلیغات
مطابق با وضعیت هنر
مقالات تحقیقاتی زیادی هر ماه منتشر می شود. اما تنها تعدادی از آنها توسط گوگل برجسته شده است.
به طور معمول، گوگل تحقیقات را مورد توجه قرار می دهد، زیرا علاوه بر دستیابی به یک وضعیت هنری، چیز جدیدی را انجام می دهد.
LIMoE این شاهکار دستیابی به نتایج قابل مقایسه با بهترین الگوریتم های امروزی را انجام می دهد، اما این کار را با کارایی بیشتری انجام می دهد.
محققان این مزیت را برجسته می کنند:
در طبقه بندی تصاویر صفر شات، LIMoE از هر دو مدل متراکم چندوجهی قابل مقایسه و رویکردهای دو برج برتری دارد.
بزرگترین LIMoE به 84.1% دقت ImageNet صفر شات دست می یابد که با مدل های پیشرفته گران قیمت قابل مقایسه است.
Sparity به LIMoE این امکان را میدهد تا بهخوبی بزرگتر شود و یاد بگیرد که ورودیهای بسیار متفاوت را مدیریت کند، و به تنش بین یک متخصص حرفهای بودن و یک متخصص حرفهای رسیدگی میکند.
نتایج موفقیتآمیز LIMoE باعث شد تا محققان مشاهده کنند که LIMoE میتواند راهی به جلو برای دستیابی به یک مدل کلی چندوجهی باشد.
محققان مشاهده کردند:
ما بر این باوریم که توانایی ساخت یک مدل کلی با اجزای تخصصی، که میتواند تصمیم بگیرد که چگونه روشها یا وظایف مختلف باید با هم تعامل داشته باشند، کلید ایجاد مدلهای چندوظیفهای چندوجهی است که در هر کاری که انجام میدهند عالی باشد.
LIMoE اولین گام امیدوارکننده در این مسیر است."
کاستی های احتمالی، سوگیری ها و سایر مشکلات اخلاقی
کاستی هایی در این معماری وجود دارد که در اطلاعیه گوگل مطرح نشده است اما در خود مقاله تحقیقاتی به آن اشاره شده است.
مقاله تحقیقاتی اشاره میکند که مشابه سایر مدلهای مقیاس بزرگ، LIMoE ممکن است سوگیریهایی را نیز در نتایج ایجاد کند.
محققان بیان میکنند که هنوز «بهصراحت» به مشکلات ذاتی مدلهای مقیاس بزرگ رسیدگی نکردهاند.
آنها می نویسند:
«مضرات بالقوه مدلهای مقیاس بزرگ…، مدلهای متضاد… و دادههای چندوجهی در مقیاس وب… نیز به اینجا منتقل میشوند، زیرا LIMoE به صراحت به آنها رسیدگی نمیکند».
بیانیه بالا اشاره ای (در پیوند پاورقی) به یک مقاله تحقیقاتی در سال 2021 به نام «درباره فرصت ها و خطرات مدل های بنیاد » دارد ( pdf اینجا ).
این مقاله تحقیقاتی از سال 2021 هشدار می دهد که چگونه فناوری های هوش مصنوعی نوظهور می توانند تأثیرات منفی اجتماعی مانند:
"...بی عدالتی، سوء استفاده، اثرات اقتصادی و زیست محیطی، ملاحظات قانونی و اخلاقی."
با توجه به مقاله ذکر شده، مشکلات اخلاقی نیز می تواند از تمایل به یکسان سازی وظایف ناشی شود، که سپس می تواند نقطه شکست را معرفی کند که سپس به وظایف دیگر که در پایین دست هستند بازتولید می شود.
در مقاله تحقیقاتی هشدار دهنده آمده است:
اهمیت مدل های فونداسیون را می توان با دو کلمه خلاصه کرد: ظهور و همگن سازی.
ظهور به این معنی است که رفتار یک سیستم به طور ضمنی القا می شود تا اینکه به طور صریح ساخته شود. هم منبع هیجان علمی و هم اضطراب در مورد پیامدهای پیش بینی نشده است.
همگن سازی نشان دهنده ادغام روش ها برای ساخت سیستم های یادگیری ماشین در طیف گسترده ای از کاربردها است. این اهرم قوی برای بسیاری از وظایف فراهم می کند، اما همچنین نقاط شکست واحدی را ایجاد می کند.
یکی از زمینه های احتیاط در هوش مصنوعی مربوط به بینایی است.
مقاله 2021 بیان میکند که فراگیر بودن دوربینها به این معنی است که هر گونه پیشرفت در هوش مصنوعی مرتبط با بینایی میتواند خطرات همزمانی را برای استفاده از فناوری بهصورت پیشبینینشده داشته باشد که میتواند «تاثیری مخرب» داشته باشد، از جمله در مورد حفظ حریم خصوصی و نظارت.
یکی دیگر از هشدارهای هشدار دهنده مربوط به پیشرفت در هوش مصنوعی مرتبط با بینایی، مشکلات مربوط به دقت و سوگیری است.
آنها متذکر می شوند:
سابقه کاملاً مستندی از سوگیری آموختهشده در مدلهای بینایی رایانهای وجود دارد که منجر به دقت کمتر و خطاهای مرتبط برای گروههای کمنمایش شده و در نتیجه استقرار نامناسب و زودهنگام در برخی تنظیمات دنیای واقعی میشود.»
بقیه مقاله نشان می دهد که چگونه فناوری های هوش مصنوعی می توانند سوگیری های موجود را یاد بگیرند و نابرابری ها را تداوم بخشند.
«مدلهای بنیادی این پتانسیل را دارند که نتایج ناعادلانه ای به همراه داشته باشند: رفتار ناعادلانه با مردم، به ویژه به دلیل توزیع نابرابر در امتداد خطوطی که تبعیض تاریخی را تشدید میکند... مانند هر سیستم هوش مصنوعی، مدلهای بنیادی میتوانند نابرابریهای موجود را با تولید نتایج ناعادلانه، تقویت سیستمهای قدرت، و توزیع نامتناسب پیامدهای منفی فناوری بین کسانی که قبلاً به حاشیه رانده شدهاند، ترکیب کنند.»
محققان LIMoE خاطرنشان کردند که این مدل خاص ممکن است به دلیل ماهیت چگونگی تخصص متخصصان در موارد خاص، بتواند برخی از سوگیریها را در برابر گروههایی که کمتر ارائه شدهاند، حل کند.
این نوع پیامدهای منفی تئوری نیستند، واقعیت هستند و قبلاً تأثیر منفی بر زندگی در کاربردهای دنیای واقعی مانند سوگیریهای ناعادلانه مبتنی بر نژاد که توسط الگوریتمهای استخدام استخدامی معرفی شدهاند، داشتهاند .
نویسندگان مقاله LIMoE آن کاستی های بالقوه را در یک پاراگراف کوتاه که به عنوان یک هشدار هشدار دهنده عمل می کند، تصدیق می کنند.
اما آنها همچنین خاطرنشان می کنند که ممکن است با این رویکرد جدید، امکان رسیدگی به برخی از سوگیری ها وجود داشته باشد.
آنها نوشتند:
«...توانایی مقیاسسازی مدلها با کارشناسانی که میتوانند عمیقاً متخصص شوند، ممکن است منجر به عملکرد بهتر در گروههای کمنمایش شود».
در نهایت، یکی از ویژگی های کلیدی این فناوری جدید که باید به آن اشاره کرد این است که هیچ کاربرد صریحی برای آن ذکر نشده است.
این به سادگی یک فناوری است که می تواند تصاویر و متن را به شیوه ای کارآمد پردازش کند.
اینکه چگونه می توان آن را اعمال کرد، اگر در این شکل یا در فرم آینده اعمال شود، هرگز به آن پرداخته نمی شود.
و این عامل مهمی است که توسط مقاله هشدار دهنده ( فرصتها و خطرات مدلهای بنیادی ) مطرح میشود و توجه محققان را بدون توجه به نحوه استفاده از آنها و تأثیری که ممکن است بر مسائلی مانند حریم خصوصی و حریم خصوصی داشته باشند، برای هوش مصنوعی ایجاد میکنند. امنیت.
«مدل های بنیادی دارایی های واسطه ای هستند که قبل از انطباق، هدف مشخصی ندارند. درک مضرات آنها مستلزم استدلال در مورد ویژگی های آنها و نقش آنها در ساخت مدل های خاص کار است.
همه این اخطارها در مقاله اعلامیه گوگل حذف شده اند اما در نسخه PDF خود مقاله تحقیقاتی به آنها اشاره شده است.
Pathways AI Architecture & LIMoE
متن، تصاویر، دادههای صوتی به عنوان روشها، انواع مختلف دادهها یا تخصصهای کار نامیده میشوند. مدالیته همچنین می تواند به معنای زبان گفتاری و نمادها باشد.
بنابراین وقتی عبارت "چند وجهی" یا "روش" را در مقالات علمی و مقالات تحقیقاتی می بینید، آنچه که آنها به طور کلی در مورد آن صحبت می کنند انواع مختلف داده ها است.
هدف نهایی گوگل برای هوش مصنوعی همان چیزی است که Pathways نسل بعدی معماری هوش مصنوعی می نامد.
Pathways نشاندهنده دور شدن از مدلهای یادگیری ماشینی است که یک کار را واقعاً خوب انجام میدهند (در نتیجه به هزاران مورد نیاز دارند) به یک مدل واحد که همه چیز را واقعاً خوب انجام میدهد.
Pathways (و LIMoE) یک رویکرد چندوجهی برای حل مشکلات است.
اینطور توصیف شده است :
«مردم برای درک جهان به حواس چندگانه متکی هستند. این بسیار متفاوت از نحوه هضم اطلاعات توسط سیستم های هوش مصنوعی معاصر است.
اکثر مدل های امروزی در هر زمان فقط یک روش اطلاعات را پردازش می کنند. آنها می توانند متن، یا تصویر یا گفتار را دریافت کنند - اما معمولاً نه هر سه را در یک زمان.
مسیرها میتوانند مدلهای چندوجهی را فعال کنند که درک بینایی، شنوایی و زبان را به طور همزمان در بر میگیرد.»
آنچه که LIMoE را مهم می کند این است که یک معماری چندوجهی است که توسط محققان به عنوان " ...گام مهم به سوی چشم انداز Pathways... " یاد می شود .
محققان LIMoE را یک « گام » توصیف میکنند، زیرا کارهای بیشتری باید انجام شود، که شامل بررسی این است که چگونه این رویکرد میتواند با روشهایی فراتر از تصاویر و متن کار کند.
این مقاله تحقیقاتی و مقاله خلاصه همراه آن نشان می دهد که تحقیقات هوش مصنوعی گوگل به چه سمتی می رود و چگونه به آنجا می رسد.