آیا مدل های زبان بزرگ اگر آنقدر بزرگ نبودند بهتر بودند؟

وقتی صحبت از چت ربات های هوش مصنوعی به میان می آید، بزرگتر معمولا بهتر است.

مدل‌های زبان بزرگ مانند ChatGPT و Bard که متن محاوره‌ای و اصلی تولید می‌کنند، با داده‌های بیشتر بهبود می‌یابند. هر روز، وبلاگ‌نویسان به اینترنت سر می‌زنند تا توضیح دهند که چگونه آخرین پیشرفت‌ها – برنامه‌ای که مقالات را خلاصه می‌کند، پادکست‌های تولید شده با هوش مصنوعی، مدلی دقیق که می‌تواند به هر سوال مرتبط با بسکتبال حرفه‌ای پاسخ دهد – همه چیز را تغییر می‌دهد.

اما ساخت هوش مصنوعی بزرگتر و توانمندتر نیاز به قدرت پردازشی دارد که تعداد کمی از شرکت ها از آن برخوردار هستند و نگرانی فزاینده ای وجود دارد که گروه کوچکی از جمله گوگل، متا، OpenAI و مایکروسافت تقریباً کنترل کاملی بر این فناوری اعمال کنند.

همچنین، درک مدل های زبان بزرگتر سخت تر است. آنها اغلب به‌عنوان «جعبه‌های سیاه» توصیف می‌شوند، حتی توسط افرادی که آنها را طراحی می‌کنند، و چهره‌های برجسته در این زمینه ابراز ناراحتی کرده‌اند که ممکن است اهداف A.I در نهایت با اهداف ما هماهنگ نباشد. اگر بزرگتر بهتر است، مات تر و منحصر به فرد تر است.

در ژانویه، گروهی از دانشگاهیان جوان که در پردازش زبان طبیعی کار می‌کنند – شاخه‌ای از هوش مصنوعی که بر درک زبانی متمرکز است – چالشی را برای تغییر این الگو به راه انداختند. این گروه از تیم‌ها خواست تا با استفاده از مجموعه داده‌هایی که اندازه آن‌ها کمتر از یک ده هزارم مدل‌های پیشرفته‌ترین زبان‌های بزرگ استفاده می‌شود، مدل‌های زبان کاربردی ایجاد کنند. یک مینی مدل موفق تقریباً به اندازه مدل های رده بالا توانایی دارد، اما بسیار کوچکتر، در دسترس تر و سازگارتر با انسان است. این پروژه چالش BabyLM نام دارد.

آرون مولر، دانشمند کامپیوتر در دانشگاه جان هاپکینز و سازمان دهنده BabyLM، گفت: “ما مردم را به چالش می کشیم تا کوچک فکر کنند و بیشتر بر روی ساختن سیستم های کارآمد تمرکز کنند که افراد بیشتری بتوانند از آن استفاده کنند.”

الکس وارشتات، دانشمند کامپیوتر در ETH زوریخ و یکی دیگر از سازمان‌دهندگان این پروژه، افزود: «این چالش به جای اینکه «چقدر می‌توانیم مدل‌هایمان را بزرگ کنیم؟» سؤالاتی را در مورد یادگیری زبان انسان مطرح می‌کند؟ در مرکز گفتگو.»

مدل های زبان بزرگ شبکه های عصبی هستند که برای پیش بینی کلمه بعدی در یک جمله یا عبارت معین طراحی شده اند. آنها برای این کار با استفاده از مجموعه ای از کلمات جمع آوری شده از رونوشت ها، وب سایت ها، رمان ها و روزنامه ها آموزش می بینند. یک مدل معمولی بر اساس عبارات مثال حدس می زند و سپس بسته به اینکه چقدر به پاسخ درست نزدیک می شود، خودش را تنظیم می کند.

با تکرار این فرآیند بارها و بارها، یک مدل نقشه هایی از نحوه ارتباط کلمات با یکدیگر را تشکیل می دهد. به طور کلی، هر چه یک مدل کلمات بیشتری روی آن آموزش داده شود، بهتر خواهد شد. هر عبارت زمینه ای را برای مدل فراهم می کند و زمینه بیشتر به برداشت دقیق تری از معنای هر کلمه ترجمه می شود. GPT-3 OpenAI که در سال 2020 منتشر شد، بر روی 200 میلیارد کلمه آموزش داده شد. Chinchilla از DeepMind که در سال 2022 منتشر شد، در یک تریلیون آموزش دیده بود.

برای اتان ویلکاکس، زبان شناس در ETH زوریخ، این واقعیت که چیزی غیرانسانی می تواند زبان تولید کند، فرصتی هیجان انگیز است: آیا می توان از مدل های زبان هوش مصنوعی برای مطالعه چگونگی یادگیری زبان توسط انسان ها استفاده کرد؟

برای مثال، بومی‌گرایی، نظریه‌ای تأثیرگذار که به کارهای اولیه نوام چامسکی بازمی‌گردد، ادعا می‌کند که انسان‌ها زبان را به سرعت و کارآمد یاد می‌گیرند زیرا درک ذاتی از نحوه عملکرد زبان دارند. اما مدل‌های زبانی نیز زبان را به سرعت یاد می‌گیرند، و ظاهراً بدون درک ذاتی از نحوه کار زبان – بنابراین شاید بومی‌گرایی جوابگو نباشد.

چالش این است که مدل های زبانی بسیار متفاوت از انسان ها یاد می گیرند. انسان ها بدن، زندگی اجتماعی و احساسات غنی دارند. ما می توانیم مالچ را بو کنیم، پره های پر را حس کنیم، به درها برخورد کنیم و طعم نعناع را بچشیم. در اوایل، ما در معرض کلمات گفتاری ساده و نحوی قرار می گیریم که اغلب در نوشتار نشان داده نمی شوند. بنابراین، دکتر ویلکاکس نتیجه گرفت، رایانه‌ای که پس از آموزش بر روی هزاران واژه نوشتاری، زبان تولید می‌کند، می‌تواند در مورد فرآیند زبانی خودمان چیزهای زیادی به ما بگوید.

اما اگر یک مدل زبانی فقط در معرض کلماتی قرار می‌گرفت که یک انسان جوان با آن‌ها مواجه می‌شود، ممکن است به شیوه‌هایی با زبان تعامل داشته باشد که بتواند به سؤالات خاصی در مورد توانایی‌های خودمان پاسخ دهد.

بنابراین، دکتر ویلکاکس، دکتر مولر و دکتر وارشتات، همراه با چند نفر از همکاران، چالش BabyLM را در نظر گرفتند تا سعی کنند مدل‌های زبانی را کمی به درک انسان نزدیک‌تر کنند. در ژانویه، آنها فراخوانی را برای تیم‌ها ارسال کردند تا مدل‌های زبانی را با همان تعداد لغاتی که یک انسان 13 ساله با آن مواجه می‌شود آموزش دهند – تقریباً 100 میلیون. مدل‌های کاندیدا در مورد چگونگی تولید و درک تفاوت‌های ظریف زبان مورد آزمایش قرار می‌گیرند و برنده اعلام می‌شود.

ایوا پورتلانس، زبان شناس دانشگاه مک گیل، روزی که این چالش اعلام شد، با این چالش مواجه شد. تحقیقات او خط اغلب مبهم بین علوم کامپیوتر و زبان شناسی را در بر می گیرد. اولین هجوم به هوش مصنوعی، در دهه 1950، با تمایل به مدل سازی ظرفیت های شناختی انسان در رایانه انجام شد. واحد اصلی پردازش اطلاعات در هوش مصنوعی «نرون» است و مدل‌های اولیه زبان در دهه‌های 1980 و 1990 مستقیماً از مغز انسان الهام گرفتند. ‌

اما با قدرتمندتر شدن پردازنده‌ها و شروع کار شرکت‌ها به سمت محصولات قابل فروش، دانشمندان رایانه دریافتند که آموزش مدل‌های زبان بر روی مقادیر عظیمی از داده‌ها اغلب آسان‌تر از وادار کردن آنها به ساختارهای روان‌شناختی است. در نتیجه، دکتر پورتلانس گفت: «آنها متنی را به ما می‌دهند که شبیه انسان است، اما هیچ ارتباطی بین ما و نحوه عملکرد آنها وجود ندارد».

برای دانشمندانی که علاقه مند به درک نحوه عملکرد ذهن انسان هستند، این مدل های بزرگ بینش محدودی را ارائه می دهند. و از آنجایی که آنها به قدرت پردازش فوق العاده ای نیاز دارند، تعداد کمی از محققان می توانند به آنها دسترسی داشته باشند. «تنها تعداد کمی از آزمایشگاه‌های صنعتی با منابع عظیم می‌توانند مدل‌هایی با میلیاردها پارامتر را بر روی تریلیون‌ها کلمه آموزش دهند.» ویلکاکس گفت.

دکتر مولر افزود: «یا حتی بارگیری آنها». این امر باعث شده است که تحقیقات در این زمینه اخیراً کمی کمتر دموکراتیک باشد.

دکتر پورتلانس گفت: چالش BabyLM را می توان به عنوان یک قدم دور از رقابت تسلیحاتی برای مدل های زبان بزرگتر و گامی به سوی هوش مصنوعی در دسترس تر و شهودی تر دید.

پتانسیل چنین برنامه تحقیقاتی توسط آزمایشگاه های صنعتی بزرگتر نادیده گرفته نشده است. سام آلتمن، مدیر اجرایی OpenAI، اخیراً گفت که افزایش اندازه مدل‌های زبان منجر به پیشرفت‌هایی که در چند سال گذشته دیده شده است، نخواهد بود. و شرکت هایی مانند گوگل و متا نیز بر روی مدل های زبانی کارآمدتر سرمایه گذاری کرده اند که از ساختارهای شناختی انسان مطلع شده اند. از این گذشته، مدلی که می‌تواند زبان تولید کند، زمانی که با داده‌های کمتری آموزش داده شود، می‌تواند به طور بالقوه بزرگ‌تر شود.

هر سودی که یک BabyLM موفق داشته باشد، برای کسانی که پشت این چالش هستند، اهداف آکادمیک و انتزاعی تر هستند. حتی جایزه عملی را زیر و رو می کند. دکتر ویلکاکس گفت: «فقط غرور».