به گزارش ایسنا، برای حل این مشکل، گروهی از محققان هوش مصنوعی در دانشگاه چینهوا(Tsinghua)، یک مدل زبانی بزرگ(LLM) به نام لانگ رایتر(LongWriter) توسعه دادهاند.
این هوش مصنوعی میتواند پاسخهای طولانی ایجاد کند
این گروه ادعا میکنند که مدل زبان بزرگ آنها میتواند خروجی متن تا ۱۰ هزار کلمه تولید کند.
به نقل از آیای، از آنجایی که مدلهای زبانی بزرگ جریانساز شدهاند، بسیاری متوجه شدهاند که آنها نمیتوانند پاسخهای بسیار طولانی مانند کتابهای کامل یا نسخههای خطی تولید کنند و حد فعلی تولید متن آنها به نظر میرسد تقریبا ۲۰۰۰ کلمه باشد.
محققان میگویند که احتمالا این به این دلیل است که همه آنها با استفاده از دادههای کوتاه آموزش دیدهاند. آنها در تلاش جدید خود دریافتند که اگر مدلهای زبانی بزرگ را کمی تغییر دهند و با استفاده از اسناد بسیار طولانیتر آموزش دهند، میتوان متون طولانیتری تولید کرد.
آزمایش نظریه
محققان برای آزمایش نظریه خود، ابتدا یک مدل زبانی بزرگ را با ۹ میلیارد پارامتر با استفاده از یک مجموعه داده معمولی، که شامل اسنادی بود که عمدتا کمتر از ۲۰۰۰ کلمه بودند، آموزش دادند.
همانطور که انتظار میرفت، هنگام پرس و جو، این هوش مصنوعی میتوانست متنهایی با حداکثر ۲۰۰۰ کلمه ایجاد کند.
سپس، محققان یک مدل زبانی بزرگ سنتی را با استفاده از یک کانال ارتباطی به نام AgentWrite اصلاح کردند تا دادههای آموزشی را به وظایف فرعی تجزیه کنند.
آنها سپس مجموعه دادهای را به نام LongWriter-۶k جمعآوری کردند که حاوی ۶۰۰۰ سند مکتوب با طول ۲۰۰۰ تا ۳۲ هزار کلمه بود. آنها سپس مدل زبانی بزرگ اصلاح شده را با استفاده از مجموعه داده جدید آموزش دادند و دریافتند که با انجام این کار، طول متنی که این هوش مصنوعی میتواند تولید کند به تقریبا ۱۰ هزار کلمه افزایش مییابد.
قابلیت استفاده در زمینههای مختلف
در بررسی مطالب طولانی جدید تولید شده توسط مدل زبانی بزرگ، محققان آنها را منسجم و قابل استفاده در زمینههای مختلف یافتند. آنها همچنین ویدیویی را منتشر کردند که نشان میدهد لانگ رایتر یک راهنمای گردشگری ۱۰ هزار کلمهای برای افرادی که به چین سفر میکنند تولید میکند.
محققان اذعان میکنند که اکنون که مشخص شده است که مدل زبانی بزرگ میتواند کل مقالات تحقیقاتی، کتابها، دستنوشتهها یا شاید حتی فیلمنامههای فیلم را تولید کند. با درک محدودیتها و بهکارگیری شیوههای استفاده مسئولانه، انسانها میتوانند از قدرت مدل زبانی بزرگ استفاده کنند و در عین حال خطرات بالقوه را کاهش دهند.
انتهای پیام
نظرات