GPT-4 با قابلیت تجزیه و تحلیل عکس و متن هم زمان معرفی شد

پس از ماه‌ها شایعات و گمانه‌زنی‌ها، OpenAI مدل هوش مصنوعی GPT-4 با قابلیت تجزیه و تحلیل عکس و متن هم زمان معرفی کرد: آخرین مدل از سری مدل‌های زبان هوش مصنوعی خود که برنامه‌هایی مانند ChatGPT و Bing جدید را تقویت می‌کند.

این شرکت ادعا می کند که این مدل “خلاقانه‌تر و مشارکتی‌تر از همیشه” است و می‌تواند مشکلات دشوار را با دقت بیشتری حل کند. این مدل می‌تواند هم متن و هم ورودی تصویر را تجزیه کند، اگرچه فقط می‌تواند از طریق متن پاسخ دهد.

شاید این موارد را نیز بپسندید

رویداد Galaxy Unpacked سامسونگ: راهنمای کامل تماشا و انتظارات

هوش مصنوعی در طراحی پردازنده‌ها

استفاده از هوش مصنوعی گلکسی سامسونگ در گلکسی S24

OpenAI می‌گوید که در حال حاضر با تعدادی از شرکت‌ها برای ادغام GPT-4 در محصولات خود از جمله Duolingo، Stripe و Khan Academy همکاری کرده است. مدل جدید از طریق ChatGPT Plus، اشتراک ماهانه 20 دلاری ChatGPT OpenAI در دسترس عموم است و ربات چت بینگ مایکروسافت را تقویت می‌کند. همچنین به عنوان یک API برای توسعه دهندگان قابل دسترسی خواهد بود.

در یک پست وبلاگ تحقیقاتی، OpenAI گفت که تفاوت بین GPT-4 و GPT-3.5 در مکالمه معمولی «نامحسوس» است. GPT-3.5 مدلی است که ChatGPT را تقویت می کند. سام آلتمن، مدیر عامل OpenAI در توییتی گفت که GPT-4 هنوز دارای نقص است، هنوز محدود است. اما همچنین هنوز در اولین استفاده نسبت به زمانی که زمان بیشتری را با آن سپری می کنید، تاثیرگذارتر به نظر می رسد.

این شرکت می‌گوید که پیشرفت‌های GPT-4 در عملکرد سیستم در تعدادی از تست‌ها و معیارها، از جمله آزمون‌های Uniform Bar Exam، LSAT، SAT Math، و SAT Evidence-based Reading & Writing، مشهود است. در آزمون‌های ذکر شده، GPT-4 در صدک 88 به بالا امتیاز کسب کرده است و لیست کامل آزمون ها و نمرات سیستم را می‌توانید در اینجا مشاهده کنید.

آزمون‌ شبیه‌سازی‌شده	GPT-4	GPT-3.5
Uniform Bar Exam (MBE+MEE+MPT)	۴۰۰ / ۲۹۸ (صدک ۹۰)	۴۰۰ / ۲۱۳ (صدک ۱۰)
LSAT	۱۶۳ (صدک ۸۸)	۱۴۹ (صدک ۴۰)
SAT Evidence-Based Reading & Writing	۸۰۰ / ۷۱۰ (صدک ۸۹)	۸۰۰ / ۵۹۰ (صدک ۷۰)
SAT Math	۸۰۰ / ۷۰۰ (صدک ۸۹)	۸۰۰ / ۵۹۰ (صدک ۷۰)
Graduate Record Examination (GRE) Quantitative	۱۷۰ / ۱۶۳ (صدک ۸۰)	۱۷۰ / ۱۴۷ (صدک ۲۵)
Graduate Record Examination (GRE) Verbal	۱۷۰ / ۱۶۹ (صدک ۹۹)	۱۷۰ / ۱۵۴ (صدک ۶۳)
Graduate Record Examination (GRE) Writing	۶ / ۴ (صدک ۶۴)	۶ / ۴ (صدک ۵۴)
USABO Semifinal Exam 2020	۱۵۰ / ۸۷ (صدک ۹۹ تا ۱۰۰)	۱۵۰ / ۴۳ (صدک ۳۱ تا ۳۳)
USNCO Local Section Exam 2022	۶۰ / ۳۶	۶۰ / ۲۴
Codeforces Rating	۳۹۲ (زیر صدک ۵)	۲۶۰ (زیر صدک ۵)
AP Art History	۵ (صدک ۸۶ تا ۱۰۰)	۵ (صدک ۸۶ تا ۱۰۰)
AP Biology	۵ (صدک ۸۵ تا ۱۰۰)	۴ (صدک ۶۲ تا ۸۵)
AP Calculus BC	۴ (صدک ۴۳ تا ۵۹)	۱ (صدک صفر تا ۷)

گمانه‌زنی‌ها در مورد GPT-4 و قابلیت‌های آن در سال گذشته زیاد بوده است و بسیاری نشان می‌دهند که جهشی بزرگ نسبت به سیستم‌های قبلی خواهد بود.

هفته گذشته پس از اینکه یکی از مدیران مایکروسافت در مصاحبه ای با مطبوعات آلمانی اعلام کرد که این سیستم در هفته جاری راه اندازی می‌شود، این شایعات فعال تر شدند. مدیر اجرایی همچنین پیشنهاد کرد که این سیستم چند وجهی باشد – یعنی می‌تواند نه تنها متن بلکه رسانه های دیگر را نیز تولید کند. بسیاری از محققان هوش مصنوعی بر این باورند که سیستم‌های چندوجهی که متن، صدا و ویدئو را یکپارچه می‌کنند، بهترین راه را برای ساختن سیستم‌های هوش مصنوعی توانمندتر ارائه می‌دهند.

پیشنهاد خواندن: شروع همکاری هوآوی و جک برای تولید خودرو های برقی

GPT-4 در واقع چندوجهی است، اما در رسانه های کمتری نسبت به برخی پیش بینی شده است. OpenAI می‌گوید این سیستم می‌تواند هر دو ورودی متن و تصویر را بپذیرد و خروجی های متن را منتشر کند. این شرکت می‌گوید توانایی این مدل برای تجزیه متن و تصویر به طور همزمان به آن اجازه می‌دهد تا ورودی های پیچیده تری را تفسیر کند. در نمونه های زیر می‌توانید سیستم توضیح دهنده میم ها و تصاویر غیرمعمول را ببینید:

مقاله پژوهشی اصلی که GPT را توصیف می‌کند در سال 2018 منتشر شد که GPT-2 در سال 2019 و GPT-3 در سال 2020 اعلام شد. این مدل‌ها بر روی مجموعه داده‌های عظیمی از متن آموزش داده می‌شوند که بیشتر آن از اینترنت خراشیده شده است، که برای الگوهای آماری استخراج می‌شود. سپس از این الگوها برای پیش‌بینی اینکه چه کلمه‌ای به دنبال کلمه دیگری می‌آید استفاده می‌شود. این یک مکانیسم نسبتاً ساده برای توصیف است، اما نتیجه نهایی سیستم‌های انعطاف‌پذیری است که می‌توانند نوشتن، خلاصه‌سازی و بازنویسی و همچنین انجام سایر وظایف مبتنی بر متن مانند ترجمه یا تولید کد را انجام دهند.

OpenAI در ابتدا انتشار مدل‌های GPT خود را از ترس استفاده از آنها برای اهداف مخرب مانند ایجاد هرزنامه و اطلاعات نادرست به تعویق انداخت. اما در اواخر سال 2022، این شرکت ChatGPT را راه‌اندازی کرد – یک چت ربات مکالمه مبتنی بر GPT-3.5 که هر کسی می‌توانست به آن دسترسی داشته باشد. راه‌اندازی ChatGPT باعث ایجاد جنون در دنیای فناوری شد و مایکروسافت به زودی آن را با ربات چت هوش مصنوعی Bing (بخشی از موتور جستجوی Bing) دنبال کرد و Google در تلاش برای رسیدن به آن است.

همانطور که پیش بینی میشد، دسترسی بیشتر به این مدل های زبان هوش مصنوعی مشکلات و چالش هایی را ایجاد کرده است. سیستم آموزشی هنوز در حال تطبیق با وجود نرم افزارهایی است که مقالات معتبر دانشگاهی را می‌نویسند. سایت‌های آنلاین مانند Stack Overflow و مجله علمی تخیلی Clarkesworld به دلیل هجوم محتوای تولید شده توسط هوش مصنوعی مجبور به بستن ارسال‌ها شدند و استفاده های اولیه از ابزارهای نوشتاری هوش مصنوعی در روزنامه نگاری در بهترین حالت دشوار بوده است. اما، برخی از کارشناسان استدلال کرده اند که اثرات مضر آن هنوز کمتر از حد پیش بینی شده بوده است.

OpenAI در اعلامیه خود درباره GPT-4 تاکید کرد که سیستم شش ماه آموزش ایمنی را گذرانده است و در آزمایش‌های داخلی، ۸۲ درصد کمتر به درخواست‌های محتوای غیرمجاز پاسخ می‌دهد و ۴۰ درصد احتمال بیشتری برای تولید واقعی دارد.

منبع: verge