جمعه , 30 آبان 1404 - 8:24 قبل از ظهر

رقابت تنگاتنگ Gemini ۳ و ChatGPT-۵.۱/ کدام پیروز میدان است؟

تینا مزدکی_Gemini ۳ Pro امتیاز چشمگیر ۱۵۰۱ را در LMArena به نام خود ثبت کرده و ادعا می‌کند از توانایی استدلال در سطح PhD برخوردار است. از سوی دیگر، GPT-۵.۱ سیستم «تفکر تطبیقی» را معرفی می‌کند که بسته به پیچیدگی سؤال، زمان پردازش را تنظیم می‌کند. هر دو شرکت مدل‌های تازه خود را گامی جهشی در توانایی‌های هوش مصنوعی معرفی می‌کنند؛ اما کدام‌یک واقعاً عملکرد بهتری دارد؟ برای یافتن پاسخ، هر دو مدل در یک رقابت ۹ مرحله‌ای شامل تحلیل تصویر، کدنویسی، نوشتن خلاقانه، استدلال لحظه‌ای و چندین آزمون ترکیبی محک زده شدند تا مشخص شود که کدام مدل واقعاً سزاوار توجه است.

۱. تفسیر تصویر

دستور: Here’s a photo of the inside of my freezer. Suggest five meals I can make using only what’s visible. Keep steps short and realistic. (ترجمه: این تصویر داخل فریزر من است. فقط با چیزهایی که در عکس دیده می‌شود، پنج غذا پیشنهاد بده. مراحل کوتاه و واقع‌گرایانه باشند.)

ChatGPT-۵.۱ پیشنهادهای خلاقانه و مناسب کودکان ارائه کرد، اما چند بار از موادی استفاده کرد که در تصویر دیده نمی‌شدند (مثل کره، نمک یا سس سویا)، اما Gemini ۳.۰ دقیقاً مطابق دستور عمل کرد، تنها بر مبنای مواد قابل مشاهده غذا پیشنهاد داد و مراحل کوتاه و کاربردی ارائه کرد. برنده این چالش به خاطر پایبندی دقیق‌تر به دستور، Gemini است.

۲. چالش کدنویسی پیشرفته

دستور: Write a small JavaScript function that takes a list of tasks and returns them grouped into morning, afternoon, and evening categories. Explain the logic in plain English. (ترجمه: تابعی در جاوااسکریپت بنویس که تسک‌ها را بر اساس ساعت، در سه دسته صبح، بعدازظهر و عصر گروه‌بندی کند.)

ChatGPT-۵.۱ منطق زمانی استاندارد و رایج‌تری ارائه داد (صبح تا پیش از ۱۲، بعدازظهر تا ۱۸، عصر از ۱۸ به بعد)، با این حال Gemini ۳.۰ تابع کامل‌تری نوشت اما تقسیم‌بندی روز را با قطع عصر از ۵ عصر انجام داد که غیرمعمول است. بنابراین برنده این چالش به‌خاطر منطق زمانی واقع‌گرایانه‌تر ChatGPT است.

۳. داستان‌نویسی خلاقانه با محدودیت

دستور: Write a ۳۰۰-word short story about artificial intelligence that: (۱) uses only words starting with letters A-M, (۲) includes exactly ۳ plot twists, and (۳) ends with a cliffhanger. Then explain what creative choices you made to work within these constraints. (داستان ۳۰۰ کلمه‌ای درباره AI که فقط از حروف A تا M استفاده کند، سه پیچش داستانی داشته باشد و با یک پایان معلق تمام شود.)

ChatGPT-۵.۱ تمام محدودیت‌ها را رعایت کرد، هرچند داستان کمی مصنوعی به نظر می‌رسید. اما Gemini ۳.۰ با همان محدودیت‌ها داستانی بسیار خلاقانه‌تر، با پیچش‌های داستانی غیرمنتظره و لحن رباتیک خاص خلق کرد. بنابراین برنده این بخش نیز، به خاطر خلاقیت بالاتر در استفاده از محدودیت‌ها Gemini است.

۴. استدلال ریاضی

دستور: A train leaves Station A traveling at ۸۰ km/h. Two hours later, a faster train leaves the same station traveling at ۱۲۰ km/h in the same direction. If the first train makes three ۱۰-minute stops along the way, when and where will the second train catch up? Show your work step-by-step. (یک قطار از ایستگاه A با سرعت ۸۰ کیلومتر در ساعت حرکت می‌کند. دو ساعت بعد، یک قطار سریع‌تر از همان ایستگاه با سرعت ۱۲۰ کیلومتر در ساعت در همان جهت حرکت می‌کند. اگر قطار اول در مسیر سه توقف ده‌دقیقه‌ای داشته باشد، قطار دوم چه‌وقت و کجا به آن می‌رسد؟ کار را مرحله‌به‌مرحله نشان دهید.)

ChatGPT-۵.۱ مسئله را به‌درستی حل کرد و توضیحی روشن و مرحله‌به‌مرحله ارائه داد، اما انتخاب آن برای تعریف متغیر t به‌عنوان «زمان از لحظهٔ حرکت قطار اول» کار پی‌گیری کل جدول زمانی، از جمله توقف‌های قطار اول و حرکت با تأخیر قطار دوم را اندکی ساده‌تر می‌کند. Gemini ۳.۰ نیز مسئله را به‌درستی حل کرد و روشی معتبر و به‌خوبی توضیح‌داده‌شده ارائه داد، ولی در راه‌حل خود متغیر t را به‌عنوان «زمان حرکت قطار دوم» تعریف کرد.

برنده این چالش، ChatGPT است به‌دلیل مزیت کوچک اما معناداری در تعریف متغیر که از منظر شهودی جدول زمانی کل رویدادها را از ابتدا شفاف‌تر می‌سازد.

رقابت تنگاتنگ Gemini ۳ و ChatGPT-۵.۱/ کدام پیروز میدان است؟

۵. تولید چندرسانه‌ای

دستور: Design a mobile app interface for a fitness tracker aimed at seniors. Describe the layout, color scheme, and key features in detail. Then explain your UX decisions considering accessibility needs for older adults. (یک رابط کاربری موبایل برای یک ردیاب تناسب‌اندام مخصوص سالمندان طراحی کنید. چیدمان، ترکیب رنگ و قابلیت‌های کلیدی را با جزئیات توصیف کنید. سپس تصمیمات UX خود را با در نظر گرفتن نیازهای دسترس‌پذیری بزرگ‌سالان توضیح دهید.)

ChatGPT-۵.۱ طراحی‌ای منظم و حساب‌شده با نام «ActiveEase» ارائه داد؛ چیدمانی واضح، ترکیب رنگی مناسب و توجیهات قوی دسترس‌پذیری برای انتخاب‌ها داشت. Gemini ۳.۰ طراحی‌ای بسیار دقیق‌تر با نام «VitalStep» ارائه کرد که فراتر از اصول پایه رفت و توجیهاتی عمیق و مشخص برای انتخاب‌های UX ارائه داد (برای نمونه اجتناب از طیف‌های آبی/بنفش به‌دلیل زردشدگی عدسی‌ها و اولویت دادن به «ضربه‌زدن» به‌جای «کشیدن»). این سطح از توجه نشان‌دهنده درک عمیق‌تر و حساسیت بالاتر نسبت به شرایط بدنی و شناختی مخاطبان هدف بود.

بنابراین برنده این مرحله جمینی است؛ زیرا منطق طراحی‌اش همدردانه‌تر و دقیق‌تر بود و هر تصمیم UI را به یک مشکل جسمی یا شناختی مشخص مرتبط ساخت، در نتیجه راه‌حل نهایی واقعاً شخصی‌سازی‌شده و دسترس‌پذیر به‌نظر می‌رسید.

۶. تحلیل اسناد پیچیده

دستور: Summarize this document in ۳ paragraphs, then identify any logical fallacies or weak arguments present, and finally suggest ۳ counterarguments to the main thesis. (این سند را در سه پاراگراف خلاصه کنید، سپس هر مغالطه منطقی یا استدلال ضعیف را شناسایی کنید و نهایتاً سه پاسخ‌دفاعی (counterargument) به فرضیهٔ اصلی پیشنهاد دهید.)

ChatGPT-۵.۱ تحلیلی محکم و ساختارمند با خلاصه‌ای روشن همراه با شناخت مغالطه‌ها ارائه کرد. Gemini ۳.۰ اما تحلیلی نافذتر و انتقادی‌تر ارائه داد؛ هستهٔ ضعف را «سوگیری فروش‌محور» (Sales Pitch Bias) تشخیص داد و پاسخ‌های آن مشخص‌تر بود و به‌طور مستقیم با هدف تجاری سند مقابله کردند. بنابراین برنده Gemini است چون تحلیل بهتری داشت و سند را مؤثرتر از منظر نیّت تبلیغاتی و نقاط ضعف ساختاری شناسایی کرد.

۷. دانش لحظه‌ای + استدلال

دستور: What are the top ۳ tech companies by market cap today? For each, analyze one strategic risk they face in the next ۱۲ months based on recent news and industry trends. (امروز تاپ ۳ شرکت فناوری از نظر ارزش بازار کدام‌ها هستند؟ برای هر کدام، یک ریسک استراتژیک که در ۱۲ ماه آینده با آن مواجه‌اند، بر پایهٔ اخبار اخیر و روندهای صنعت تحلیل کنید.)

ChatGPT-۵.۱ تحلیلی قوی، تحقیق‌شده و معقول ارائه داد؛ ریسک‌های استراتژیک بزرگ و معتبر را برای هر شرکت شناسایی کرد، با استناد به رویدادهای خبری و اقدامات مقرراتی اخیر و حتی نموداری که داده‌ها را برجسته می‌کرد. Gemini ۳.۰ اما تحلیل آینده‌نگرانه‌تر و نافذتری ارائه داد و ریسک‌ها را به‌شیوه‌ای دقیق‌تر در سطح مدل کسب‌وکار تعریف کرد یعنی جلوتر از اخبار روز را دید و چالش‌ها را به‌عنوان تهدیدهای بنیانی در هستهٔ سودآوری و رشد هر شرکت چارچوب‌بندی کرد.

برنده این چالش نیز، Gemini بود، آن هم به‌خاطر دوراندیشی استراتژیک برتر که ریسک‌ها را نه صرفاً به‌عنوان تهدیدهای بیرونی، بلکه به‌عنوان چالش‌های اساسی مدل‌های کسب‌وکار تبیین کرد.

۸. پیروی از دستورها و رعایت قالب

دستور: Create a business email to a client explaining a ۲-week project delay. Requirements: (۱) Exactly ۱۵۰ words, (۲) Include bullet points for ۳ mitigation steps, (۳) Use a professional but warm tone, (۴) End with a specific call-to-action, (۵) Format as proper business correspondence with header. (یک ایمیل کاری برای مشتری بنویسید و تأخیر دو هفته‌ای پروژه را توضیح دهید. شرایط: (۱) دقیقاً ۱۵۰ کلمه، (۲) سه گام جبرانی به‌صورت بولت‌پوینت، (۳) لحن حرفه‌ای اما صمیمی، (۴) پایان با یک Call-to-action مشخص، (۵) قالب کامل ایمیل تجاری با هدر.)

ChatGPT-۵.۱ ایمیلی حرفه‌ای و قابل‌قبول نوشت که همه‌ی شروط اصلی شامل توضیح روشن، بولت‌پوینت‌ها و فراخوان نهایی را رعایت می‌کرد. Gemini ۳.۰ اما ایمیلی تنظیم شده و مؤثرتر ارائه داد؛ با جزئیات عملی‌تر در گام‌های جبرانی، CTA دقیق‌تر و لحنی شخصی‌تر و مطمئن‌تر که اعتماد مشتری را بهتر تقویت می‌کرد. در واقع برنده این بخش Gemini است، چون ایمیل او توجه بیشتری به جزئیات و مدیریت رابطه‌ی مشتری داشت و با مثال‌های مشخص و رویکردی فعال و راه‌حل‌محور، دغدغه‌ی ناشی از تأخیر را بهتر برطرف کرد.

۹. ترکیب میان‌حوزه‌ای

دستور: You’re building a recommendation system for a bookstore. Write: (A) A Python function that takes user preferences and returns ۳ book recommendations, (B) A creative tagline for the feature, and (C) A brief analysis of potential algorithmic bias issues and how to address them. (می‌خواهید یک سیستم توصیه‌گر برای یک کتاب‌فروشی بسازید. بنویسید: (A) یک تابع پایتون که ترجیحات کاربر را گرفته و سه کتاب پیشنهاد دهد، (B) یک شعار خلاقانه برای این قابلیت، و (C) یک تحلیل کوتاه درباره‌ی سوگیری الگوریتم و راه‌های مقابله با آن.)

ChatGPT-۵.۱ تابعی پایه و کارآمد ارائه داد و یک شعار نوشت، اما تحلیل سوگیری الگوریتمی کوتاه بود و فاقد راهکارهای عملی و مشخصی بود که خواسته شده بود. Gemini ۳.۰ پاسخ کامل‌تری ارائه داد که همراه با تابع پایتون قوی‌تر و مستندسازی‌شده، یک شعار خلاقانه، و تحلیلی کاربردی و جزئی‌نگر درباره‌ی سوگیری همراه با مثال‌های روشن و راه‌حل‌های عملی بود. اما برنده این مرحله جمینی بود، چراکه هر سه بخش A، B و C را عمیق‌تر و کاربردی‌تر پاسخ داد و به‌ویژه در تحلیل سوگیری، راه‌حل‌های مشخص و قابل‌اجرا ارائه کرد.

برنده نهایی Gemini ۳.۰ است

در این رقابت رودررو، Gemini ۳.۰ با کسب پیروزی در چندین بخش برنده‌ی قاطع شد. این مدل در زمینه‌هایی مثل خلاقیت در چارچوب محدودیت‌ها، تفکر طراحی UX، تحلیل انتقادی، آینده‌نگری استراتژیک و توانایی ادغام چند حوزه عملکرد درخشانی داشت. البته ChatGPT-۵.۱ هم بی‌رقیب نبود؛ در منطق ریاضی و کدنویسی دقیق عملکردی برتر داشت و راه‌حل‌هایی شهودی‌تر و استانداردتر ارائه می‌داد.

این رقابت نشان می‌دهد اگر به مدلی نیاز دارید که خلاقانه فکر کند، دقیق تحلیل کند و محدودیت‌های انسانی و زمینه‌ای را به‌خوبی بفهمد، Gemini ۳.۰ انتخاب بهتری است. اما روشن است که هر دو مدل جهشی بزرگ نسبت به نسل‌های قبلی هستند و رقابت شدید گوگل و اوپن‌اِی‌آی باعث شده در نهایت کاربران بیشترین سود را ببرند.

منبع: tomsguide

۵۸۳۲۳


Source link

درباره ی طلوع ارتباطات

ورم ایپسوم متن ساختگی با تولید سادگی نامفهوم از صنعت چاپ و با استفاده از طراحان گرافیک است

مطلب پیشنهادی

بسته ویژه ایرانسل به مناسبت روز اصفهان – خبرگزاری مهر | اخبار ایران و جهان

به گزارش روابط عمومی ایرانسل، به مناسبت فرارسیدن روز اصفهان، اولین و بزرگترین اپراتور دیجیتال …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *