شرکت چینی Alibaba از مدل هوش مصنوعی دارای قابلیت استدلال جدیدی با نام Qwen with Questions (یا QwQ) رونمایی کرده است که رقیب جدید مدل o1 از OpenAI به حساب می‌آید.

مدلی که Alibaba معرفی کرده، شامل 32.5 میلیارد پارامتر است و می‌تواند به درخواست‌هایی با حداکثر 32 هزار توکن پاسخ بدهد. مانند دیگر مدل‌های بزرگ دارای قابلیت استدلال (LRM)، هوش مصنوعی QwQ نیز در طول استنتاج خود برای بررسی پاسخ‌هایی که می‌خواهد به کاربر ارائه کند و تصحیح اشتباهات، از چرخه‌های محاسباتی بیشتری استفاده می‌کند.

به همین دلیل برای کارهایی که به استدلال منطقی و برنامه‌ریزی نیاز دارند، مانند ریاضی و کدنویسی مناسب‌تر است.

عملکرد هوش مصنوعی استدلال‌گر QwQ در ریاضی و کدنویسی

طبق آزمایش‌های این شرکت، QwQ در بنچمارک‌های AIME و MATH که توانایی مدل در حل مسائل ریاضی را ارزیابی می‌کنند، o1-preview را شکست داده است. همچنین در بنچمارک GPQA (برای ارزیابی استدلال علمی) بهتر از o1-mini بوده است اما در زمینه کدنویسی، بنچمارک LiveCodeBench عملکرد بهتر o1 را نشان داده است، هرچند عملکرد QwQ از مدل‌های دیگر مانند GPT-4o و Claude 3.5 Sonnet بهتر بوده است.

هوش مصنوعی Alibaba فعلاً به‌صورت پیش‌نمایش ارائه شده. با این شرایط می‌توان گفت نسخه‌ای با عملکرد بهتر در آینده عرضه خواهد شد. این شرکت در بیانیه مربوط به معرفی مدل خود درباره عملکرد آن می‌گوید:

«از طریق اکتشافات عمیق و آزمایش‌های بی‌شمار خود، چیزی بسیار محسوس را کشف کردیم: وقتی زمانی را به اندیشیدن، پرسش و تأمل اختصاص می‌دهیم، درک مدل از ریاضیات و برنامه‌نویسی مانند گلی در برابر خورشید شکوفا می‌شود… این فرایند انعکاس دقیق و درون‌نگری منجر به پیشرفت‌های قابل‌توجهی در حل مشکلات پیچیده می‌شود.»

علی‌بابا درباره داده‌ها یا فرایندی برای آموزش مدل خود استفاده کرده هیچ مقاله‌ای منتشر نکرده اما باتوجه‌به اینکه QwQ مدلی متن‌باز است (برخلاف o1) «فرایند تفکر» آن پنهان نیست و می‌توان برای فهمیدن این موضوع که مدل هنگام حل مشکلات چگونه استدلال می‌کند، سراغ متن آن رفت.

همچنین این شرکت اشاره کرده QwQ در برخی مواقع با محدودیت‌هایی مانند ترکیب زبان‌ها یا گیرافتادن در حلقه‌های استدلال مواجه می‌شود. هم‌اکنون از طریق Hugging Face می‌توانید نسخه آزمایشی آن را امتحان کنید.

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *