چند روز قبل OpenAI از مدل پیشرفته o3 خود رونمایی کرد. فقط افراد کمی آن را تست کردهاند اما بنچمارکها نشاندهنده عملکرد خیرهکننده آن هستند. این مدل نشان میدهد هنوز میتوان با افزایش مقیاس دادههای آموزشی، مدلهای پیشرفتهتری تولید کرد اما مسئله هزینه بسیار بالای این مدل برای تولید هر پاسخ مطرح است.
براساس گزارش تک کرانچ، OpenAI برای آموزش مدل o3 از روشی موسوم به «مقیاسبندی زمان آموزش» یا Test-time scaling بهره برده است و بنچمارکها نیز موفقیت این روش را نشان میدهند؛ برای مثال مدل o3 در آزمون ریاضی دشواری که هیچ مدل هوش مصنوعی دیگری در آن امتیازی بیش از 2 درصد کسب نکرده بود، 25 درصد امتیاز گرفته است.
نکته عجیبتر این است که به گفته «نوام براون»، یکی از سازندگان مدلهای OpenAI، این شرکت فقط 3 ماه پس از رونمایی o1، مدل جدید o3 را معرفی کرده که برای چنین جهش بزرگی نسبتاً کوتاه است.
هزینه بالای مدل o3 برای تولید هر پاسخ
برخی کارشناسان حوزه هوش مصنوعی مانند «ایلیا ساتسکیور»، از بنیانگذاران OpenAI، اعتقاد دارند روش فعلی آموزش مدلهای هوش مصنوعی به بنبست رسیده و نمیتوان با همین روش مدلهای قویتری تولید کرد. اخیراً مدل o3 در مدت کمی توانسته عملکرد بسیار بهتری نسبت به مدل قبلی خود ارائه دهد.
«جک کلارک»، یکی از بنیانگذاران آنتروپیک، نیز دیروز در مطلبی وبلاگی گفت o3 شاهدی است بر اینکه سال 2025 پیشرفت هوش مصنوعی سریعتر از 2024 خواهد بود. کلارک میگوید سال آینده میلادی، دنیای هوش مصنوعی روش مقیاسبندی زمان آزمایش و روشهای سنتی مقیاسبندی را با هم ترکیب خواهد کرد تا بازدهی بیشتری از مدلهای هوش مصنوعی به دست بیاورد.
مقیاسبندی زمان آموزش یعنی OpenAI در مرحله استنتاج ChatGPT از توان پردازشی بیشتری استفاده میکند. البته دقیقاً مشخص نیست پشت صحنه چه اتفاقی میافتد: OpenAI یا از تراشههای کامپیوتری بیشتر و قویتری برای پاسخ به سؤال کاربر بهره میبرد یا آن تراشهها را برای مدت طولانیتری (در برخی موارد 10 تا 15 دقیقه) اجرا میکند اما هر کاری OpenAI انجام میدهد، بسیار هزینهبر است؛ نمودار پایین را ببینید:
کلارک به عملکرد o3 در بنچمارک ARC-AGI (آزمونی دشوار که برای ارزیابی پیشرفتها در زمینه رسیدن به هوش جامع مصنوعی (AGI) استفاده میشود.) اشاره میکند. البته به گفته سازندگان این آزمون، گذراندن آن به معنای دستیافتن مدل هوش مصنوعی به AGI نیست، بلکه یکی از راههای سنجش پیشرفت در مسیر این هدف مبهم است.
نمرات مدل o3 در این بنچمارک از تمام مدلهای قبلی بیشتر است و موفق به کسب 88 درصد امتیاز شده؛ برای مثال نمره مدل o1 حدود 32 درصد است. شاید این خبر خوبی باشد اما محور x لگاریتمی این نمودار هشداردهنده است. این مدل برای تولید هر پاسخ به بیش از هزار دلار نیاز دارد. درحالیکه هزینه مدل o1 حدود 5 دلار و o1-mini فقط چند سنت است.
اگرچه OpenAI از توان پردازشی گرانی برای هر پاسخ استفاده میکند، نمیتوان منکر عملکرد خارقالعاده مدل آن را شد اما جا دارد چند سؤال را مطرح کنیم: اگر مدل o3 چنین هزینهای دارد، OpenAI در مدلهای بعدی، o4 و o5، چقدر میخواهد توان پردازشی را بیشتر کند، با چه میزان هزینه؟ مطمئناً این هزینهها در آخر باعث میشود اشتراکهای این مدلها بسیار گران باشند و تمام کاربران نتوانند از آن استفاده کنند.