אני מציע מדד חדש, לא נבדוק איזה מודל חכם יותר אלא כמה זמן הוא מחזיק מעמד בראש הטבלה.
OpenAI משיקה את GPT-4.5: מודל הבינה המלאכותית "הגדול בעולם" (נשמע לכם מוכר).
המודל החדש, ששוחרר כבטא מחקר (Research Preview), מציג שיפורים משמעותיים באיכות השיחה, הפחתת הזיות ותחושה טבעית יותר – אך במחיר גבוה משמעותית מהמודלים הקודמים.
המודל GPT-4.5 זמין בשלב זה למשתמשי ChatGPT Pro ולמפתחים, כאשר משתמשי Plus ו-Team צפויים לקבל גישה בשבוע הבא.
לפי ההכרזה של OpenAI המודל החדש שמוכר גם בשם Orion, הוא המודל הגדול ביותר שאי פעם אימנה החברה – ואף ייתכן שהוא מודל הבינה המלאכותית הגדול בעולם.
בניגוד למודלים מסדרת o והמודל החדש o3-mini, שמשתמשים בגישה מבוססת "היגיון" (reasoning), GPT-4.5 ממשיך את המסורת של מודלים גדולים קלאסיים, כשהשיפור העיקרי שלו מגיע מהגדלת כמות הנתונים ושיפור תהליכי האימון.
למרות עוצמתו, מציינים ב OpenAI שהם לא רואים בו מודל "פורץ דרך" לעומת מודלים עתידיים שהיא צפויה לשחרר.
במבחני ביצועים, GPT-4.5 הפגין שיפורים ניכרים בתחומים כמו בדיקת SimpleQA בה הוא הציג עלייה חדה בדיוק מ-38.2% (GPT-4o) ל-62.5%, וכן ירידה משמעותית בשיעור ההזיות מ-61.8% ל-37.1%.
במבחנים רב-לשוניים (MMMLU) ורב-מודליים (MMMU), הוא מציג תוצאות טובות יותר מקודמיו עם ציונים של 85.1% ו-74.4% בהתאמה.
עם זאת, בתחומים כמו מתמטיקה (AIME '24) הוא אמנם טוב יותר מ-GPT-4o (36.7% לעומת 9.3%), אך נופל משמעותית לעומת o3-mini (87.3%).
במבחני תכנות, הוא מציג שיפור ב-SWE-Lancer Diamond Test (32.6% לעומת 23.3% של GPT-4o), אך נותר מאחור במבחנים כמו SWE-Bench Verified Test (38.0% לעומת 61.0% של o3-mini).
סם אלטמן, מנכ"ל OpenAI, תיאר את המודל כ"ראשון שמרגיש כמו שיחה עם אדם חושב". לדבריו, המודל אולי לא שובר שיאים בבנצ'מרקים, אך יש לו קסם מיוחד שהופך את השיחה לחוויה עמוקה יותר.
אנדריי קרפתי, ממייסדי OpenAI, הסביר כי כל קפיצה של 0.5 בגרסאות משקפת בערך פי עשרה יותר חישובים באימון, אך הדגיש כי ההתקדמות אינה תמיד מוחשית במספרים – אלא בתחושת השימוש.
המודל החדש יוצר עניין רב בקהילה, במיוחד בשל השיפור בתחושת ה"שיחה הטבעית" עם AI. עם זאת, מחירו הגבוה – 75 דולר למיליון טוקנים נכנסים ו-150 דולר למיליון טוקנים יוצאים – מעורר תהיות לגבי זמינותו לשימוש רחב בעתיד.
קישור ל System card
קישור למידע נוסף