המבחן שנועד להציב גבול ל-AI: החוקרים מעריכים שתוך שנה המודלים כבר עוברים אותו
מבחן HLE, שנבנה בידי יותר מ-1,000 מומחים ונחשב ל"הבחינה האחרונה של האנושות", כולל 2,500 שאלות ברמת דוקטורט ביותר מ-100 תחומים. אך קצב ההתקדמות של מודלי הבינה המלאכותית מפתיע גם את יוצריו - והציונים שלהם מזנקים במהירות

הבינה המלאכותית כבר הצליחה להדביק את הפער לבני אדם בכמה מבחנים, החל משחמט ועד זיהוי תבניות. כעת, מומחים טוענים שהם נמצאים במרחק שנה בלבד מפיצוח "הבחינה האחרונה של האנושות" (HLE), מבחן שנחשב לכזה ש-AI לא יצליח לפתור, ונכתב על ידי החוקרים המבריקים ביותר בעולם.
"בוני המודלים באמת עשו עבודה נהדרת בשיפור מודלי ההסקה הללו", אמר קלווין ג'אנג, ראש תחום המחקר ב-Scale, חברת ה-AI שעומדת מאחורי HLE, בריאיון ל"טיימס" הלונדוני. המדד הזה, שפותח כדי לבדוק עד כמה ה-AI קרובה ל"גבולות המומחיות האנושית", מורכב מ-2,500 שאלות המקיפות למעלה מ-100 תחומי התמחות שונים, החל ממיתולוגיה ועד מדע טילים.
למעלה מ-1,000 אוטוריטות מתחומי המדעים, מדעי הרוח והאומנויות תרמו ל-HLE, שתוכנן כך שיידרש רמת הבנה של דוקטורט כדי להצטיין בו, בדיוק מעבר ליכולות המומחיות של ה-AI, כך דיווח המגזין Nueroscience News. ג'אנג ציין כי המטרה הסופית הייתה ליצור "מדד אקדמי סגור, המכוון לקצה גבול היכולת של מומחים אנושיים, שרק קומץ אנשים על פני כדור הארץ באמת יכולים לפתור".
עם זאת, ביצועי הבינה המלאכותית ב-HLE השתפרו במהירות אקספוננציאלית תוך פרק זמן קצר. בעוד ש-ChatGPT ענה נכון על פחות מ-3% מהשאלות בניסיון הראשון שלו ב-2024, המתחרה של גוגל, ג'מיני, השיג 18.8% תשובות נכונות בתוך חודשים ספורים. בחודש שעבר, המספר הזה השתפר ליותר מ-45%.

ג'אנג מאמין כי בתוך שנה ה-AI יתקרב לציון מושלם, כאשר כל מי שקיבל ציון הקרוב ל-100% מוגדר "מומחה אוניברסלי". "אם באמת היה אכפת לנו מזה כדבר היחיד בחיים, אני חושבת שיכולנו להגיע לזה די מהר", התגאתה קייט אולשבסקה, מנהלת מוצר ב-Google DeepMind.
ההתקדמות המהירה הזו מרשימה במיוחד לאור המאמצים הרבים שהשקיעה Scale כדי להפוך את ה-HLE ל"חסין AI". יוצרי המבחן הציעו לפי הדיווחים פרס של 500,000 דולר למומחים שיוכלו לתרום שאלות שלא ניתן לענות עליהן בקלות באמצעות חיפוש ברשת, מה שהוביל בסופו של דבר ליותר מ-70,000 תגובות.
כל שאלה שניתן היה לענות עליה באמצעות המודלים הקיימים נפסלה, עד שהמבחן צומצם ל-2,500 מהשאלות המשוריינות ביותר בפני AI. כך למשל, הנבחנים עשויים להתבקש לתרגם כתובות עתיקות או לזהות מבנים מיקרו-אנטומיים בציפורים במהלך המבחן.
כדי להבטיח עוד יותר שהמבחן יהיה חסין מפני בינה מלאכותית, הצוות שמר את רוב התשובות חסויות, כך שמודלים עתידיים לא יוכלו לשנן אותן. "המבחן האחרון של האנושות ניצב כאחת ההערכות הברורות ביותר לפער שבין AI לבינה אנושית", הכריז ד"ר טונג נגויין, פרופסור למדעי המחשב והנדסה באוניברסיטת טקסס A&M, שתרם 73 מהשאלות (הכמות השנייה בגובהה).
הוא טען כי בעוד שחלק מהמודלים שהוזכרו הפגינו ביצועים טובים, הציונים הנמוכים של השאר ממחישים כי התהומות בין ה-AI לבינה האנושית עדיין שם. "כאשר מערכות AI מתחילות להפגין ביצועים טובים במיוחד במדדים אנושיים, מפתה לחשוב שהן מתקרבות להבנה ברמה אנושית", אמר נגויין. "אבל HLE מזכיר לנו שאינטליגנציה היא לא רק זיהוי תבניות - היא עוסקת בעומק, בהקשר ובמומחיות ספציפית".
מומחה הטכנולוגיה אמר שהמטרה הסופית לא הייתה "להכשיל" את ה-AI, אלא להמחיש את נקודות החוזק והחולשה של המערכות. הדבר יעזור לנו לבנות "טכנולוגיות בטוחות ואמינות יותר", ובו בזמן להדגים "מדוע המומחיות האנושית עדיין חשובה" - מטרה משמעותית בעולם שבו נראה שהבינה המלאכותית מחליפה אותנו בכל מגזר, ממזון מהיר ועד רפואה.
עם זאת, ה-AI הציגה כישרון מפתיע, דמוי אנוש, לפתרון בעיות, והוכיחה שכוחות העיבוד שלה אינם מוגבלים לזיכרון ושינון בלבד. בשנת 2025, בדיקות של חוקרים סינים חשפו דמיון בין ה"תפיסה" של מודלי ה-AI לבין קוגניציה אנושית, במיוחד בכל הנוגע לקיבוץ שפות. מכך הסיקו החוקרים כי המודלים "מפתחים ייצוגים מושגיים של אובייקטים הדומים לאלו של בני אדם".
