mako
פרסומת

מבחן הבינה המלאכותית הגדול: חוקרים ישראלים בדקו מה המודל שכותב קוד באופן הטוב ביותר

שלושה סטודנטים מבית הספר למערכות מידע במכללה האקדמית תל אביב יפו בדקו ארבעה כלי AI נפוצים - ChatGPT, קופיילוט, ג'מיני וקלוד, וקבעו מי נתן את המענה הכי איכותי לפתרון בעיות תכנות בשפת פייתון. הממצאים, שפורסמו בכתב עת בין-לאומי, הכתירו את ChatGPT במקום הראשון, ומיד אחריו את קופיילוט. כל הפרטים

דנה גוטרזון
פורסם: | עודכן:
ChatGPT, ג'מיני, קלוד, קופיילוט
ChatGPT, ג'מיני, קלוד, קופיילוט | צילום: jackpress, shutterstock
הקישור הועתק

ChatGPT שוחרר לראשונה לפני כמעט שלוש שנים, בנובמבר 2022, ואף על פי שתמיד האקדמיה קצת מפגרת אחרי המציאות, מספר מחקרים סביב ההשלכות מרחיקות הלכת של הבינה המלאכותית מתפרסמים בימים אלו.

אחד מהם הוא מחקר ישראלי חדש שבוצע במכללה האקדמית תל אביב יפו, ופורסם בכתב העת Information Systems Student Research.Journal, ובדק כיצד כלים מובילים לבינה מלאכותית גנרטיבית מתמודדים עם כתיבת קוד בשפת התכנות הנפוצה פייתון, ומה איכות הקוד שהם מפיקים. את המחקר ביצעו שלושה סטודנטים מבית הספר למערכות מידע, סלאמה אזברגה, מאריו סבאג ועלי מוגרבי, בהנחיית ד"ר עידן רוט מבית הספר למערכות מידע במכללה האקדמית תל אביב יפו.

במסגרת המחקר הושוו ארבעה כלים נפוצים: ChatGPT של OpenAI, קופיילוט (Copilot) של מיקרוסופט, קלוד של אנת'רופיק וג'מיני של גוגל, ונבדקו שלושה ממדי איכות מרכזיים של הקוד: נכונות, קריאות ויעילות.

העבודה התבססה על 40 בעיות תכנות מאתר LeetCode (פלטפורמה שמשמשת מתכנתים לתרגול לפני ראיונות עבודה), שנבחרו באקראי ונפרסו על פני שלוש רמות קושי. ההערכה נערכה בשני שלבים. בשלב הראשון הותאמו 10 בעיות לכל אחד מארבעת הכלים כדי לזהות את המובילים. לאחר מכן הושוו בשלב השני שני הכלים החזקים שעלו מהסבב הראשון ב-30 בעיות נוספות. בכל שלב נבחנו שלושת ממדי האיכות על פי מדדים מוגדרים מראש.

לפי הממצאים, ChatGPT דורג ראשון במבחן הראשוני ברוב המדדים ואחריו קופיילוט ואז קלוד ובמקום האחרון ג'מיני.

בשלב השני שבחן על פני 30 בעיות, ChatGPT הפיק 17 פתרונות נכונים לחלוטין לעומת 12 של Copilot. במדד הקריאות שני הכלים קיבלו ציונים דומים מאוד בממוצע של 82.3 אחוז ל-ChatGPT לעומת 83.7 אחוז ל-Copilot. החוקרים מציינים כי אף שהיו פערים מספריים, הם לא נמצאו מובהקים סטטיסטית ומכאן שניתן לראות בשני הכלים שעברו לשלב השני, כשווי ערך ברמה הכללית.

סלאמה אזברגה, מאריו סבאג ועלי מוגרבי
סלאמה אזברגה, מאריו סבאג ועלי מוגרבי, המכללה האקדמית תל אביב יפו | צילום: כפיר סיון

איך דירגו את איכות הקוד?

הערכת האיכות כללה מדדים ברורים. נכונות, כלומר האם הקוד באמת עובד, נבדקה בסולם של חמישה מצבים, החל מקוד שעובר את כל המבחנים ועד שגיאת זמן ריצה (כלומר שגיאה המתרחשת בזמן ביצוע תוכנית). קריאות, כלומר האם הקוד קל להבנה, נמדדה לפי רשימת בדיקה שעסקה באורך שורות ופונקציות, מספר ארגומנטים, שימוש בשמות ברורים והקפדה על סגנון כתיבה. יעילות, כלומר כמה זמן וזיכרון הקוד צורך, הוערכה תאורטית לפי סיבוכיות זמן (הערכה של משך הזמן הנדרש לאלגוריתם כדי לסיים את פעולתו) ומקום (הערכה של כמות הזיכרון, שטח האחסון, שהאלגוריתם צורך).

בבדיקות המובהקות הסטטיסטית התקבלו תוצאות זהירות. בנכונות הקוד לא התגלה הבדל מובהק בין ChatGPT לקופיילוט. המשמעות היא שהכלים מפיקים קוד נכון וקריא ברוב המקרים והפערים ביניהם קטנים.

לצד זאת ניכרת שונות מסוימת בפרטים. קופיילוט נטה להפיק פתרונות חסכוניים יותר בזיכרון, בעוד  ChatGPT הצטיין בנכונות גבוהה ובמבנה קוד מסודר. החוקרים מדגישים שאין כלי אחד שהוא הטוב לכל שימוש, וכל כלי מציע יתרונות שונים שיכולים להתאים להקשרים מגוונים כמו למידה והדרכה או פיתוח מהיר במערכות ייצור.

פרסומת

למחקר מספר מגבלות, בהן מדגם מוגבל של בעיות אלגוריתמיות קצרות בשפת פייתון בלבד, מה שעשוי להגביל את היכולת להשליך ממנו על סוגי פרויקטים אחרים. כמו כן הכלים מתעדכנים בקצב מהיר, והתוצאות משקפות את מצבם ביוני 2024. החוקרים מציעים לבחון בעתיד שפות נוספות ומדדי איכות נוספים כמו תחזוקתיות ואבטחה.

ד"ר עידן רוט
ד"ר עידן רוט מבית הספר למערכות מידע במכללה האקדמית תל אביב יפו | צילום: אייל וייס

שורה תחתונה

סיכום מדרג התוצאות הסופי ממקם את ChatGPT במקום הראשון בזכות השילוב של נכונות גבוהה וקריאות מצוינת. קופיילוט במקום השני הודות ליעילות גבוהה וביצועים עקביים. קלוד במקום השלישי עם ביצועים בינוניים בשני המדדים המרכזיים וג'מיני במקום הרביעי בשל שיעור פתרונות נכונים נמוך ויעילות מוגבלת. התמונה הכוללת מצביעה על כך שכלי הבינה המלאכותית המובילים כבר מסוגלים להפיק קוד איכותי ושמיש, אך עדיין יש צורך בפיקוח אנושי כדי להבטיח עמידה מלאה בדרישות הפיתוח.

בהתבסס על הממצאים, ChatGPT מציג חוזק בנכונות ובמבנה קוד, מה שהופך אותו לבעל ערך במיוחד למתכנתים מתחילים או במסגרות חינוכיות שבהן בהירות והסבר חשובים. קופיילוט מצטיין ביעילות קוד ובתמציתיות, מה שמועיל למפתחים מקצועיים שמעדיפים מהירות. קלוד וג'מיני, אף על פי שהם חדשניים, מפגרים כיום הן בנכונות והן ביעילות, אם כי יכולותיהם המולטי-מודליות מצביעות על פוטנציאל ליישומים רחבים יותר מקידוד.