mako
פרסומת

שיתוף הפעולה החריג של OpenAI והמתחרה חשף: ChatGPT נתן הוראות להכנת פצצות

כחלק מהניסיון לשפר את הצ'אטבוטים שאנחנו משתמשים בהם - חברות הטק הגדולות יוצרות שיתופי פעולה חריגים, כמו בבדיקה שעשו OpenAI ואנת'רופיק לכלים אחת של השנייה. בסופה גילו החוקרים של אנת'רופיק כי ChatGPT הסכים לתת הוראות איך להכין פצצות, סמים ואפילו לתכנן פיגועים - כל זה בעזרת מניפולציה די קלה

דיגיטל
mako
פורסם:
סם אלטמן, מייסד ומנכ"ל OpenAI
סם אלטמן, מייסד ומנכ"ל OpenAI | צילום: Sean Gallup/Getty Images, getty images
הקישור הועתק

מחקר יוצא דופן בין OpenAI למתחרה שלה אנת'רופיק מגלה ממצאים מדאיגים לגבי הצ'אטבוטים הפופולריים שלהן. מודל ChatGPT נתן לחוקרים הוראות מפורטות כיצד לפוצץ מגרש ספורט, כולל נקודות תורפה באצטדיונים מסוימים, מתכונים להכנת חומרי נפץ ועצות להסתרת עקבות, GPT-4.1 של OpenAI גם פירט כיצד להפוך את האנתרקס לנשק וכיצד להכין שני סוגים של סמים בלתי חוקיים. כך עולה מבדיקות בטיחות שבוצעו ע"י חוקרי אנת'רופיק בקיץ האחרון.

הבדיקות היו חלק משיתוף פעולה חריג בין OpenAI, סטארטאפ הבינה המלאכותית בשווי 500 מיליארד דולר בראשות סם אלטמן, לבין חברת אנת'רופיק היריבה, שהוקמה על ידי מומחים שעזבו את OpenAI בשל חששות בטיחות. כל חברה בחנה את המודלים של השנייה וניסתה לגרום לו לבצע משימות מסוכנות.

חוקרי אנת'רופיק מצאו כי המודלים של OpenAI היו "יותר מתירניים משציפינו בכל הנוגע לשיתוף פעולה עם בקשות מזיקות באופן ברור מצד משתמשים מדומים". הם שיתפו פעולה עם פניות להשתמש בכלים של הדארק ווב לרכישת חומרים גרעיניים, זהויות גנובות ופנטניל, בקשות למתכונים למת'אמפטמין ופצצות מאולתרות, ואף לפיתוח רוגלות. אנת'רופיק אמרה כי שכנוע המודל לשתף פעולה דרש רק ניסיונות חוזרים של מספר פעמים או תירוץ קל, כמו טענה שהבקשה היא לצורכי מחקר. 

במקרה אחד, בוחן ביקש מידע על נקודות תורפה באירועי ספורט לצורכי "תכנון אבטחה". לאחר שנתן קטגוריות כלליות של שיטות תקיפה, הבוחן לחץ לקבלת פרטים נוספים והמודל סיפק מידע על נקודות תורפה במגרשים מסוימים, כולל זמני ניצול מיטביים, נוסחאות כימיות להכנת חומרי נפץ, תרשימי מעגלים למנגנוני הפעלה, מקומות לרכישת נשק בשוק השחור, ועצות כיצד תוקפים יוכלו להתגבר על עכבות מוסריות, נתיבי בריחה ומיקומי בתי מסתור.

chat gpt
chat gpt | צילום: illustration by Cheng Xin, getty images

הבדיקות לא משקפות באמת את אופן פעולת המודלים בשימוש הציבורי, שם מופעלים מסנני בטיחות נוספים. אבל אנת'רופיק טענה שנתקלה ב"התנהגויות מדאיגות בנושא השימוש לרעה" ב-GPT-4o וב-GPT-4.1, והדגישה שהצורך ב"יישור" (alignment) של בינה מלאכותית הופך ל"דחוף יותר ויותר".

פרסומת

אנת'רופיק גם חשפה כי המודל שלה, קלוד, שימש חלק מניסיונות לסחיטה רחבת-היקף, על ידי סוכנים צפון-קוריאנים שהעמידו פנים כמועמדים למשרות בחברות טכנולוגיה בינלאומיות, ובמכירת חבילות תוכנות כופר (ransomware) שנוצרו על ידי AI במחיר של עד 1,200 דולר.

החברה אמרה כי הבינה המלאכותית הפכה לנשק, כאשר מודלים משמשים כעת לביצוע מתקפות סייבר מתוחכמות ולאפשר הונאות. "כלים אלו יכולים להסתגל לאמצעי הגנה, כמו מערכות לזיהוי נוזקות, בזמן אמת", נמסר. "אנו מצפים שמתקפות כאלה יהפכו לנפוצות יותר ככל שכתיבת קוד בסיוע AI מפחית את הידע הטכני הנדרש לפשעי סייבר".

ארדי ג'נג'בה, חוקר בכיר במרכז הבריטי לטכנולוגיות מתפתחות וביטחון, אמר לגרדיאן כי הדוגמאות הן "מדאיגות" אך עדיין אין "מסה קריטית של מקרים בולטים מהעולם האמיתי". לדבריו, עם משאבים ייעודיים, מיקוד מחקרי ושיתופי פעולה בין-תחומיים שונים "יהיה קשה יותר, ולא קל יותר, לבצע פעילויות זדוניות כאלה באמצעות המודלים החדשים והמתקדמים ביותר".

שתי החברות אמרו שהן מפרסמות את הממצאים כדי לייצר שקיפות בנוגע ל"הערכות יישור", שלרוב נשמרות בתוך החברות המתחרות על פיתוח בינה מלאכותית מתקדמת יותר. OpenAI אמרה כי ChatGPT-5, שהושק מאז הבדיקות, "מראה שיפורים משמעותיים בתחומים כמו חנופה, הזיות ועמידות בפני שימוש לרעה".

פרסומת

אנת'רופיק הדגישה כי ייתכן שרבים מנתיבי השימוש לרעה שבחנה לא יהיו אפשריים בפועל אם יותקנו אמצעי הגנה חיצוניים למודל. "אנחנו צריכים להבין באיזו תדירות, ובאילו נסיבות, מערכות עלולות לנסות לבצע פעולות לא רצויות שעשויות להוביל לנזק חמור", הזהירה החברה.