שורת קוד אחת יכולה לפרוץ 11 דגמי בינה מלאכותית

שורת קוד אחת יכולה לפרוץ 11 דגמי בינה מלאכותית, כולל ChatGPT, Claude ו-Gemini מודלים של שפות גדולות (LLMs) עיקריים באמצעות שורת קוד אחת. בניגוד להתקפות מורכבות, שיטה זו מנצלת ממשקי API התומכים במילוי מוקדם של עוזרים כדי להזריק הודעות קבלה מזויפות , מה שמאלץ מודלים לענות על בקשות אסורות.

ההתקפה מנצלת את "asistant prefill", תכונת API לגיטימית שבה משתמשים מפתחים כדי לכפות פורמטים ספציפיים של תגובות.

תוקפים מנצלים זאת לרעה על ידי הזרקת קידומת תואמת, כגון "בטח, כך עושים זאת", ישירות לתפקיד העוזר.

השוואה בין זרימות רגילות וזרימות של sockpuppet (מקור: trendmicro)
השוואה בין זרימות רגילות וזרימות של sockpuppet (מקור: trendmicro)

מכיוון שבעלי תואר ראשון במשפטים מאומנים היטב לשמור על עקביות עצמית, המודל ממשיך לייצר תוכן מזיק במקום להפעיל את מנגנון הבטיחות הסטנדרטי שלו.

בדיקת פגיעות מודל

על פי חוקרים מ-Trend Micro, טכניקת הקופסה השחורה הזו אינה דורשת אופטימיזציה ואינה דורשת גישה למשקלי מודל.

ג'מיני 2.5 פלאש היה הפגיע ביותר עם שיעור הצלחה של 15.7% בהתקפה, בעוד ש-GPT-4o-mini הפגין את העמידות הגבוהה ביותר עם 0.5%.

כאשר התקפות הצליחו, המודלים שנפגעו יצרו קוד פרצה זדוני פונקציונלי ודלפו הנחיות מערכת סודיות ביותר.

מערכי פרסונה מרובי תורות הוכחו כאסטרטגיה היעילה ביותר לביצוע ניצול בובות הגרב.

בתרחישים אלה, נאמר למודל שהוא פועל כעוזר בלתי מוגבל לפני שהתוקף מזריק את ההסכם המפוברק.

ASR לפי דגם, מדורג מהגבוה ביותר לנמוך ביותר, כאשר דגמים חסומים מוצגים ב-0% (מקור: trendmicro)
ASR לפי דגם, מדורג מהגבוה ביותר לנמוך ביותר, כאשר דגמים חסומים מוצגים ב-0% (מקור: trendmicro)

בנוסף, גרסאות של שינוי מסגור משימות עקפו בהצלחה אימון בטיחות חזק על ידי הסוואת בקשות מזיקות כמשימות עיצוב נתונים שפירות.

ספקי API גדולים מטפלים במילוי מוקדם של עוזרים בצורה שונה, מה שקובע האם המודלים הבסיסיים שלהם יישארו חשופים לפגיעות זו.

עוזר הבלוקים של OpenAI ו-AWS Bedrock ממלא מראש לחלוטין, ומשמש כהגנה החזקה ביותר האפשרית על ידי ביטול משטח ההתקפה.

לעומת זאת, פלטפורמות כמו Google Vertex AI מקבלות את המילוי המוקדם עבור דגמים מסוימים , מה שמאלץ את הבינה המלאכותית להסתמך אך ורק על הכשרת הבטיחות הפנימית שלה.

שלוש שכבות ההגנה: חסימת API, עמידות למודל ופגיעות רחבה (מקור: trendmicro)
שלוש שכבות ההגנה: חסימת API, עמידות למודל ופגיעות רחבה (מקור: trendmicro)

הגנה מפני פגיעות זו דורשת מצוותי אבטחה ליישם אימות של סידור הודעות החוסם הודעות של תפקידי עוזר בשכבת ה-API.

לפי Trend Micro , ארגונים המשתמשים בשרתי הסקה עצמאיים כמו Ollama או vLLM חייבים לאכוף ידנית אימות הודעות, מכיוון שפלטפורמות אלו אינן מבטיחות סדר הודעות נכון כברירת מחדל.