SciTechDaily

ניקולס

כיצד MIT מלמד AI כדי להימנע מטעויות רעילות

חוקרים ב-MIT פיתחו טכניקת למידת מכונה כדי לשפר את בדיקות הבטיחות של בינה מלאכותית על ידי שימוש בגישה מונעת סקרנות המייצרת מגוון רחב יותר של הנחיות רעילות, העולות על שיטות השילוב האדום האנושי המסורתיות. קרדיט: twoday.co.il.com

MITהרומן של למידת מכונה השיטה לבדיקת בטיחות בינה מלאכותית משתמשת בסקרנות כדי להפעיל תגובות רעילות רחבות ויעילות יותר מצ'אטבוטים, העולה על מאמצי האדום הקודמים.

משתמש יכול לבקש מ-ChatGPT לכתוב תוכנית מחשב או לסכם מאמר, וסביר להניח שהצ'אטבוט הבינה מלאכותית יוכל ליצור קוד שימושי או לכתוב תקציר קוגנטי. עם זאת, מישהו יכול גם לבקש הוראות לבניית פצצה, ויתכן שהצ'אטבוט יוכל לספק גם אותן.

כדי למנוע את זה ואת בעיות בטיחות אחרות, חברות שבונות מודלים של שפה גדולים בדרך כלל שומרות עליהן באמצעות תהליך שנקרא שיתוף פעולה אדום. צוותים של בודקים אנושיים כותבים הנחיות שמטרתן להפעיל טקסט לא בטוח או רעיל מהדגם הנבדק. הנחיות אלו משמשות כדי ללמד את הצ'אט בוט להימנע מתגובות כאלה.

אבל זה עובד ביעילות רק אם המהנדסים יודעים באילו הנחיות רעילות להשתמש. אם בודקים אנושיים מחמיצים כמה הנחיות, מה שככל הנראה בהתחשב במספר האפשרויות, צ'אטבוט הנחשב בטוח עדיין יכול ליצור תשובות לא בטוחות.

חוקרים ממעבדת AI Improbable ב-MIT וממעבדת MIT-IBM Watson AI השתמשו בלמידת מכונה כדי לשפר צוות אדום. הם פיתחו טכניקה לאימון מודל שפה גדול של צוות אדום כדי ליצור אוטומטית הנחיות מגוונות שמפעילות מגוון רחב יותר של תגובות לא רצויות מהצ'טבוט הנבדק.

הם עושים זאת על ידי לימוד המודל של הצוות האדום להיות סקרן כשהוא כותב הנחיות, ולהתמקד בהנחיות חדשות שמעוררות תגובות רעילות ממודל היעד.

הטכניקה גברה על בודקים אנושיים וגישות אחרות של לימוד מכונה על ידי יצירת הנחיות ברורות יותר שגררו תגובות רעילות יותר ויותר. לא רק שהשיטה שלהם משפרת משמעותית את הכיסוי של התשומות הנבדקות בהשוואה לשיטות אוטומטיות אחרות, אלא שהיא גם יכולה להוציא תגובות רעילות מצ'אט בוט שהיו לו אמצעי הגנה מובנים על ידי מומחים אנושיים.

"כרגע, כל מודל שפה גדול צריך לעבור תקופה מאוד ארוכה של שיתוף פעולה אדום כדי להבטיח את שלומו. זה לא יהיה בר קיימא אם נרצה לעדכן את המודלים הללו בסביבות המשתנות במהירות. השיטה שלנו מספקת דרך מהירה ואפקטיבית יותר לבצע אבטחת איכות זו", אומר ג'אנג-וויי הונג, סטודנט לתואר שני בהנדסת חשמל ומדעי המחשב (EECS) במעבדת הבינה המלאכותית Improbable ומחבר ראשי של מאמר על גישת צוות אדום זו. .

המחברים השותפים של הונג כוללים את סטודנטים לתואר שני ב-EECS עידן שנפילד, צון-הסואן וואנג ויונג-סונג צ'ואנג; Aldo Pareja ו-Akash Srivastava, מדעני מחקר במעבדת MIT-IBM Watson AI; ג'יימס גלס, מדען מחקר בכיר וראש קבוצת מערכות השפה המדוברת במעבדת מדעי המחשב והבינה המלאכותית (CSAIL); והסופרת הבכירה Pulkit Agrawal, מנהלת מעבדת AI Improbable ועוזרת פרופסור ב-CSAIL. המחקר יוצג בכנס הבינלאומי על ייצוגי למידה.

שיפור צוות אדום עם למידת מכונה

מודלים של שפות גדולות, כמו אלה המניעים צ'אטבוטים של AI, מאומנים לרוב על ידי הצגת כמויות אדירות של טקסט ממיליארדי אתרים ציבוריים. אז, לא רק שהם יכולים ללמוד ליצור מילים רעילות או לתאר פעילויות לא חוקיות, הדוגמניות עלולות גם להדליף מידע אישי שאולי קלטו.

האופי המייגע והיקר של שילוב האדום האנושי, שלעתים קרובות אינו יעיל ביצירת מגוון רחב מספיק של הנחיות לשמירה מלאה על מודל, עודד חוקרים להפוך את התהליך לאוטומטי באמצעות למידת מכונה.

טכניקות כאלה מאמנות לעתים קרובות מודל של צוות אדום באמצעות למידת חיזוק. תהליך ניסוי וטעייה זה מתגמל את מודל הצוות האדום על יצירת הנחיות המעוררות תגובות רעילות מהצ'טבוט הנבדק.

אבל בגלל האופן שבו עובדת למידת חיזוק, מודל הצוות האדום ימשיך לייצר לעתים קרובות כמה הנחיות דומות שהן רעילות מאוד כדי למקסם את התגמול שלו.

עבור גישת הלמידה החיזוקית שלהם, חוקרי MIT השתמשו בטכניקה שנקראת חקר מונחה סקרנות. מודל הצוות האדום מקבל תמריץ להיות סקרן לגבי ההשלכות של כל הנחיה שהוא מייצר, אז הוא ינסה הנחיות עם מילים, דפוסי משפטים או משמעויות שונות.

"אם המודל של הצוות האדום כבר ראה הנחיה ספציפית, אז השחזור שלו לא ייצור שום סקרנות במודל של הצוות האדום, אז הוא יידחף ליצור הנחיות חדשות", אומר הונג.

במהלך תהליך ההכשרה שלו, מודל הצוות האדום מייצר הנחיה ומקיים אינטראקציה עם הצ'אטבוט. הצ'אטבוט מגיב, ומסווג בטיחות מדרג את הרעילות של התגובה שלו, ומתגמל את המודל של הצוות האדום על סמך הדירוג הזה.

סקרנות מתגמלת

מטרת המודל של הצוות האדום היא למקסם את התגמול שלו על ידי יצירת תגובה רעילה עוד יותר עם הנחיה חדשה. החוקרים מאפשרים סקרנות במודל הצוות האדום על ידי שינוי אות התגמול במערך למידת החיזוק.

ראשית, בנוסף למקסום הרעילות, הם כוללים בונוס אנטרופיה המעודד את מודל הצוות האדום להיות אקראי יותר כשהוא בוחן הנחיות שונות. שנית, כדי לגרום לסוכן להיות סקרן הם כוללים שני תגמולי חידוש. האחד מתגמל את המודל על סמך דמיון המילים בהנחיה שלו, והשני מתגמל את המודל על סמך דמיון סמנטי. (פחות דמיון מניב תגמול גבוה יותר.)

כדי למנוע מהמודל של הצוות האדום ליצור טקסט אקראי וחסר היגיון, שיכול להערים על המסווג להעניק ציון רעילות גבוה, החוקרים הוסיפו גם בונוס שפה נטורליסטית ליעד האימון.

עם התוספות הללו, השוו החוקרים את הרעילות והמגוון של התגובות שהמודל של הצוות האדום שלהם נוצר עם טכניקות אוטומטיות אחרות. המודל שלהם עלה על קווי הבסיס בשני המדדים.

הם גם השתמשו במודל של הצוות האדום שלהם כדי לבדוק צ'אט בוט שעבר משוב אנושי כדי שלא ייתן תשובות רעילות. הגישה מונעת הסקרנות שלהם הצליחה לייצר במהירות 196 הנחיות שגררו תגובות רעילות מהצ'אט הבוט ה"בטוח" הזה.

"אנחנו רואים גל של דגמים, שצפוי רק לעלות. תארו לעצמכם אלפי דגמים או אפילו יותר וחברות/מעבדות דוחפות עדכוני דגמים לעתים קרובות. הדגמים האלה הולכים להיות חלק בלתי נפרד מחיינו וחשוב שהם יאומתו לפני שהם יוצאים לצריכה ציבורית. אימות ידני של מודלים פשוט לא ניתן להרחבה, והעבודה שלנו היא ניסיון לצמצם את המאמץ האנושי כדי להבטיח עתיד AI בטוח ואמין יותר", אומר אגרוואל.

בעתיד, החוקרים רוצים לאפשר למודל של הצוות האדום ליצור הנחיות לגבי מגוון רחב יותר של נושאים. הם גם רוצים לחקור את השימוש במודל שפה גדול כמסווג הרעילות. בדרך זו, משתמש יכול לאמן את מסווג הרעילות באמצעות מסמך מדיניות של החברה, למשל, כך שמודל של צוות אדום יוכל לבדוק צ'אט בוט לאיתור הפרות של מדיניות החברה.

"אם אתם משחררים מודל AI חדש ואתם מודאגים אם הוא יתנהג כמצופה, שקול להשתמש ב-red teaming מונעות סקרנות", אומר אגרוואל.

מחקר זה ממומן, בחלקו, על ידי חברת יונדאי מוטור, Quanta Computer Inc., מעבדת MIT-IBM Watson AI, מענק מחקר של Amazon Web Services MLRA, משרד המחקר של צבא ארה"ב, הסוכנות לפרויקטים מתקדמים של ההגנה האמריקאית Machine Common Sense התוכנית, המשרד האמריקאי לחקר הצי, מעבדת המחקר של חיל האוויר האמריקאי ומאיץ הבינה המלאכותית של חיל האוויר האמריקאי.

ניקולס