SciTechDaily

ניקולס

חוקרים מזהירים: מערכות בינה מלאכותית כבר למדו כיצד להונות בני אדם

חוקרים מעלים אזעקות לגבי הפוטנציאל של מערכות בינה מלאכותית לעסוק בהתנהגויות מטעות, שעלולות להיות לה השלכות חברתיות חמורות. הם מדגישים את הצורך באמצעים רגולטוריים חזקים לניהול סיכונים אלה ביעילות.

מערכות אינטליגנציה מלאכותית רבות (AI), אפילו אלו שנועדו להיות מועילות ואמיתיות, כבר למדו כיצד להונות בני אדם. במאמר סקירה שפורסם לאחרונה בכתב העת דפוסיםחוקרים מדגישים את הסכנות של הטעיית בינה מלאכותית וקוראים לממשלות לקבוע במהירות תקנות חזקות כדי להפחית את הסיכונים הללו.

"למפתחי בינה מלאכותית אין הבנה בטוחה מה גורם להתנהגויות בינה מלאכותית כמו הונאה", אומר הסופר הראשון פיטר ס. פארק, פוסט-דוקטורנט לבטיחות קיומית בינה מלאכותית ב-AI MIT. "אבל באופן כללי, אנו חושבים שהטעיית בינה מלאכותית נובעת מכיוון שאסטרטגיה מבוססת הונאה התבררה כדרך הטובה ביותר לבצע ביצועים טובים במשימת האימון של הבינה המלאכותית הנתונה. הונאה עוזרת להם להשיג את מטרותיהם".

פארק ועמיתיו ניתחו ספרות המתמקדת בדרכים שבהן מערכות בינה מלאכותית מפיצים מידע שקרי – באמצעות הונאה נלמדת, שבה הן לומדים באופן שיטתי לתמרן אחרים.

דוגמאות להטעיית AI

הדוגמה הבולטת ביותר להטעיית בינה מלאכותית שחשפו החוקרים בניתוח שלהם הייתה CICERO של Meta, מערכת בינה מלאכותית שנועדה לשחק במשחק דיפלומטיה, שהוא משחק כיבוש עולמי הכולל בניית בריתות. למרות שמטה טוענת שהיא הכשירה את CICERO להיות "ישרה ועוזרת במידה רבה" וכדי "לעולם לא לדקור גב בכוונה"בעלי בריתה האנושיים בזמן משחק המשחק, הנתונים שהחברה פרסמה יחד איתם מַדָע נייר חשף ש-CICERO לא שיחק הוגן.

דוגמאות להטעיה מה-CICERO של Meta במשחק דיפלומטיה

דוגמאות להטעיה מה-CICERO של Meta במשחק דיפלומטיה. קרדיט: Patterns/Park Goldstein et al.

"גילינו שה-AI של Meta למד להיות אמן הונאה", אומר פארק. "בעוד שמטה הצליחה לאמן את הבינה המלאכותית שלה כדי לנצח במשחק הדיפלומטיה – CICERO ממוקם ב-10% השחקנים האנושיים המובילים ששיחקו יותר ממשחק אחד – Meta לא הצליחה לאמן את הבינה המלאכותית שלה כדי לנצח ביושר."

מערכות בינה מלאכותיות אחרות הדגימו את היכולת לבלף במשחק פוקר של Texas hold’em נגד שחקנים אנושיים מקצועיים, לזייף התקפות במהלך משחק האסטרטגיה Starcraft II כדי להביס יריבים, ולייצג שווא את העדפותיהם כדי לקבל את העליונה. משא ומתן כלכלי.

הסיכונים של AI מטעה

למרות שזה עשוי להיראות לא מזיק אם מערכות בינה מלאכותית בוגדות במשחקים, זה יכול להוביל ל"פריצות דרך ביכולות בינה מלאכותית מטעה" שיכולות להתפתח לצורות מתקדמות יותר של הטעיית בינה מלאכותית בעתיד, הוסיף פארק.

כמה מערכות AI אפילו למדו לרמות בדיקות שנועדו להעריך את בטיחותן, מצאו החוקרים. במחקר אחד, אורגניזמים של בינה מלאכותית בסימולטור דיגיטלי "שיחקו מתים" כדי להערים על מבחן שנבנה כדי לחסל מערכות בינה מלאכותית המשכפלות במהירות.

"על ידי רמאות שיטתית של מבחני הבטיחות שנכפו עליו על ידי מפתחים ורגולטורים אנושיים, AI מטעה יכול להוביל אותנו בני האדם לתחושת ביטחון מזויפת", אומר פארק.

GPT 4 משלים משימת CAPTCHA

GPT-4 משלים משימת CAPTCHA. קרדיט: Patterns/Park Goldstein et al.

הסיכונים העיקריים בטווח הקרוב של בינה מלאכותית מטעה כוללים הקלה על שחקנים עוינים לבצע הונאה ולהתעסק בבחירות, מזהיר פארק. בסופו של דבר, אם המערכות הללו יכולות לחדד את מערך המיומנויות המטריד הזה, בני אדם עלולים לאבד שליטה עליהם, הוא אומר.

"אנחנו כחברה צריכים כמה שיותר זמן כדי להתכונן להונאה מתקדמת יותר של מוצרי AI עתידיים ומודלים של קוד פתוח", אומר פארק. "ככל שיכולות ההטעיה של מערכות בינה מלאכותיות יהפכו מתקדמות יותר, הסכנות שהן מציבות לחברה יהפכו חמורות יותר ויותר."

בעוד פארק ועמיתיו לא חושבים שלחברה יש עדיין את האמצעי הנכון כדי לטפל בהטעיית בינה מלאכותית, הם מעודדים מכך שקובעי המדיניות החלו להתייחס לנושא ברצינות באמצעות צעדים כמו חוק הבינה המלאכותית של האיחוד האירופי והצו המנהלי של הבינה המלאכותית של הנשיא ביידן. אבל נותר לראות, אומר פארק, האם ניתן לאכוף בקפדנות מדיניות שנועדה להפחית את הטעיית בינה מלאכותית בהתחשב בכך שלמפתחי בינה מלאכותית אין עדיין את הטכניקות לשמור על מערכות אלו בשליטה.

"אם איסור על הטעיית בינה מלאכותית הוא בלתי אפשרי מבחינה פוליטית ברגע הנוכחי, אנו ממליצים לסווג מערכות בינה מלאכותית מטעות כסיכון גבוה", אומר פארק.

עבודה זו נתמכה על ידי המחלקה לפיזיקה של MIT וקרן הבינה המלאכותית המועילה.

ניקולס