SciTechDaily

ניקולס

פתיחת הקופסה השחורה של AI: נוסחה חדשה מסבירה כיצד הם מזהים דפוסים רלוונטיים

צוות UC San Diego חשף שיטה לפענוח תהליך הלמידה של רשתות עצביות, תוך שימוש בנוסחה סטטיסטית כדי להבהיר כיצד תכונות נלמדות, פריצת דרך שמבטיחה מערכות AI מובנות ויעילות יותר. קרדיט: twoday.co.il.com

ניתן ליישם את הממצאים גם כדי לשפר את היעילות של מסגרות למידת מכונה שונות.

רשתות עצביות הניעו פריצות דרך בתחום הבינה המלאכותית, כולל מודלים של שפה גדולים שנמצאים כעת בשימוש במגוון רחב של יישומים, מפיננסים, דרך משאבי אנוש ועד שירותי בריאות. אבל הרשתות הללו נשארות קופסה שחורה שהמהנדסים והמדענים הפנימיים שלה מתקשים להבין. כעת, צוות בראשות מדעני נתונים ומחשבים מאוניברסיטת קליפורניה בסן דייגו נתן לרשתות עצביות את המקבילה לצילום רנטגן כדי לחשוף כיצד הן למעשה לומדים.

החוקרים מצאו שנוסחה המשמשת בניתוח סטטיסטי מספקת תיאור מתמטי יעיל של האופן שבו רשתות עצביות, כגון GPT-2, מבשר ל-ChatGPT, לומדות דפוסים רלוונטיים בנתונים, הידועים כמאפיינים. נוסחה זו גם מסבירה כיצד רשתות עצביות משתמשות בדפוסים הרלוונטיים הללו כדי לבצע תחזיות.

"אנחנו מנסים להבין רשתות עצביות מהעקרונות הראשונים", אמר דניאל ביגלהול, דוקטור. סטודנט במחלקה למדעי המחשב והנדסת מחשבים באוניברסיטת קליפורניה בסן דייגו ושותף ראשון במחקר. "עם הנוסחה שלנו, אפשר פשוט לפרש באילו תכונות הרשת משתמשת כדי לבצע תחזיות."

הצוות הציג את ממצאיו בגיליון ה-7 במרץ של כתב העת מַדָע.

למה זה משנה? כלים המונעים בינה מלאכותית נפוצים כעת בחיי היומיום. הבנקים משתמשים בהם כדי לאשר הלוואות. בתי חולים משתמשים בהם כדי לנתח נתונים רפואיים, כגון צילומי רנטגן ו-MRI. חברות משתמשות בהם כדי לסנן מועמדים לעבודה. אבל כרגע קשה להבין את המנגנון שרשתות עצביות משתמשות בהן כדי לקבל החלטות ואת ההטיות בנתוני האימון שעשויות להשפיע על כך.

"אם אינך מבין כיצד רשתות עצביות לומדות, קשה מאוד לקבוע אם רשתות עצביות מייצרות תגובות אמינות, מדויקות ומתאימות", אמר מיכאיל בלקין, מחבר המאמר המקביל ופרופסור במכון למדעי הנתונים של אוניברסיטת סן דייגו האליסיוגלו. . "זה משמעותי במיוחד בהתחשב בצמיחה המהירה לאחרונה של למידת מכונה וטכנולוגיית רשת עצבית".

המחקר הוא חלק ממאמץ גדול יותר בקבוצת המחקר של בלקין לפתח תיאוריה מתמטית שמסבירה כיצד פועלות רשתות עצביות. "הטכנולוגיה עלתה על התיאוריה בכמות עצומה", אמר. "אנחנו צריכים להתעדכן."

הצוות גם הראה שניתן ליישם את הנוסחה הסטטיסטית שבה השתמשו כדי להבין כיצד רשתות עצביות לומדות, המכונה Average Gradient Outer Product (AGOP), כדי לשפר ביצועים ויעילות בסוגים אחרים של ארכיטקטורות למידת מכונה שאינן כוללות רשתות עצביות.

"אם נבין את המנגנונים הבסיסיים שמניעים רשתות עצביות, עלינו להיות מסוגלים לבנות מודלים של למידת מכונה שהם פשוטים יותר, יעילים יותר וניתנים לפירוש יותר", אמר בלקין. "אנחנו מקווים שזה יעזור לדמוקרטיזציה של AI."

מערכות למידת המכונה שבלקין צופה בהן יצטרכו פחות כוח חישוב, ולכן פחות כוח מהרשת, כדי לתפקד. מערכות אלו גם יהיו פחות מורכבות ולכן קלות יותר להבנה.

המחשת הממצאים החדשים באמצעות דוגמה

רשתות עצביות (מלאכותיות) הן כלי חישוב כדי ללמוד קשרים בין מאפייני נתונים (כלומר זיהוי עצמים או פרצופים ספציפיים בתמונה). דוגמה אחת למשימה היא לקבוע אם בתמונה חדשה, אדם מרכיב משקפיים או לא. למידת מכונה ניגשת לבעיה זו על ידי מתן לרשת העצבית דוגמאות רבות (אימון) המסומנות כתמונות של "אדם מרכיב משקפיים" או "אדם שאינו מרכיב משקפיים". הרשת העצבית לומדת את הקשר בין תמונות והתוויות שלהן, ומחלצת דפוסי נתונים, או תכונות, שעליה להתמקד כדי לקבוע. אחת הסיבות לכך שמערכות בינה מלאכותית נחשבות לקופסה שחורה היא בגלל שלעתים קרובות קשה לתאר מתמטית באילו קריטריונים המערכות בעצם משתמשות לביצוע התחזיות שלהן, כולל הטיות פוטנציאליות. העבודה החדשה מספקת הסבר מתמטי פשוט לאופן שבו המערכות לומדות את התכונות הללו.

תכונות הן דפוסים רלוונטיים בנתונים. בדוגמה שלמעלה, יש מגוון רחב של תכונות שרשתות העצבים לומדות, ולאחר מכן משתמשות בהן, כדי לקבוע אם למעשה אדם בצילום מרכיב משקפיים או לא. תכונה אחת שהיא תצטרך לשים לב אליה עבור משימה זו היא החלק העליון של הפנים. מאפיינים אחרים יכולים להיות העין או אזור האף שבו לרוב נחים המשקפיים. הרשת שמה לב באופן סלקטיבי לתכונות שהיא לומדת רלוונטיות ואז זורקת את שאר חלקי התמונה, כמו החלק התחתון של הפנים, השיער וכו'.

למידת תכונות היא היכולת לזהות דפוסים רלוונטיים בנתונים ולאחר מכן להשתמש בדפוסים אלה כדי ליצור תחזיות. בדוגמא המשקפיים, הרשת לומדת לשים לב לחלק העליון של הפנים. בחדש מַדָע במאמר, החוקרים זיהו נוסחה סטטיסטית המתארת ​​כיצד הרשתות העצביות הן תכונות למידה.

ארכיטקטורות רשתות עצביות חלופיות: החוקרים המשיכו והראו שהכנסת נוסחה זו למערכות מחשוב שאינן מסתמכות על רשתות עצביות אפשרה למערכות אלו ללמוד מהר יותר ויעילה יותר.

"איך אני מתעלם ממה שלא נחוץ? בני אדם טובים בזה", אמר בלקין. "המכונות עושות את אותו הדבר. מודלים של שפה גדולה, למשל, מיישמים את 'תשומת הלב הסלקטיבית' הזו, ולא ידענו איך הם עושים זאת. בשלנו מַדָע במאמר, אנו מציגים מנגנון שמסביר לפחות חלק מהאופן שבו הרשתות העצביות 'שמים לב באופן סלקטיבי'".

מממנת המחקר כללה את הקרן הלאומית למדע וקרן סימונס לשיתוף הפעולה על היסודות התיאורטיים של למידה עמוקה. בלקין הוא חלק מהמכון לאופטימיזציה המבוססת על למידה בקנה מידה, הממומן על ידי אוניברסיטת קליפורניה בסן דייגו ובניהולו של אוניברסיטת קליפורניה בסן דייגו, או TILOS.

ניקולס