דיוק מכאוס: האסטרטגיה הבלתי צפויה מאחורי רובוטים חכמים יותר

מהנדסים באוניברסיטת נורת'ווסטרן יצרו את אלגוריתם MaxDiff RL, משפרים את הבינה המלאכותית ברובוטיקה על ידי מתן אפשרות לרובוטים לחקור באופן אקראי וללמוד ביעילות. שיטה זו מגבירה משמעותית את הביצועים והאמינות של רובוטים במגוון יישומים, ומדגימה כישורים מעולים במשימות בניסיון הראשון. (קונספט האמן.) קרדיט: twoday.co.il.com

אלגוריתם AI חדש לרובוטים מתגבר באופן עקבי על מערכות מתקדמות.

האוניברסיטה הצפון מערבית מהנדסים פיתחו אלגוריתם חדש של בינה מלאכותית (AI) שתוכנן במיוחד עבור רובוטיקה חכמה. על ידי סיוע לרובוטים ללמוד במהירות ובאמינות מיומנויות מורכבות, השיטה החדשה יכולה לשפר משמעותית את המעשיות – והבטיחות – של רובוטים עבור מגוון יישומים, כולל מכוניות בנהיגה עצמית, מל"טים למסירה, עוזרי בית ואוטומציה.

הצלחת האלגוריתם, המכונה Maximum Diffusion Reinforcement Learning (MaxDiff RL), נעוצה ביכולתו לעודד רובוטים לחקור את סביבותיהם באופן אקראי ככל האפשר על מנת לצבור מערך מגוון של חוויות. "האקראיות המעוצבת" הזו משפרת את איכות הנתונים שרובוטים אוספים לגבי הסביבה שלהם. ועל ידי שימוש בנתונים באיכות גבוהה יותר, רובוטים מדומים הפגינו למידה מהירה ויעילה יותר, תוך שיפור המהימנות והביצועים הכוללים שלהם.

למרות שהמחקר הנוכחי בדק את אלגוריתם ה-AI רק על רובוטים מדומים, החוקרים פיתחו את NoodleBot לבדיקה עתידית של האלגוריתם בעולם האמיתי. קרדיט: אוניברסיטת נורת'ווסטרן

ביצועים מעולים של MaxDiff RL

כאשר נבדקו מול פלטפורמות בינה מלאכותיות אחרות, רובוטים מדומים שהשתמשו באלגוריתם החדש של Northwestern עלו באופן עקבי על המודלים המתקדמים ביותר. האלגוריתם החדש עובד כל כך טוב, למעשה, שרובוטים למדו משימות חדשות ולאחר מכן ביצעו אותן בהצלחה תוך ניסיון בודד – כשהם נכונים בפעם הראשונה. זה עומד בניגוד מוחלט למודלים הנוכחיים של AI, המאפשרים למידה איטית יותר באמצעות ניסוי וטעייה.

המחקר יתפרסם היום (2 במאי) בכתב העת Nature Machine Intelligence.

חוקרים בדקו את הביצועים של אלגוריתם הבינה המלאכותית החדש עם רובוטים מדומים, כגון NoodleBot. קרדיט: אוניברסיטת נורת'ווסטרן

"מסגרות בינה מלאכותיות אחרות יכולות להיות מעט לא אמינות", אמר תומס ברואטה, תומס ברואטה, שהוביל את המחקר. "לפעמים הם יצליחו להצליח לחלוטין, אבל לפעמים הם ייכשלו לחלוטין. עם המסגרת שלנו, כל עוד הרובוט מסוגל לפתור את המשימה בכלל, בכל פעם שאתה מפעיל את הרובוט שלך אתה יכול לצפות שהוא יעשה בדיוק את מה שהוא התבקש לעשות. זה מקל על פרשנות של הצלחות וכישלונות של רובוטים, וזה חיוני בעולם התלוי יותר ויותר בבינה מלאכותית".

Berrueta הוא עמית נשיא ב-Northwestern ודוקטור. מועמד להנדסת מכונות בבית הספר להנדסה מקורמיק. מומחה הרובוטיקה טוד מרפי, פרופסור להנדסת מכונות במקורמיק ויועצו של Berrueta, הוא המחבר הבכיר של העיתון. Berrueta ומרפי כתבו את המאמר יחד עם אליסון פינוסקי, גם היא דוקטור. מועמד במעבדה של מרפי.

הניתוק חסר הגוף

כדי להכשיר אלגוריתמים של למידת מכונה, חוקרים ומפתחים משתמשים בכמויות גדולות של ביג דאטה, שבני אדם מסננים ואוצרים בקפידה. בינה מלאכותית לומדת מנתוני אימון אלו, תוך שימוש בניסוי וטעייה עד שהיא מגיעה לתוצאות מיטביות. אמנם תהליך זה עובד היטב עבור מערכות חסרות גוף, כמו ChatGPT ו-Google Gemini (לשעבר בארד), הוא לא עובד עבור מערכות AI מגולמות כמו רובוטים. רובוטים, במקום זאת, אוספים נתונים בעצמם – ללא המותרות של אוצרים אנושיים.

"אלגוריתמים מסורתיים אינם תואמים לרובוטיקה בשתי דרכים שונות", אמר מרפי. "ראשית, מערכות חסרות גוף יכולות לנצל עולם שבו חוקים פיזיקליים אינם חלים. שנית, לכשלים אינדיבידואליים אין השלכות. עבור יישומים במדעי המחשב, הדבר היחיד שחשוב הוא שזה מצליח רוב הזמן. ברובוטיקה, כשל אחד יכול להיות קטסטרופלי".

כדי לפתור את הניתוק הזה, Berrueta, Murphey ו-Pinosky שאפו לפתח אלגוריתם חדש המבטיח שרובוטים יאספו נתונים באיכות גבוהה תוך כדי תנועה. בבסיסו, MaxDiff RL מצווה לרובוטים לנוע באופן אקראי יותר על מנת לאסוף נתונים יסודיים ומגוונים על הסביבה שלהם. על ידי למידה באמצעות חוויות אקראיות שנאספו בעצמם, הרובוטים רוכשים מיומנויות הכרחיות לביצוע משימות שימושיות.

סרטון זה ממחיש את יכולות הלמידה של MaxDiff RL. קרדיט: אוניברסיטת נורת'ווסטרן

לעשות את זה נכון בפעם הראשונה

כדי לבדוק את האלגוריתם החדש, השוו החוקרים אותו מול מודלים עדכניים ומתקדמים. באמצעות הדמיות ממוחשבות ביקשו החוקרים מרובוטים מדומים לבצע סדרה של משימות סטנדרטיות. על פני הלוח, רובוטים המשתמשים ב-MaxDiff RL למדו מהר יותר מהדגמים האחרים. הם גם ביצעו בצורה נכונה משימות הרבה יותר עקביות ואמינות מאחרים.

אולי אפילו יותר מרשים: רובוטים המשתמשים בשיטת MaxDiff RL הצליחו לעתים קרובות לבצע משימה נכונה בניסיון בודד. וזה אפילו כשהם התחילו בלי ידע.

"הרובוטים שלנו היו מהירים וזריזים יותר – מסוגלים להכליל ביעילות את מה שהם למדו וליישם אותו במצבים חדשים", אמר ברואטה. "עבור יישומים בעולם האמיתי שבהם הרובוטים אינם יכולים להרשות לעצמם זמן אינסופי לניסוי וטעייה, זהו יתרון עצום."

המחקר שפורסם כולל בדיקות שבוצעו עם רובוטים מדומים. בשלב הבא, הם יבחנו את האלגוריתם על רובוטים בעולם האמיתי. הם פיתחו את הרובוט דמוי הנחש הזה, שנקרא "נודלבוט", לבדיקות עתידיות. קרדיט: אוניברסיטת נורת'ווסטרן

מכיוון ש-MaxDiff RL הוא אלגוריתם כללי, ניתן להשתמש בו עבור מגוון יישומים. החוקרים מקווים שהוא מטפל בבעיות יסוד המעכבות את התחום, ובסופו של דבר יסלול את הדרך לקבלת החלטות אמינה ברובוטיקה חכמה.

"זה לא חייב לשמש רק עבור כלי רכב רובוטיים שמסתובבים," אמר פינוסקי. "זה יכול לשמש גם עבור רובוטים נייחים – כמו זרוע רובוטית במטבח שלומדת כיצד להעמיס את המדיח. ככל שהמשימות והסביבות הפיזיות הופכות מסובכות יותר, תפקיד ההתגלמות הופך להיות חיוני עוד יותר שיש לקחת בחשבון במהלך תהליך הלמידה. זהו צעד חשוב לקראת מערכות אמיתיות שעושות משימות מסובכות יותר ומעניינות יותר".

המחקר נתמך על ידי משרד המחקר של צבא ארה"ב (מספר מענק W911NF-19-1-0233) והמשרד האמריקאי לחקר הצי (מספר המענק N00014-21-1-2706).

ניקולס

ניקולס, עיתונאי ותיק ומוערך ב-Twoday, מתמחה בזכויות אדם ומדיניות בינלאומית. בעל תואר שני מהאוניברסיטה העברית, הניסיון הרב שלו כולל דיווחים משטחים קרביים ואזורי משבר. ניקולס מאמין בכוחה של העיתונות להאיר זוויות חדשות על סיפורים מורכבים, ובחשיבותה ביצירת שינוי חברתי חיובי.

מאמרים אחרונים

מצב המנטה של הנסיכה דיאנה "נקמה" יגואר יוצא למכירה פומבית

מדוע ניקולס קייג' שינה את שמו בשנה שעברה

פחד ואצות בהמפטונס: כיצד חיידקים אוכלי בשר פולשים לנתיבי המים המופלאים ביותר של החוף המזרחי