SciTechDaily

ניקולס

לראות את הבלתי נראה: טכנולוגיה חדשנית מאפשרת למכוניות להציץ סביב פינות

PlatoNeRF, שנוצרה על ידי MIT ומטה, משתמשת ב-Lidar multibounce ולמידת מכונה כדי לאפשר לכלי רכב אוטונומיים לזהות מכשולים נסתרים. טכניקה חדשנית זו, המסייעת גם ב-AR/VR ורובוטיקה, משתמשת בצללים כדי ליצור שחזורים תלת מימדיים מדויקים של סביבות.

חוקרים ממנפים צללים כדי לדגמן סצנות תלת-ממדיות, כולל אובייקטים חסומים מהעין.

טכניקה זו יכולה להוביל לרכבים אוטונומיים בטוחים יותר, אוזניות AR/VR יעילות יותר או רובוטים מהירים יותר של מחסנים.

דמיינו לעצמכם נסיעה במנהרה ברכב אוטונומי, אך ללא ידיעתכם, תאונה עצרה את התנועה מלפנים. בדרך כלל, תצטרך לסמוך על המכונית שלפניך כדי לדעת שאתה צריך להתחיל לבלום. אבל מה אם הרכב שלך יכול לראות את המכונית שלפניו ולהפעיל את הבלמים אפילו מוקדם יותר?

חוקרים מ MIT ומטה פיתחו טכניקת ראייה ממוחשבת שיכולה יום אחד לאפשר לרכב אוטונומי לעשות בדיוק את זה.

הם הציגו שיטה שיוצרת מודלים תלת-ממדיים מדויקים פיזית של סצנה שלמה, כולל אזורים חסומים לעין, תוך שימוש בתמונות ממיקום מצלמה בודדת. הטכניקה שלהם משתמשת בצללים כדי לקבוע מה מסתתר בחלקים חסומים של הסצנה.

Plato-NeRF מערכת ראייה ממוחשבת

Plato-NeRF היא מערכת ראייה ממוחשבת המשלבת מדידות לידר עם למידת מכונה כדי לשחזר סצינה תלת-ממדית, כולל אובייקטים נסתרים, מתצוגת מצלמה אחת בלבד על ידי ניצול צללים. כאן, המערכת מדגמנת במדויק את הארנב בכיסא, למרות שהארנב הזה חסום לעין. קרדיט: באדיבות החוקרים, בעריכת MIT News

הם קוראים לגישה שלהם PlatoNeRF, המבוססת על האלגוריה של אפלטון על המערה, קטע מ"הרפובליקה" של הפילוסוף היווני שבו אסירים כבולים במערה מבחינים במציאות של העולם החיצון על סמך צללים המוטלים על קיר המערה.

על ידי שילוב של טכנולוגיית Lidar (זיהוי אור וריחוק) עם למידת מכונה, PlatoNeRF יכול ליצור שחזורים מדויקים יותר של גיאומטריה תלת מימדית מאשר כמה טכניקות AI קיימות. בנוסף, PlatoNeRF טובה יותר בשחזור חלק של סצינות שבהן צללים קשה לראות, כגון אלו עם אור סביבתי גבוה או רקע כהה.

שיפור AR/VR ורובוטיקה עם PlatoNeRF

בנוסף לשיפור הבטיחות של כלי רכב אוטונומיים, PlatoNeRF יכולה להפוך את אוזניות AR/VR ליעילות יותר על ידי מתן אפשרות למשתמש לדגמן את הגיאומטריה של החדר ללא צורך להסתובב ולבצע מדידות. זה גם יכול לעזור לרובוטים למחסן למצוא פריטים בסביבות עמוסות מהר יותר.

"הרעיון המרכזי שלנו היה לקחת את שני הדברים האלה שנעשו בעבר בדיסציפלינות שונות ולחבר אותם יחד – לידאר רב-בונק ולמידת מכונה. מסתבר שכשאתה מפגיש את שני אלה יחד, אז אתה מוצא הרבה הזדמנויות חדשות לחקור ולהפיק את המיטב משני העולמות", אומרת צופי קלינגהופר, סטודנטית לתואר שני ב-MIT לאמנויות מדיה ומדעי התקשורת, עוזרת מחקר ב- Camera Culture Group של MIT Media Lab, ומחבר ראשי של מאמר על PlatoNeRF.

קלינגהופר כתב את המאמר עם יועצו, ראמש רסקר, פרופסור חבר לאמנויות ומדעים במדיה ומנהיג קבוצת תרבות המצלמה ב-MIT; הסופר הבכיר Rakesh Ranjan, מנהל מחקר AI במעבדות Meta Reality; כמו גם Siddharth Somasundaram, עוזר מחקר בקבוצת Camera Culture, ו- Xiaoyu Xiang, Yuchen Fan, וכריסטיאן ריצ'רדט ב-Meta. המחקר יוצג בכנס לראיית מחשב וזיהוי תבניות.

שחזור תלת מימד מתקדם עם Lidar ולמידת מכונה

שחזור של סצנה תלת מימדית מלאה מנקודת מבט אחת של מצלמה היא בעיה מורכבת.

כמה גישות למידת מכונה משתמשות במודלים של AI גנרטיביים שמנסים לנחש מה מסתתר באזורים החסומים, אבל המודלים האלה יכולים להזות עצמים שלא באמת נמצאים שם. גישות אחרות מנסות להסיק צורות של אובייקטים מוסתרים באמצעות צללים בתמונה צבעונית, אך שיטות אלה יכולות להיאבק כאשר צללים קשה לראות.

עבור PlatoNeRF, חוקרי MIT בנו את הגישות הללו באמצעות שיטת חישה חדשה הנקראת single-פוטון לידאר. Lidars ממפה סצינה תלת-ממדית על ידי פליטת פולסים של אור ומדידת הזמן שלוקח לאור זה לקפוץ חזרה לחיישן. מכיוון שלידארים עם פוטון בודד יכולים לזהות פוטונים בודדים, הם מספקים נתונים ברזולוציה גבוהה יותר.

החוקרים משתמשים בלידר חד פוטון כדי להאיר נקודת יעד בסצנה. אור מסוים קופץ מהנקודה הזו וחוזר ישירות לחיישן. עם זאת, רוב האור מתפזר ומקפיץ מעצמים אחרים לפני החזרה לחיישן. PlatoNeRF מסתמך על הקפצות האור השניות הללו.

על ידי חישוב כמה זמן לוקח לאור לקפוץ פעמיים ואז לחזור לחיישן הלידר, PlatoNeRF לוכד מידע נוסף על הסצנה, כולל עומק. הקפצת האור השנייה מכילה גם מידע על צללים.

המערכת עוקבת אחר קרני האור המשניות – אלו שמקפיצות את נקודת המטרה לנקודות אחרות בסצנה – כדי לקבוע אילו נקודות נמצאות בצל (בשל היעדר אור). בהתבסס על המיקום של הצללים הללו, PlatoNeRF יכול להסיק את הגיאומטריה של אובייקטים מוסתרים.

הלידר מאיר ברצף 16 נקודות, לוכד תמונות מרובות המשמשות לשחזור כל סצינת התלת מימד.

"בכל פעם שאנו מאירים נקודה בסצנה, אנו יוצרים צללים חדשים. מכיוון שיש לנו את כל מקורות ההארה השונים האלה, יש לנו הרבה קרני אור שמצלפות מסביב, אז אנחנו חוצבים את האזור החסום ונמצא מעבר לעין הנראית לעין", אומר קלינגהופר.

שילוב של Multibounce Lidar ו- Neural Radiance Fields

המפתח ל- PlatoNeRF הוא השילוב של lidar multibounce עם סוג מיוחד של מודל למידת מכונה המכונה שדה קרינה עצבי (NeRF). NeRF מקודד את הגיאומטריה של סצנה למשקלים של רשת עצבית, מה שנותן למודל יכולת חזקה לבצע אינטרפולציה, או להעריך, תצוגות חדשות של סצנה.

היכולת הזו לבצע אינטרפולציה מובילה גם לשחזורי סצנה מדויקים ביותר בשילוב עם לידר רב-קפיצי, אומר קלינגהופר.

"האתגר הגדול ביותר היה להבין איך לשלב את שני הדברים האלה. באמת היינו צריכים לחשוב על הפיזיקה של איך האור מעביר עם לידר רב-בונק וכיצד לדגמן את זה עם למידת מכונה", הוא אומר.

הם השוו את PlatoNeRF לשתי שיטות חלופיות נפוצות, האחת שמשתמשת רק בלידר והשנייה שמשתמשת רק ב-NeRF עם תמונה צבעונית.

הם גילו שהשיטה שלהם הצליחה לעלות על שתי הטכניקות, במיוחד כאשר לחיישן הלידר היה רזולוציה נמוכה יותר. זה יהפוך את הגישה שלהם ליותר מעשית לפריסה בעולם האמיתי, שבו חיישנים ברזולוציה נמוכה יותר נפוצים במכשירים מסחריים.

"לפני כ-15 שנה, הקבוצה שלנו המציאה את המצלמה הראשונה 'לראות' מסביב לפינות, שפועלת על ידי ניצול מספר הקפצות של אור, או 'הדי אור'. הטכניקות הללו השתמשו בלייזרים ובחיישנים מיוחדים, והשתמשו בשלושה הקפצות של אור. מאז, טכנולוגיית הלידר הפכה למיינסטרים יותר, מה שהוביל למחקר שלנו על מצלמות שיכולות לראות דרך ערפל. העבודה החדשה הזו משתמשת רק בשתי הקפצות אור, מה שאומר שיחס האות לרעש גבוה מאוד, ואיכות שחזור תלת מימד מרשימה", אומר Raskar.

בעתיד, החוקרים רוצים לנסות לעקוב אחר יותר משתי הקפצות של אור כדי לראות איך זה יכול לשפר שחזורים של סצנה. בנוסף, הם מעוניינים ליישם טכניקות למידה עמוקות יותר ולשלב PlatoNeRF עם מדידות תמונה צבעונית כדי ללכוד מידע מרקם.

"בעוד שתמונות צללים במצלמה נחקרו זה מכבר כאמצעי לשחזור תלת מימד, עבודה זו חוזרת על הבעיה בהקשר של לידר, ומדגימה שיפורים משמעותיים ב- דיוק של גיאומטריה נסתרת משוחזרת. העבודה מראה כיצד אלגוריתמים חכמים יכולים לאפשר יכולות יוצאות דופן בשילוב עם חיישנים רגילים – כולל מערכות הלידר שרבים מאיתנו נושאים כעת בכיסנו", אומר דייוויד לינדל, עוזר פרופסור במחלקה למדעי המחשב באוניברסיטת טורונטו. שלא היה מעורב בעבודה זו.

ניקולס