SciTechDaily

ניקולס

AI גנרטיבי: פתיחת הכוח של נתונים סינתטיים כדי לשפר את בדיקות התוכנה

DataCebo, ספין-אוף של MIT, ממנפת בינה מלאכותית גנרטיבית לייצור נתונים סינתטיים, ומסייעת לארגונים בבדיקות תוכנה, שיפור הטיפול בחולים וניתוב טיסה מחדש. כספת הנתונים הסינתטיים שלו, המשמשת אלפים, מדגימה את המשמעות ההולכת וגוברת של נתונים סינתטיים בהבטחת פרטיות ושיפור החלטות מונעות נתונים. קרדיט: twoday.co.il.com

MIT spinout DataCebo עוזרת לחברות לחזק את מערכי הנתונים שלהן על ידי יצירת נתונים סינתטיים המחקים את הדבר האמיתי.

AI גנרטיבי זוכה לתשומת לב רבה בזכות היכולת שלו ליצור טקסט ותמונות. אבל אמצעי התקשורת הללו מייצגים רק חלק קטן מהנתונים שמתרבים בחברה שלנו כיום. נתונים נוצרים בכל פעם שמטופל עובר מערכת רפואית, סופה משפיעה על טיסה או אדם מקיים אינטראקציה עם יישום תוכנה.

שימוש בבינה מלאכותית גנרטיבית ליצירת נתונים סינתטיים מציאותיים סביב תרחישים אלו יכול לעזור לארגונים לטפל במטופלים בצורה יעילה יותר, לנתב מחדש מטוסים או לשפר פלטפורמות תוכנה – במיוחד בתרחישים שבהם הנתונים בעולם האמיתי מוגבלים או רגישים.

כספת הנתונים הסינטטיים של DataCebo

בשלוש השנים האחרונות, ה-MIT spinout DataCebo הציע מערכת תוכנה יצירתית בשם Synthetic Data Vault כדי לעזור לארגונים ליצור נתונים סינתטיים כדי לעשות דברים כמו בדיקת יישומי תוכנה והדרכה למידת מכונה דגמים.

כספת הנתונים הסינתטיים, או SDV, הורדה יותר ממיליון פעמים, כאשר יותר מ-10,000 מדעני נתונים משתמשים בספריית הקוד הפתוח להפקת נתונים טבלאיים סינתטיים. המייסדים – מדען המחקר הראשי Kalyan Veeramachaneni והבוגרת Neha Patki '15, SM '16 – מאמינים שהצלחת החברה נובעת מהיכולת של SDV לחולל מהפכה בבדיקות תוכנה.

כספת נתונים סינתטיים של DataCebo

DataCebo מציעה מערכת תוכנה גנרטיבית בשם Synthetic Data Vault כדי לעזור לארגונים ליצור נתונים סינתטיים כדי לעשות דברים כמו בדיקת יישומי תוכנה ואימון מודלים של למידת מכונה. קרדיט: באדיבות DataCebo. נערך על ידי MIT News.

אימוץ ויראלי ויישומים מגוונים

בשנת 2016, הקבוצה של Veeramachaneni במעבדת Data to AI חשפה חבילה של כלי AI מחוללים בקוד פתוח כדי לעזור לארגונים ליצור נתונים סינתטיים התואמים את המאפיינים הסטטיסטיים של נתונים אמיתיים.

חברות יכולות להשתמש בנתונים סינתטיים במקום במידע רגיש בתוכניות תוך שמירה על הקשרים הסטטיסטיים בין נקודות הנתונים. חברות יכולות גם להשתמש בנתונים סינתטיים כדי להפעיל תוכנה חדשה באמצעות סימולציות כדי לראות כיצד היא מתפקדת לפני שחרורן לציבור.

הקבוצה של Veeramachaneni נתקלה בבעיה מכיוון שהיא עבדה עם חברות שרצו לשתף את הנתונים שלהן לצורך מחקר.

"MIT עוזר לך לראות את כל מקרי השימוש השונים האלה", מסביר Patki. "אתה עובד עם חברות פיננסים וחברות בריאות, וכל הפרויקטים האלה מועילים לגיבוש פתרונות בין תעשיות."

Kalyan Veeramachaneni, אנדרו מונטנז ונהא פאטקי

"בשנים הקרובות, נתונים סינתטיים ממודלים גנרטיביים ישנו את כל עבודת הנתונים", אומר Kalyan Veeramachaneni. משמאל: Kalyan Veeramachaneni, מייסד שותף; אנדרו מונטנז, מנהל הנדסה; ונהא פטקי, מייסדת שותפה, סמנכ"לית מוצר. קרדיט: באדיבות DataCebo

בשנת 2020, החוקרים הקימו את DataCebo כדי לבנות תכונות SDV נוספות עבור ארגונים גדולים יותר. מאז, מקרי השימוש היו מרשימים כמו שהם היו מגוונים.

עם סימולטור הטיסה החדש של DataCebo, למשל, חברות תעופה יכולות לתכנן אירועי מזג אוויר נדירים באופן שיהיה בלתי אפשרי באמצעות נתונים היסטוריים בלבד. באפליקציה אחרת, משתמשי SDV סינתזו רשומות רפואיות כדי לחזות תוצאות בריאותיות עבור חולים עם סיסטיק פיברוזיס. צוות מנורבגיה השתמש לאחרונה ב-SDV כדי ליצור נתוני סטודנטים סינתטיים כדי להעריך אם מדיניות הקבלה השונות הייתה מריטוקרטית וללא הטיה.

בשנת 2021, פלטפורמת מדעי הנתונים Kaggle אירחה תחרות למדעני נתונים שהשתמשו ב-SDV ליצירת מערכי נתונים סינתטיים כדי להימנע משימוש בנתונים קנייניים. כ-30,000 מדעני נתונים השתתפו, בנו פתרונות וחיזו תוצאות על סמך הנתונים המציאותיים של החברה.

וככל ש-DataCebo גדל, הוא נשאר נאמן לשורשי ה-MIT שלו: כל העובדים הנוכחיים של החברה הם בוגרי MIT.

בדיקת תוכנה בטעינת על

למרות שכלי הקוד הפתוח שלהם משמשים למגוון מקרי שימוש, החברה מתמקדת בהגדלת כוחה בבדיקות תוכנה.

"אתה צריך נתונים כדי לבדוק את יישומי התוכנה האלה", אומר Veeramachaneni. "באופן מסורתי, מפתחים כותבים סקריפטים באופן ידני כדי ליצור נתונים סינתטיים. עם מודלים גנרטיביים, שנוצרו באמצעות SDV, אתה יכול ללמוד ממדגם של נתונים שנאספו ולאחר מכן לדגום נפח גדול של נתונים סינתטיים (שיש להם מאפיינים זהים לנתונים אמיתיים), או ליצור תרחישים ספציפיים ומקרי קצה, ולהשתמש בנתונים כדי בדוק את היישום שלך."

לדוגמה, אם בנק רצה לבדוק תוכנית שנועדה לדחות העברות מחשבונות שאין בהם כסף, הוא יצטרך לדמות חשבונות רבים שמבצעים עסקאות בו-זמנית. לעשות זאת עם נתונים שנוצרו באופן ידני ייקח הרבה זמן. עם המודלים הגנרטיביים של DataCebo, לקוחות יכולים ליצור כל מקרה קצה שהם רוצים לבדוק.

"זה נפוץ שלתעשיות יש נתונים שהם רגישים בחלק מהיכולות", אומר Patki. "לעתים קרובות כשאתה בדומיין עם נתונים רגישים אתה עוסק ברגולציה, וגם אם אין תקנות חוקיות, האינטרס של החברות הוא להקפיד על מי מקבל גישה למה באיזו שעה. אז, נתונים סינתטיים תמיד טובים יותר מנקודת מבט של פרטיות."

קנה מידה של נתונים סינתטיים

Veeramachaneni מאמין ש-DataCebo מקדמת את תחום מה שהיא מכנה נתונים ארגוניים סינתטיים, או נתונים שנוצרו מהתנהגות משתמשים ביישומי תוכנה של חברות גדולות.

"נתונים ארגוניים מהסוג הזה הם מורכבים, ואין זמינות אוניברסלית שלהם, בניגוד לנתוני שפה", אומר Veeramachaneni. "כשאנשים משתמשים בתוכנה הזמינה לציבור ומדווחים אם עובד על דפוס מסוים, אנחנו לומדים הרבה מהדפוסים הייחודיים האלה, וזה מאפשר לנו לשפר את האלגוריתמים שלנו. מנקודת מבט אחת, אנו בונים קורפוס של דפוסים מורכבים אלה, אשר עבור שפה ודימויים זמין בקלות. "

DataCebo גם פרסמה לאחרונה תכונות לשיפור השימושיות של SDV, כולל כלים להערכת ה"ריאליזם" של הנתונים שנוצרו, הנקראים ספריית SDMetrics וכן דרך להשוות את ביצועי המודלים הנקראת SDGym.

"זה על להבטיח שארגונים בוטחים בנתונים החדשים האלה", אומר Veeramachaneni. "(הכלים שלנו מציעים) נתונים סינתטיים הניתנים לתכנות, מה שאומר שאנו מאפשרים לארגונים להכניס את התובנה והאינטואיציה הספציפית שלהם כדי לבנות מודלים שקופים יותר."

כאשר חברות בכל תעשייה ממהרות לאמץ בינה מלאכותית וכלים אחרים למדעי הנתונים, DataCebo בסופו של דבר עוזרת להן לעשות זאת באופן שקוף ואחראי יותר.

"בשנים הקרובות, נתונים סינתטיים ממודלים גנרטיביים ישנו את כל עבודת הנתונים", אומר Veeramachaneni. "אנו מאמינים ש-90 אחוז מהפעולות הארגוניות יכולות להיעשות עם נתונים סינתטיים."

ניקולס