SciTechDaily

ניקולס

מתמטיקאים משתמשים בבינה מלאכותית ובאלגוריתם חדש של אשכולות כדי לזהות גרסאות מתפתחות של COVID-19

תמונה מסוגננת של תוצאת מקבץ CLASSIX על גבי איור של וירוס קורונה. קרדיט: אוניברסיטת מנצ'סטר, CDC / אליסה אקרט, MSMI; דן היגינס, MAMS

מסגרת AI מסייעת בזיהוי ומעקב אחר חדשים COVID 19 גרסאות, תוך שימוש באלגוריתם חדש בשם CLASSIX לעיבוד יעיל של מערכי נתונים גנומיים גדולים ולשפר את מאמצי הגילוי המוקדם.

מדענים באוניברסיטאות מנצ'סטר ואוקספורד פיתחו מסגרת בינה מלאכותית שיכולה לזהות ולעקוב אחר גרסאות חדשות ומנוגדות ל-COVID-19 ויכולה לעזור עם זיהומים אחרים בעתיד.

המסגרת משלבת טכניקות הפחתת מימד ואלגוריתם חדש להסברה של אשכולות בשם CLASSIX, שפותח על ידי מתמטיקאים מאוניברסיטת מנצ'סטר. זה מאפשר זיהוי מהיר של קבוצות של גנומים ויראליים שעלולים להוות סיכון בעתיד מכמויות עצומות של נתונים.

המחקר, שהוצג השבוע בכתב העת PNASיכול לתמוך בשיטות מסורתיות של מעקב אחר אבולוציה ויראלית, כגון ניתוח פילוגנטי, הדורשות כיום איצור ידני נרחב.

רוברטו קהואנצי, חוקר מאוניברסיטת מנצ'סטר והמחבר הראשון והמתאים של המאמר, אמר: "מאז הופעתו של COVID-19, ראינו גלים מרובים של גרסאות חדשות, יכולת העברה מוגברת, התחמקות מתגובות חיסוניות וחומרה מוגברת. של מחלה.

"מדענים מגבירים כעת את המאמצים לאתר את הגרסאות החדשות המדאיגות הללו, כמו אלפא, דלתא ואומיקרון, בשלבים המוקדמים ביותר של הופעתם. אם נוכל למצוא דרך לעשות זאת במהירות וביעילות, זה יאפשר לנו להיות יותר פרואקטיביים בתגובה שלנו, כמו פיתוח חיסונים מותאם, ואולי אפילו יאפשר לנו לחסל את הגרסאות לפני שהן מתבססות".

שיטה מוצעת לזיהוי גרסאות מתעוררות של COVID 19

תרשים המציג את השלבים של השיטה המוצעת לזיהוי גרסאות COVID-19 מתעוררות. קרדיט: אוניברסיטת מנצ'סטר

כמו רבים אחרים RNA וירוסים, ל-COVID-19 יש שיעור מוטציות גבוה וזמן קצר בין דורות, כלומר הוא מתפתח במהירות רבה. המשמעות היא שזיהוי זנים חדשים שצפויים להיות בעייתיים בעתיד דורש מאמץ ניכר.

נכון לעכשיו, ישנם כמעט 16 מיליון רצפים זמינים במסד הנתונים GISAID (היוזמה העולמית לשיתוף כל נתוני השפעת), המספק גישה לנתונים גנומיים של נגיפי שפעת.

מיפוי האבולוציה וההיסטוריה של כל הגנום של COVID-19 מנתונים אלה נעשה כיום תוך שימוש בכמויות גדולות ביותר של זמן מחשב וזמן אנושי.

השיטה המתוארת מאפשרת אוטומציה של משימות כאלה. החוקרים עיבדו 5.7 מיליון רצפים בעלי כיסוי גבוה תוך יום עד יומיים בלבד במחשב נייד מודרני סטנדרטי; זה לא יהיה אפשרי עבור שיטות קיימות, מה שמעביר את הזיהוי של זני פתוגנים נוגעים בידיים של חוקרים נוספים עקב צרכי משאבים מופחתים.

תומס האוס, פרופסור למדעי המתמטיקה באוניברסיטת מנצ'סטר, אמר: "הכמות חסרת התקדים של נתונים גנטיים שנוצרו במהלך המגיפה דורשת שיפורים בשיטות שלנו לנתח אותה ביסודיות. הנתונים ממשיכים לצמוח במהירות, אך מבלי להראות תועלת לאיסוף נתונים אלה, קיים סיכון שהם יוסרו או יימחקו.

"אנחנו יודעים שזמן המומחים האנושי מוגבל, ולכן הגישה שלנו לא צריכה להחליף את עבודתם של בני אדם לחלוטין אלא לעבוד לצדם כדי לאפשר את העבודה הרבה יותר מהר ולשחרר את המומחים שלנו להתפתחויות חיוניות אחרות."

השיטה המוצעת פועלת על ידי פירוק רצפים גנטיים של COVID-19 נגיף ל"מילים" קטנות יותר (הנקראות 3-mers) המיוצגות כמספרים על ידי ספירתן. לאחר מכן, הוא מקבץ רצפים דומים יחד על סמך דפוסי המילים שלהם באמצעות למידת מכונה טכניקות.

סטפן גוטל, פרופסור למתמטיקה שימושית באוניברסיטת מנצ'סטר, אמר: "אלגוריתם האשכולות CLASSIX שפיתחנו הוא הרבה פחות תובעני מבחינה חישובית משיטות מסורתיות וניתן להסבר מלא, כלומר הוא מספק הסברים טקסטואליים וחזותיים של האשכולות המחושבים."

רוברטו קהואנצי הוסיף: "הניתוח שלנו משמש כהוכחה לקונספט, המדגים את השימוש הפוטנציאלי בשיטות למידת מכונה ככלי התראה לגילוי מוקדם של גרסאות עיקריות מתעוררות מבלי להסתמך על הצורך ליצור פילוגניות.

"למרות שפילוגנטיה נותרה 'סטנדרט הזהב' להבנת מוצא הנגיף, שיטות למידת מכונה אלו יכולות להכיל מספר סדרי גודל יותר רצפים מהשיטות הפילוגנטיות הנוכחיות ובעלות חישובית נמוכה."

ניקולס