SciTechDaily

ניקולס

מערכת AI חדשה שפותחה על ידי הרווארד פותחת את קוד המקור של ביולוגיה

מחקר פורץ דרך של Yunha Hwang והצוות פיתח את gLM, מערכת AI המפענחת את השפה המורכבת של הגנומיקה מנתונים מיקרוביאליים נרחבים. חידוש זה מאפשר הבנה מעמיקה יותר של תפקודי גנים ורגולציות, מה שמוביל לתגליות חדשות בגנומיקה. gLM מדגימה את הפוטנציאל של AI בקידום מדעי החיים והתמודדות עם אתגרים גלובליים. קרדיט: twoday.co.il.com

מערכות בינה מלאכותית (AI), כמו ChatGTP, כבשו את העולם בסערה. אין להם הרבה יד, מהמלצה על תוכנית הטלוויזיה הראויה הבאה ועד לעזור לנווט בתנועה. אבל האם מערכות בינה מלאכותית יכולות ללמוד את שפת החיים ולעזור לביולוגים לחשוף פריצות דרך מרגשות במדע?

במחקר חדש שפורסם ב תקשורת טבעצוות בין-תחומי של חוקרים בראשות Yunha Hwang, מועמד לדוקטורט במחלקה לביולוגיה אורגנית ואבולוציונית (OEB) בהרווארד, היו חלוצים במערכת בינה מלאכותית (AI) המסוגלת לפענח את השפה הסבוכה של הגנומיקה.

השפה הגנומית היא קוד המקור של הביולוגיה. הוא מתאר את הפונקציות הביולוגיות ואת הדקדוק הרגולטורי המקודד בגנום. החוקרים שאלו האם נוכל לפתח מנוע AI כדי "לקרוא" את השפה הגנומית ולהיות שוטף בשפה, להבין את המשמעות, או הפונקציות והתקנות, של גנים? הצוות הזין את מערך הנתונים המטאנומי המיקרוביאלי, מערך הנתונים הגנומי הגדול והמגוון ביותר שקיים, למכונה כדי ליצור את מודל השפה הגנומית (gLM).

האתגר של נתונים גנומיים

"בביולוגיה, יש לנו מילון של מילים ידועות וחוקרים עובדים בתוך המילים הידועות האלה. הבעיה היא שחלק זה של מילים ידועות מהווה פחות מאחוז אחד מהרצפים הביולוגיים", אמר הוואנג, "הכמות והמגוון של הנתונים הגנומיים מתפוצצים, אבל בני אדם אינם מסוגלים לעבד כמות כה גדולה של נתונים מורכבים".

מודלים של שפה גדולה (LLMs), כמו GPT4, לומדים משמעויות של מילים על ידי עיבוד כמויות אדירות של נתוני טקסט מגוונים המאפשרים להבין את הקשרים בין מילים. מודל השפה הגנומית (gLM) לומד מנתונים מטאנומיים מגוונים ביותר, שמקורם בחיידקים המאכלסים סביבות שונות כולל האוקיינוס, האדמה והמעי האנושי. בעזרת נתונים אלה, gLM לומדת להבין את ה"סמנטיקה" הפונקציונלית ואת ה"תחביר" הרגולטורי של כל גן על ידי לימוד הקשר בין הגן להקשר הגנומי שלו. gLM, כמו LLMs, הוא מודל בפיקוח עצמי – זה אומר שהוא לומד ייצוגים משמעותיים של גנים מתוך נתונים בלבד ואינו דורש תוויות שהוקצו על ידי אדם.

חשיפת הבלתי ידוע בגנומיקה

חוקרים רצפו כמה מהאורגניזמים הנחקרים ביותר כמו אנשים, E. coli וזבובי פירות. עם זאת, אפילו עבור הגנומים הנחקרים ביותר, רוב הגנים נותרים מאופיינים בצורה גרועה. "למדנו כל כך הרבה בעידן המהפכני הזה של 'אומיקה', כולל כמה אנחנו לא יודעים", אמר הסופר הבכיר פרופסור פיטר גירגויס, גם הוא ב-OEB בהרווארד. "שאלנו, איך נוכל ללקט משמעות ממשהו מבלי להסתמך על מילון פתגמי? כיצד נבין טוב יותר את התוכן וההקשר של הגנום?"

המחקר מדגים ש-gLM לומד פונקציות אנזימטיות ומודול גנים מווסתים יחד (הנקראים אופרונים), ומספק הקשר גנומי שיכול לחזות את תפקוד הגנים. המודל לומד גם מידע טקסונומי ותלות בהקשר של תפקודי גנים. באופן מדהים, gLM אינו יודע איזה אנזים הוא רואה, וגם לא מאיזה חיידק מגיע הרצף. עם זאת, מכיוון שהוא ראה רצפים רבים ומבין את הקשרים האבולוציוניים בין הרצפים במהלך האימון, הוא מסוגל לגזור את הקשרים הפונקציונליים והאבולוציוניים בין הרצפים.

הפוטנציאל של gLM בביולוגיה

"כמו למילים, לגנים יכולים להיות "משמעויות" שונות בהתאם להקשר שבו הם נמצאים. לעומת זאת, גנים מובחנים מאוד יכולים להיות "שם נרדף" בתפקוד. gLM מאפשר מסגרת הרבה יותר ניואנסית להבנת תפקוד הגנים. זאת בניגוד לשיטה הקיימת של מיפוי אחד לאחד מרצף להערה, שאינה מייצגת את האופי הדינמי והתלוי בהקשר של השפה הגנומית", אמר הוואנג.

הוואנג שיתף פעולה עם מחברים שותפים אנדרה קורנמן (חוקר עצמאי ב למידת מכונה וביולוגיה), סרגיי אובצ'יניקוב (עמית מצטיין לשעבר ג'ון הרווארד וכיום עוזר פרופסור ב- MIT), ואליזבת קלוג (סגל עמית בבית החולים לחקר ילדים בסנט ג'וד) כדי להקים צוות בינתחומי עם רקע חזק במיקרוביולוגיה, גנומים, ביואינפורמטיקה, מדעי החלבון ולמידת מכונה.

"במעבדה, אנחנו תקועים בתהליך שלב אחר שלב של מציאת גן, ייצור חלבון, טיהורו, אפיון שלו וכו' וכך אנחנו מגלים רק את מה שאנחנו כבר יודעים", אמר גירגויס. gLM, לעומת זאת, מאפשר לביולוגים להסתכל על ההקשר של גן לא ידוע ותפקידו כאשר הוא נמצא לעתים קרובות בקבוצות דומות של גנים. המודל יכול לומר לחוקרים שקבוצות הגנים הללו פועלות יחד כדי להשיג משהו, והוא יכול לספק את התשובות שאינן מופיעות ב"מילון".

"הקשר גנומי מכיל מידע קריטי להבנת ההיסטוריה האבולוציונית והמסלולים האבולוציוניים של חלבונים וגנים שונים", אמר הוואנג. "בסופו של דבר, gLM לומדת את המידע ההקשרי הזה כדי לעזור לחוקרים להבין את הפונקציות של גנים שבעבר היו ללא הערות."

"שיטות ביאור פונקציונליות מסורתיות מתמקדות בדרך כלל בחלבון אחד בכל פעם, תוך התעלמות מהאינטראקציות בין חלבונים. gLM מייצג התקדמות גדולה על ידי שילוב הרעיון של שכונות גנים עם מודלים של שפה, ובכך מספק מבט מקיף יותר על אינטראקציות חלבון", אמר מרטין סטיינגר (עוזר פרופסור, האוניברסיטה הלאומית של סיאול), מומחה לביואינפורמטיקה ולמידת מכונה, שלא היה מעורב במחקר.

בעזרת מודלים של שפה גנומית, ביולוגים יכולים לגלות דפוסים גנומיים חדשים ולגלות ביולוגיה חדשה. gLM מהווה אבן דרך משמעותית בשיתוף פעולה בין-תחומי המניע את ההתקדמות במדעי החיים.

"עם gLM נוכל לקבל תובנות חדשות לגבי גנומים עם הערות גרועות", אמר הוואנג. "gLM יכול גם להנחות אימות ניסיוני של פונקציות ולאפשר גילויים של פונקציות חדשות ומנגנונים ביולוגיים. אנו מקווים ש-gLM תוכל להאיץ את הגילוי של פתרונות ביוטכנולוגיים חדשים לשינויי אקלים וביו-כלכלה".

ניקולס