SciTechDaily

ניקולס

פיצוח קוד החיים: מודל AI חדש לומד את השפה הנסתרת של ה-DNA

GROVER, מודל שפה גדול חדש שהוכשר על DNA אנושי על ידי חוקרים במרכז הביוטכנולוגיה של אוניברסיטת דרזדן, יכול לפענח מידע גנומי מורכב על ידי התייחסות ל-DNA כשפה. כלי חדשני זה טומן בחובו את הפוטנציאל לחולל מהפכה בגנומיקה ולהאיץ רפואה מותאמת אישית.

DNA הוא חיוני לחיים, והארגון שלו היווה אתגר מדעי משמעותי. GROVER, מודל שפותח על ידי BIOTEC, מפענח DNA כמו טקסט, ומבטיח התקדמות בגנומיקה ורפואה מותאמת אישית.

ה-DNA מחזיק את המידע החיוני הנדרש כדי לקיים חיים. פענוח האופן שבו המידע הזה מאוחסן ומאורגן היה אחד האתגרים המדעיים הגדולים ביותר של המאה האחרונה. כעת, עם GROVER, מודל שפה גדול חדש שאומן על דנ"א אנושי, חוקרים יכולים לנסות לפענח את המידע המורכב החבוי בתוך הגנום שלנו. פותח על ידי צוות במרכז הביוטכנולוגיה (BIOTEC) של אוניברסיטת דרזדן לטכנולוגיה, GROVER מתייחס ל-DNA האנושי כטקסט, לומד את הכללים וההקשר שלו כדי לחלץ מידע פונקציונלי על רצפי DNA. פורסם ב Nature Machine Intelligenceלכלי חדשני זה יש פוטנציאל לחולל מהפכה בגנומיקה ולהאיץ רפואה מותאמת אישית.

מאז גילוי הסליל הכפול, מדענים ביקשו להבין את המידע המקודד ב-DNA. 70 שנה לאחר מכן, ברור שהמידע החבוי ב-DNA הוא רב-שכבתי. רק 1-2% מהגנום מורכב מגנים, הרצפים המקודדים לחלבונים.

"ל-DNA יש פונקציות רבות מעבר לקידוד לחלבונים. רצפים מסוימים מווסתים גנים, אחרים משרתים מטרות מבניות, ורוב הרצפים משרתים מספר פונקציות בו-זמנית. נכון לעכשיו, אנחנו לא מבינים את המשמעות של רוב ה-DNA. כשזה מגיע להבנת האזורים הלא-מקודדים של ה-DNA, נראה שרק התחלנו לגרד את פני השטח. זה המקום שבו בינה מלאכותית ומודלים של שפות גדולים יכולים לעזור", אומרת ד"ר אנה פוטש, ראש קבוצת המחקר ב-BIOTEC.

DNA כשפה

מודלים גדולים של שפה, כמו GPT, שינו את ההבנה שלנו בשפה. מודלי השפה הגדולים, שהוכשרו אך ורק על טקסט, פיתחו את היכולת להשתמש בשפה בהקשרים רבים.

"DNA הוא הקוד של החיים. למה לא להתייחס לזה כאל שפה?" אומר ד"ר פוטש. צוות Poetsch אימן מודל שפה גדול על גנום אנושי ייחוס. הכלי שנוצר בשם GROVER, או "כללי גנום שהושגו באמצעות ייצוגים שחולצו", יכול לשמש כדי לחלץ משמעות ביולוגית מה-DNA.

"GROVER למד את חוקי ה-DNA. מבחינת שפה, אנחנו מדברים על דקדוק, תחביר וסמנטיקה. עבור DNA זה אומר ללמוד את הכללים השולטים ברצפים, את סדר הנוקלאוטידים והרצפים ואת משמעות הרצפים. כמו מודלים של GPT הלומדים שפות אנושיות, GROVER למד בעצם איך 'לדבר' DNA", מסבירה ד"ר מליסה סנבריה, החוקרת מאחורי הפרויקט.

הצוות הראה ש- GROVER לא רק יכול לחזות במדויק את רצפי ה-DNA הבאים, אלא יכול לשמש גם כדי לחלץ מידע הקשרי בעל משמעות ביולוגית, למשל, לזהות מקדמי גנים או אתרי קישור לחלבונים ב-DNA. GROVER גם לומד תהליכים הנחשבים בדרך כלל ל"אפיגנטיים", כלומר, תהליכי רגולציה המתרחשים על גבי ה-DNA במקום להיות מקודדים.

"זה מרתק שעל ידי אימון GROVER רק עם רצף ה-DNA, ללא כל הערות של פונקציות, אנחנו למעשה מסוגלים לחלץ מידע על תפקוד ביולוגי. בעינינו זה מראה שהתפקוד, כולל חלק מהמידע האפיגנטי, מקודד גם ברצף", אומר ד"ר סנבריה.

מילון ה-DNA

"DNA דומה לשפה. יש לו ארבע אותיות שבונות רצפים ולרצפים יש משמעות. עם זאת, בניגוד לשפה, לדנ"א אין מילים מוגדרות", אומר ד"ר פואטש. ה-DNA מורכב מארבע אותיות (A, T, G ו-C) וגנים, אך אין רצפים מוגדרים מראש באורכים שונים המשתלבים לבניית גנים או רצפים משמעותיים אחרים.

כדי להכשיר את GROVER, הצוות היה צריך ליצור תחילה מילון DNA. הם השתמשו בטריק מאלגוריתמי דחיסה. "השלב הזה הוא מכריע ומבדל את מודל שפת ה-DNA שלנו מהניסיונות הקודמים", אומר ד"ר פואטש.

"ניתחנו את כל הגנום וחיפשנו שילובים של אותיות שמתרחשות לרוב. התחלנו עם שתי אותיות ועברנו על ה-DNA, שוב ושוב, כדי לבנות אותו לשילובים הנפוצים ביותר של ריבוי אותיות. בדרך זו, בכ-600 מחזורים, פיצחנו את ה-DNA ל'מילים' שנותנות ל-GROVER לבצע את הביצועים הטובים ביותר בכל הנוגע לניבוי הרצף הבא", מסביר ד"ר סנבריה.

ההבטחה של AI בגנומיקה

GROVER מבטיח לפתוח את השכבות השונות של הקוד הגנטי. ה-DNA מכיל מידע מפתח על מה שהופך אותנו לאנושיים, נטיות המחלה שלנו והתגובות שלנו לטיפולים.

"אנו מאמינים שהבנת חוקי ה-DNA באמצעות מודל שפה הולכת לעזור לנו לחשוף את מעמקי המשמעות הביולוגית החבויה ב-DNA, ולקדם גם את הגנומיקה וגם את הרפואה המותאמת אישית", אומר ד"ר פואטש.

ניקולס