SciTechDaily

ניקולס

בינה מלאכותית נופלת: דגמי שפות גדולים נאבקים בקידוד רפואי, תוכניות מחקר

מחקר מבית הספר לרפואה של איקאן בהר סיני מצביע על כך שמודלים של שפות גדולות כיום אינם יעילים לקידוד רפואי, ומצריכים פיתוח נוסף ובדיקות קפדניות לפני יישום קליני. קרדיט: twoday.co.il.com

מחקר מגלה את מגבלותיו בקידוד רפואי.

חוקרים מבית הספר לרפואה של איקאן בהר סיני מצאו שמערכות בינה מלאכותית מתקדמות, במיוחד מודלים של שפה גדולה (LLMs), דלות בקידוד רפואי. המחקר שלהם, שפורסם לאחרונה ב- NEJM AIמדגיש את ההכרח בשכלול ואימות של טכנולוגיות אלו לפני ששוקלים יישום קליני.

המחקר חילץ רשימה של יותר מ-27,000 קודי אבחון והליך ייחודיים מ-12 חודשי טיפול שגרתי במערכת הבריאות הר סיני, תוך אי הכללת נתוני חולים מזוהים. באמצעות התיאור של כל קוד, החוקרים הניעו מודלים מ-OpenAI, Google ומטה להפיק את הקודים הרפואיים המדויקים ביותר. הקודים שנוצרו הושוו לקודים המקוריים והשגיאות נותחו עבור כל דפוס.

ניתוח ביצועי המודל

החוקרים דיווחו כי כל דגמי השפה הגדולים שנחקרו, כולל GPT-4, GPT-3.5, Gemini-pro ו-Llama-2-70b, הראו מוגבלים דיוק (מתחת ל-50 אחוז) בשחזור הקודים הרפואיים המקוריים, תוך הדגשת פער משמעותי בתועלת שלהם לקידוד רפואי. GPT-4 הפגין את הביצועים הטובים ביותר, עם שיעורי ההתאמה המדויקים הגבוהים ביותר עבור ICD-9-CM (45.9 אחוז), ICD-10-CM (33.9 אחוז) וקודי CPT (49.8 אחוזים).

GPT-4 גם יצר את השיעור הגבוה ביותר של קודים שנוצרו בצורה שגויה שעדיין העבירו את המשמעות הנכונה. לדוגמה, כאשר קיבל את התיאור של ICD-9-CM "ערמונית נודולרית ללא חסימת שתן", GPT-4 יצר קוד ל"ערמונית נודולרית", המציג את ההבנה הניואנסית יחסית של הטרמינולוגיה הרפואית. עם זאת, אפילו בהתחשב בקודים הנכונים מבחינה טכנית, נותרו מספר גדול באופן בלתי מתקבל על הדעת של שגיאות.

לדגם הבא עם הביצועים הטובים ביותר, GPT-3.5, הייתה הנטייה הגדולה ביותר להיות מעורפל. היה לו השיעור הגבוה ביותר של קודים שנוצרו בצורה שגויה שהיו מדויקים אך כלליים יותר בהשוואה לקודים המדויקים. במקרה זה, כאשר סופק עם התיאור של ICD-9-CM "השפעה שלילית לא מוגדרת של הרדמה", GPT-3.5 יצר קוד עבור "תופעות לוואי אחרות שצוינו, לא מסווגות במקום אחר".

החשיבות של הערכת AI קפדנית

"הממצאים שלנו מדגישים את הצורך הקריטי בהערכה ובחידוד קפדניים לפני פריסת טכנולוגיות בינה מלאכותית בתחומים תפעוליים רגישים כמו קידוד רפואי", אומר מחבר המחקר המקביל עלי סורוש, MD, MS, עוזר פרופסור לרפואה מונעת נתונים ודיגיטלית (D3M), ו רפואה (גסטרואנטרולוגיה), באיכאן הר סיני. "למרות שבינה מלאכותית טומנת בחובה פוטנציאל גדול, יש לגשת אליה בזהירות ובפיתוח מתמשך כדי להבטיח את האמינות והיעילות שלה בתחום הבריאות."

יישום פוטנציאלי אחד עבור מודלים אלה בתעשיית הבריאות, אומרים החוקרים, הוא אוטומציה של הקצאת קודים רפואיים למטרות החזר ומחקר על סמך טקסט קליני.

"מחקרים קודמים מצביעים על כך שמודלים חדשים של שפה גדולים נאבקים במשימות מספריות. עם זאת, מידת הדיוק שלהם בהקצאת קודים רפואיים מטקסט קליני לא נחקרה ביסודיות על פני מודלים שונים", אומר מחבר שותף בכיר אייל קלנג, MD, מנהל תוכנית המחקר הגנרטיבי AI של D3M. "לכן, המטרה שלנו הייתה להעריך אם המודלים הללו יכולים לבצע ביעילות את המשימה הבסיסית של התאמת קוד רפואי לתיאור הטקסט הרשמי התואם שלו."

מחברי המחקר הציעו כי שילוב של LLMs עם ידע מומחה יכול להפוך את חילוץ הקוד הרפואי לאוטומטי, פוטנציאלי לשפר את דיוק החיובים ולהפחית עלויות אדמיניסטרטיביות בתחום הבריאות.

מסקנה והצעדים הבאים

"מחקר זה שופך אור על היכולות והאתגרים הנוכחיים של בינה מלאכותית בתחום הבריאות, ומדגיש את הצורך בשיקול זהיר ובחידוד נוסף לפני אימוץ נרחב", אומר שותף בכיר בסופר גיריש נדקרני, MD, MPH, Irene וד"ר ארתור מ. פרופ' פישברג לרפואה באיקאן הר סיני, מנהל מכון צ'ארלס ברונפמן לרפואה מותאמת אישית, ומנהל מערכת של D3M.

החוקרים מזהירים כי ייתכן שהמשימה המלאכותית של המחקר לא מייצגת באופן מלא תרחישים בעולם האמיתי שבהם ביצועי LLM עלולים להיות גרועים יותר.

בשלב הבא, צוות המחקר מתכנן לפתח כלי LLM מותאמים עבור מיצוי נתונים רפואיים מדויקים והקצאת קוד חיוב, במטרה לשפר את האיכות והיעילות בפעולות הבריאות.

מחקר זה נתמך על ידי פרס המעבר לפקולטה AGA2023-32-06 של AGA-Amgen Fellowship לשנת 2023 ופרס NIH UL1TR004419.

ניקולס