با توجه به وجود داده های زیاد در مورد ژن ها و سلول ها مدل های مبتنی بر هوش مصنوعی اکتشافات شگفت انگیزی داشته اند. آن مدل ها چه جیزی را می توانند به ما به بیاموزند؟
فرارو- کارل زیمر؛ نویسنده و روزنامه نگار مشهور در حوزه علم است که در موضوعات تکامل، انگلها و وراثت تخصص دارد. او نویسنده کتب زیادی است و مقالات علمی اش در روزنامه و نشریاتی، چون نیویورک تایمز، دیسکاور و نشنال جئوگرافیک منتشر شده اند. زیمر استادیار بیوفیزیک مولکولی و بیوشیمی در دانشگاه ییل است. زیمر هم چنین به طور مکرر سخنرانی میکند. او تنها نویسنده حوزه علم است که به افتخار خدمات اش نام اش بر روی گونهای از کرم نواری به نام Acanthobothrium zimmeri گذاشته شده است. او از سال ۱۹۹۴ تا ۲۰۲۱ میلادی برنده جوایز متعدد علمی و روزنامه نگاری بوده است.
به گزارش فرارو به نقل از نیویورک تایمز، "فرانسوا ژیلبر ویو" پزشکی فرانسوی در سال ۱۸۸۹ میلادی از کوهی در رشته کوههای آند پایین آمد از بازوی او خون گرفته شد و زیر میکروسکوپ مورد بررسی قرار گرفت. گلبولهای قرمز دکتر ویو که حامل اکسیژن بودند به میزان ۴۲ درصد افزایش یافته بودند. او قدرت اسرارآمیز بدن اش را کشف کرده بود زمانی که بدن انسان به تعداد بیش تری از آن سلولهای خونی نیاز دارد میتواند انها را در صورت نیاز بسازد. در اوایل دهه ۱۹۰۰ میلادی دانشمندان این نظریه را مطرح کردند که علت آن پدیده وجود یک هورمون است. آنان هورمون فرضی را اریتروپویتین یا در یونانی "سازنده قرمز" نامیدند. پژوهشگران هفت دهه پس از آن به دنبال بررسی ۵۷۰ گالن ادرار اریتروپویتین واقعی را یافتند.
زیست شناسان در اسرائیل حدود پنج دهه پس از آن اعلام کردند که سلول کلیوی نادری را یافته اند که زمانی که اکسیژن به شدت کاهش مییابد آن هورمون را تولید میکند. این سلول نورن نامیده میشود که نام آن از خدایان نورس که تصور میشد سرنوشت انسان را کنترل میکنند اقتباس شده است. ۱۳۴ سال به طول انجامید تا انسانها سلولهای نورن را کشف کنند. رایانهها در کالیفرنیا تابستان گذشته آن سلولها را به تنهایی ظرف مدت شش هفته کشف کردند.
این کشف زمانی رخ داد که پژوهشگران دانشگاه استنفورد رایائهها را برای آموزش زیست شناسی برنامه ریزی کردند. آن رایانهها یک برنامه هوش مصنوعی شبیه به چت جی پی تی (Chat GPT) را اجرا کردند چت بات محبوبی که پس از آموزش روی میلیاردها متن از اینترنت به زبان مسلط شد. با این وجود، پژوهشگران دانشگاه استنفورد رایانههای خود را بر روی دادههای خام در مورد میلیونها سلول واقعی و ترکیب شیمیایی و ژنتیکی آن آموزش دادند.
پژوهشگران به رایانهها نگفتند که این اندازه گیریها چه معنایی دارد. آنان توضیح ندادند که انواع مختلف سلولها پروفایلهای بیوشیمیایی متفاوتی دارند. آنان تعریف نکردند که برای مثال کدام سلول در چشم ما نور دریافت میکند یا کدام یک آنتی بادی را میسازند. رایانهها به تنهایی دادهها را خرد کردند و مدلی از تمام سلولها را براساس شباهت آنها به یکدیگر در فضایی وسیع و چند بعدی ایجاد کردند. رایانهها به میزان شگفت انگیزی آموخته بودند. رایانهها توانستند سلولی را که پیشتر هرگز ندیده بودند به عنوان یکی از بیش از ۱۰۰۰ نوع مختلف طبقه بندی کنند. یکی از آنها سلول نورن بود. یکی از دانشمندان حوزه رایانه در استنفورد که به رایانهها آموزش داده میگوید:"این قابل توجه است، زیرا هیچ کس هرگز به مدل نگفت که یک سلول نورن در کلیه وجود دارد".
این نرمافزار یکی از چندین برنامه جدید مبتنی بر هوش مصنوعی است که به عنوان مدلهای پایه شناخته میشود و به مبانی زیست شناسی توجه میکند. مدلها صرفا اطلاعاتی را که زیست شناسان جمع آوری میکنند مرتب نمیکنند. آنان در مورد چگونگی عملکرد ژنها و چگونگی رشد سلولها اکتشافاتی انجام میدهند.
با افزایش مقیاس مدلها با دادههای آزمایشگاهی و قدرت محاسباتی بیشتر دانشمندان پیش بینی میکنند که آن نرم افزار و مدلهای مبتنی بر هوش مصنوعی اکتشافات عمیق تری را آغاز خواهند کرد و ممکن است اسرار سرطان و سایر بیماریها را فاش کنند. هم چنین، ممکن است دستورالعملهایی برای تبدیل یک نوع سلول به سلول دیگر پیدا کنند. دکتر "اریک توپول" مدیر موسسه ترجمه تحقیقاتی اسکریپس میگوید:"کشف حیاتی در مورد زیست شناسی که در غیر این صورت توسط زیستشناسان انجام نمیشد را شاهد خواهیم بود".
این که مدلهای مبتنی بر هوش مصنوعی تا کجا پیش خواهند رفت موضوعی محل بحث است. در حالی که برخی از شکاکان باور دارند که این مدلها قرار است به بن بست برسند دانشمندان خوش بینتر باور دارند که مدلهای پایه حتی به بزرگترین سوال بیولوژیکی (زیست شناختی) پاسخ خواهند داد: چه چیزی حیات را از غیر حیات جدا میسازد؟
زیست شناسان مدت هاست به دنبال آن بوده اند که سلولهای مختلف بدن ما چگونه از ژنها برای انجام بسیاری از کارهایی که برای زنده ماندن نیاز داریم استفاده میکنند. پژوهشگران حدود یک دهه پیش آزمایشهایی را در مقیاس صنعتی برای بیرون کشیدن تکههای ژنتیکی از سلولهای منفرد آغاز کردند. آنان آن چه را که در کاتالوگها یا "اطلسهای سلولی" یافتند ثبت کردند که حاوی میلیاردها داده بود. دکتر "کریستینا تئودوریس" رزیدنت پزشکی در بیمارستان کودکان بوستون در حال مطالعه در مورد نوع جدیدی از مدل مبتنی بر هوش مصنوعی ساخته شده توسط مهندسان گوگل در سال ۲۰۱۷ میلادی برای ترجمه زبان بود. پژوهشگران به آن مدل میلیونها جمله به زبان انگلیسی همراه با ترجمه آنها به آلمانی و فرانسوی را ارائه کردند. آن مدل قدرت ترجمه جملاتی را که پیشتر ندیده بود توسعه داد. دکتر تئودوریس فکر کرد که آیا یک مدل مشابه میتواند به خود بیاموزد که دادههای موجود در اطلس سلولی را درک کند. او در سال ۲۰۲۱ میلادی برای یافتن آزمایشگاهی تلاش کرد که به او اجازه میداد سعی کند آزمایش اش را انجام او دهد. او گفت:" شک و تردید زیادی وجود داشت که این رویکرد اصلا کارساز باشد". "شرلی لیو" زیست شناس محاسباتی در موسسه سرطان دانا - فاربر در بوستون به او ازمایشگاهی را ارائه داد. دکتر تئودوریس دادهها را از ۱۰۶ مطالعه منتشر شده انسانی که در مجموع ۳۰ میلیون سلول را شامل میشد استخراج کرد و همه آنها را در برنامهای به نام Gene Former قرار داد. این مدل درک عمیقی از نحوه رفتار ژنهای ما در سلولهای مختلف به دست آورد. برای مثال، آن مدل پیش بینی کرد که خاموش کردن ژنی به نام TEAD۴ در نوع خاصی از سلولهای قلب آن را به شدت مختل میسازد. وقتی تیم او این پیش بینی را در سلولهای واقعی به نام کاردیومیوسیت آزمایش کرد ضربان سلولهای قلب ضعیفتر شد. در آزمایش دیگری او و همکاران اش سلولهای قلب Gene Former را از افراد دارای ریتم ضربان قلب ناقص و هم چنین افراد سالم نشان دادند. دکتر تئودوریس که اکنون در دانشگاه کالیفرنیا در سانفرانسیسکو کار میکند میگوید:"سپس گفتیم حالا به ما بگویید که چه تغییراتی باید در سلولهای ناسالم رخ دهد تا آنها را سالم کنیم". Gene Former در پاسخ توصیه کرد که فعالیت چهار ژن را که پیشتر هرگز با بیماری قلبی مرتبط نبوده اند کاهش دهید. تیم دکتر تئودوریس توصیههای آن مدل را دنبال کردند و هر یک از چهار ژن را از بین بردند. در دو مورد از چهار مورد درمان نحوه انقباض سلولها را بهبود بخشید. تیم استنفورد پس از کمک به ساخت یکی از بزرگترین پایگاههای داده سلولها در جهان به نام Cell X Gene وارد تجارت مدل پایه شد. پژوهشگران در آغاز ماه آگوست رایانههای خود را بر روی ۳۳ میلیون سلول در پایگاه داده آموزش دادند و بر نوعی از اطلاعات ژنتیکی به نام RNA پیام رسان تمرکز کردند. آنان هم چنین ساختارهای سه بعدی پروتئینها را که محصول ژنها هستند به مدل ارائه دادند. رایانههای آموختند که چگونه بیش از هزار نوع سلول را بر اساس نحوه روشن و خاموش شدن ژن آنها طبقه بندی کنند. از این دادهها مدل معروف به Universal Cell Embedding یا UCE شباهت بین سلولها را محاسبه کرد و آنها را به بیش از ۱۰۰۰ خوشه بر اساس نحوه استفاده از ژنهای شان گروه بندی نمود. این خوشهها با انواع سلولهای کشف شده توسط نسلهای مختلف زیست شناسان مطابقت داشتند. UCE هم چنین نکات مهمی را در مورد چگونگی رشد سلولها از یک تخمک بارور شده به خود آموخت. برای مثال، UCE متوجه شد که تمام سلولهای بدن را میتوان بر اساس کدام یک از سه لایه در جنین اولیه گروه بندی کرد. "استفان کویک" بیوفیزیکدان در استنفورد که به توسعه UCE کمک کرد میگوید:" این مدل اساسا زیست شناسی رشد را دوباره کشف کرد. این مدل هم چنین توانست دانش خود را به گونههای جدید انتقال دهد. زمانی که به UCE مشخصات ژنتیکی سلولهای حیوانی که پیشتر هرگز ندیده بود برای مثال، موش خال برهنه ارائه شود آن مدل میتواند بسیاری از انواع سلولهای آن حیوان را شناسایی کند. شما میتوانید یک ارگانیسم کاملا جدید مرغ، قورباغه، ماهی، هر چیز دیگری را در مدل قرار دهید و پس از آن نتیجه مفیدی را به دست آورید.
دانشمندان پس از UCE سلولهای نورن را کشف کردند و در پایگاه داده Cell X Gene جستجو کردند تا ببینند از کجا آمده اند. در حالی که بسیاری از سلولها از کلیهها گرفته شده بودند برخی از ریهها یا سایر اندامها به وجود آمده بودند. محققان حدس میزنند که ممکن است سلولهای نورن ناشناخته قبلی در سراسر بدن پراکنده شده باشند.
در مورد سلولهای نورن واقعی تردید وجود دارد که آن مدل آن سلولها را در خارج از کلیهها پیدا کند، زیرا هورمون اریتروپویتین در مکانهای دیگر یافت نشده اند. با این وجود، سلولهای جدید ممکن است مانند سلولهای نورن اکسیژن را حس کنند. به عبارت دیگر UCE ممکن است پیش از زیست شناسان نوع جدیدی از سلول را کشف کرده باشد.
درست مانند چت جی پی تی مدلهای بیولوژیکی گاهی اوقات اشتباه میکنند. "کاسیا کدزیرسکا" زیست شناس محاسباتی در دانشگاه آکسفورد و همکاران اش همکاران ش اخیرا به Gene Former و یک مدل پایه دیگر به نام scGPT مجموعهای از آزمایشها را ارائه کردند. آنها اطلسهای سلولی را به مدلهایی ارائه کردند که پیشتر ندیده بودند و از مدلها خواستند وظایفی مانند طبقه بندی سلولها را انجام دهند. مدلها در برخی از کارها به خوبی عمل کردند، اما در موارد دیگر در مقایسه با برنامههای رایانهای سادهتر عملکرد ضعیفی داشتند.
دکتر کدزیرسکا گفت که امید زیادی به این مدلها دارد، اما در حال حاضر نباید بدون درک درست از محدودیتهایی که وجود دارد از آن مدلها استفاده کرد. مدلها با آموزش دانشمندان مبتنی بر دادههای بیشتر در حال بهبود هستند. با این وجود، در مقایسه با آموزش چت جی پی تی در کل اینترنت تازهترین اطلسهای سلولی تنها مقدار اندکی از اطلاعات را ارائه میدهند. به همین خاطر یک اینترنت کامل از سلولها مورد نیاز است!
با آنلاین شدن اطلسهای سلولی بزرگتر سلولهای بیش تری در راه هستند و دانشمندان در حال جمع آوری انواع مختلف دادهها از هر یک از سلولهای آن اطلسها هستند. برخی از دانشمندان در حال فهرست بندی مولکولهایی هستند که به ژنها میچسبند یا از سلولها عکس میگیرند تا مکان دقیق پروتئینهای شان را روشن کنند. تمام این اطلاعات به مدلهای پایه اجازه میدهد تا در مورد آن چه سلولها را به کار میاندازند درسهایی را بیاموزند. دانشمندان هم چنین در حال توسعه ابزارهایی هستند که به مدلهای پایه اجازه میدهد آن چه را که به تنهایی یاد میگیرند با آن چه زیست شناسان پیشتر کشف کرده اند ترکیب نمایند. ایده آن است که یافتههای هزاران مقاله علمی منتشر شده را به پایگاههای داده اندازه گیری سلولی متصل کنیم. دانشمندان میگویند با دادهها و قدرت محاسباتی کافی در نهایت ممکن است یک نمایش ریاضی کامل از یک سلول ایجاد کنند. "بو وانگ" زیست شناس محاسباتی در دانشگاه تورنتو و خالق scGPT میگوید:"این برای حوزه زیست شناسی انقلابی بزرگ خواهد بود". او حدس میزند که با این سلول مجازی میتوان پیش بینی کرد که یک سلول واقعی در هر شرایطی چه کاری انجام میدهد. دانشمندان در آن صورت میتوانند آزمایشهای کامل را بر روی رایانههای خود به جای ظروف پتری انجام دهند.
دکتر کویک میگوید:"فکر میکنم این مدلها به ما کمک میکنند تا درکی واقعا بنیادی از سلول به دست آوریم که میتواند بینش واقعی را در مورد زندگی ارائه دهد". داشتن نقشهای از آن چه برای حفظ حیات ممکن و غیر ممکن است میتواند بدان معنا باشد که دانشمندان در واقع میتوانند سلولهای جدیدی ایجاد کنند که هنوز در طبیعت وجود ندارند. مدل پایه ممکن است قادر به ساخت دستور العملهای شیمیایی باشد که سلولهای معمولی را به سلولهای جدید و خارق العاده تبدیل میکند. آن سلولهای جدید ممکن است پلاکهای موجود در رگهای خونی را ببلعند یا یک عضو بیمار را برای گزارش وضعیت آن بررسی کنند. دکتر کویک اعتراف کرد:"سفر فوق العادهای است"، اما چه کسی میداند که آینده چه خواهد بود؟
البته اگر مدلهای پایه رویاهای دکتر کویک را تحقق بخشند خطراتی نیز به همراه خواهند داشت از جمله آن که میتوان از آنها برای ساخت تسلیحات بیولوژیکی جدید استفاده کرد. برخی از دانشمندان در مورد این که مدلهای بنیادی تا چه اندازه در مسیر "سفر شگفت انگیز" قرار خواهند گرفت تردید دارند. مدلها صرفا به خوبی با دادههایی تغذیه شده اند. انجام یک کشف جدید مهم در مورد زندگی ممکن است به داشتن دادههایی بستگی داشته باشد که نحوه جمعآوری آنها را تاکنون درک نکرده ایم. حتی ممکن است ندانیم که مدلها به چه دادههایی نیاز دارند. " سارا واکر" فیزیکدان دانشگاه ایالتی آریزونا که مبانی فیزیکی زندگی را مطالعه میکند میگوید:"مدلها ممکن است به اکتشافات جدید جالب توجهی دست یابند، اما در نهایت وقتی نوبت به پیشرفتهای اساسی جدید میرسد محدود هستند".