انقلابی در عرصه زیست شناسی در راه است!

با توجه به وجود داده های زیاد در مورد ژن ها و سلول ها مدل های مبتنی بر هوش مصنوعی اکتشافات شگفت انگیزی داشته اند. آن مدل ها چه جیزی را می توانند به ما به بیاموزند؟

تاریخ انتشار: ۰۰:۲۵ - ۲۶ اسفند ۱۴۰۲

فرارو- کارل زیمر؛ نویسنده و روزنامه نگار مشهور در حوزه علم است که در موضوعات تکامل، انگل‌ها و وراثت تخصص دارد. او نویسنده کتب زیادی است و مقالات علمی اش در روزنامه و نشریاتی، چون نیویورک تایمز، دیسکاور و نشنال جئوگرافیک منتشر شده اند. زیمر استادیار بیوفیزیک مولکولی و بیوشیمی در دانشگاه ییل است. زیمر هم چنین به طور مکرر سخنرانی می‌کند. او تنها نویسنده حوزه علم است که به افتخار خدمات اش نام اش بر روی گونه‌ای از کرم نواری به نام Acanthobothrium zimmeri گذاشته شده است. او از سال ۱۹۹۴ تا ۲۰۲۱ میلادی برنده جوایز متعدد علمی و روزنامه نگاری بوده است.

به گزارش فرارو به نقل از نیویورک تایمز، "فرانسوا ژیلبر ویو" پزشکی فرانسوی در سال ۱۸۸۹ میلادی از کوهی در رشته کوه‌های آند پایین آمد از بازوی او خون گرفته شد و زیر میکروسکوپ مورد بررسی قرار گرفت. گلبول‌های قرمز دکتر ویو که حامل اکسیژن بودند به میزان ۴۲ درصد افزایش یافته بودند. او قدرت اسرارآمیز بدن اش را کشف کرده بود زمانی که بدن انسان به تعداد بیش تری از آن سلول‌های خونی نیاز دارد می‌تواند ان‌ها را در صورت نیاز بسازد. در اوایل دهه ۱۹۰۰ میلادی دانشمندان این نظریه را مطرح کردند که علت آن پدیده وجود یک هورمون است. آنان هورمون فرضی را اریتروپویتین یا در یونانی "سازنده قرمز" نامیدند. پژوهشگران هفت دهه پس از آن به دنبال بررسی ۵۷۰ گالن ادرار اریتروپویتین واقعی را یافتند.

زیست شناسان در اسرائیل حدود پنج دهه پس از آن اعلام کردند که سلول کلیوی نادری را یافته اند که زمانی که اکسیژن به شدت کاهش می‌یابد آن هورمون را تولید می‌کند. این سلول نورن نامیده می‌شود که نام آن از خدایان نورس که تصور می‌شد سرنوشت انسان را کنترل می‌کنند اقتباس شده است. ۱۳۴ سال به طول انجامید تا انسان‌ها سلول‌های نورن را کشف کنند. رایانه‌ها در کالیفرنیا تابستان گذشته آن سلول‌ها را به تنهایی ظرف مدت شش هفته کشف کردند.

این کشف زمانی رخ داد که پژوهشگران دانشگاه استنفورد رایائه‌ها را برای آموزش زیست شناسی برنامه ریزی کردند. آن رایانه‌ها یک برنامه هوش مصنوعی شبیه به چت جی پی تی (Chat GPT) را اجرا کردند چت بات محبوبی که پس از آموزش روی میلیارد‌ها متن از اینترنت به زبان مسلط شد. با این وجود، پژوهشگران دانشگاه استنفورد رایانه‌های خود را بر روی داده‌های خام در مورد میلیون‌ها سلول واقعی و ترکیب شیمیایی و ژنتیکی آن آموزش دادند.

پژوهشگران به رایانه‌ها نگفتند که این اندازه گیری‌ها چه معنایی دارد. آنان توضیح ندادند که انواع مختلف سلول‌ها پروفایل‌های بیوشیمیایی متفاوتی دارند. آنان تعریف نکردند که برای مثال کدام سلول در چشم ما نور دریافت می‌کند یا کدام یک آنتی بادی را می‌سازند. رایانه‌ها به تنهایی داده‌ها را خرد کردند و مدلی از تمام سلول‌ها را براساس شباهت آن‌ها به یکدیگر در فضایی وسیع و چند بعدی ایجاد کردند. رایانه‌ها به میزان شگفت انگیزی آموخته بودند. رایانه‌ها توانستند سلولی را که پیش‌تر هرگز ندیده بودند به عنوان یکی از بیش از ۱۰۰۰ نوع مختلف طبقه بندی کنند. یکی از آن‌ها سلول نورن بود. یکی از دانشمندان حوزه رایانه در استنفورد که به رایانه‌ها آموزش داده می‌گوید:"این قابل توجه است، زیرا هیچ کس هرگز به مدل نگفت که یک سلول نورن در کلیه وجود دارد".

این نرم‌افزار یکی از چندین برنامه جدید مبتنی بر هوش مصنوعی است که به عنوان مدل‌های پایه شناخته می‌شود و به مبانی زیست شناسی توجه می‌کند. مدل‌ها صرفا اطلاعاتی را که زیست شناسان جمع آوری می‌کنند مرتب نمی‌کنند. آنان در مورد چگونگی عملکرد ژن‌ها و چگونگی رشد سلول‌ها اکتشافاتی انجام می‌دهند.

با افزایش مقیاس مدل‌ها با داده‌های آزمایشگاهی و قدرت محاسباتی بیش‌تر دانشمندان پیش بینی می‌کنند که آن نرم افزار و مدل‌های مبتنی بر هوش مصنوعی اکتشافات عمیق تری را آغاز خواهند کرد و ممکن است اسرار سرطان و سایر بیماری‌ها را فاش کنند. هم چنین، ممکن است دستورالعمل‌هایی برای تبدیل یک نوع سلول به سلول دیگر پیدا کنند. دکتر "اریک توپول" مدیر موسسه ترجمه تحقیقاتی اسکریپس می‌گوید:"کشف حیاتی در مورد زیست شناسی که در غیر این صورت توسط زیست‌شناسان انجام نمی‌شد را شاهد خواهیم بود".

این که مدل‌های مبتنی بر هوش مصنوعی تا کجا پیش خواهند رفت موضوعی محل بحث است. در حالی که برخی از شکاکان باور دارند که این مدل‌ها قرار است به بن بست برسند دانشمندان خوش بین‌تر باور دارند که مدل‌های پایه حتی به بزرگ‌ترین سوال بیولوژیکی (زیست شناختی) پاسخ خواهند داد: چه چیزی حیات را از غیر حیات جدا می‌سازد؟

زیست شناسان مدت هاست به دنبال آن بوده اند که سلول‌های مختلف بدن ما چگونه از ژن‌ها برای انجام بسیاری از کار‌هایی که برای زنده ماندن نیاز داریم استفاده می‌کنند. پژوهشگران حدود یک دهه پیش آزمایش‌هایی را در مقیاس صنعتی برای بیرون کشیدن تکه‌های ژنتیکی از سلول‌های منفرد آغاز کردند. آنان آن چه را که در کاتالوگ‌ها یا "اطلس‌های سلولی" یافتند ثبت کردند که حاوی میلیارد‌ها داده بود. دکتر "کریستینا تئودوریس" رزیدنت پزشکی در بیمارستان کودکان بوستون در حال مطالعه در مورد نوع جدیدی از مدل مبتنی بر هوش مصنوعی ساخته شده توسط مهندسان گوگل در سال ۲۰۱۷ میلادی برای ترجمه زبان بود. پژوهشگران به آن مدل میلیون‌ها جمله به زبان انگلیسی همراه با ترجمه آن‌ها به آلمانی و فرانسوی را ارائه کردند. آن مدل قدرت ترجمه جملاتی را که پیش‌تر ندیده بود توسعه داد. دکتر تئودوریس فکر کرد که آیا یک مدل مشابه می‌تواند به خود بیاموزد که داده‌های موجود در اطلس سلولی را درک کند. او در سال ۲۰۲۱ میلادی برای یافتن آزمایشگاهی تلاش کرد که به او اجازه می‌داد سعی کند آزمایش اش را انجام او دهد. او گفت:" شک و تردید زیادی وجود داشت که این رویکرد اصلا کارساز باشد". "شرلی لیو" زیست شناس محاسباتی در موسسه سرطان دانا - فاربر در بوستون به او ازمایشگاهی را ارائه داد. دکتر تئودوریس داده‌ها را از ۱۰۶ مطالعه منتشر شده انسانی که در مجموع ۳۰ میلیون سلول را شامل می‌شد استخراج کرد و همه آن‌ها را در برنامه‌ای به نام Gene Former قرار داد. این مدل درک عمیقی از نحوه رفتار ژن‌های ما در سلول‌های مختلف به دست آورد. برای مثال، آن مدل پیش بینی کرد که خاموش کردن ژنی به نام TEAD۴ در نوع خاصی از سلول‌های قلب آن را به شدت مختل می‌سازد. وقتی تیم او این پیش بینی را در سلول‌های واقعی به نام کاردیومیوسیت آزمایش کرد ضربان سلول‌های قلب ضعیف‌تر شد. در آزمایش دیگری او و همکاران اش سلول‌های قلب Gene Former را از افراد دارای ریتم ضربان قلب ناقص و هم چنین افراد سالم نشان دادند. دکتر تئودوریس که اکنون در دانشگاه کالیفرنیا در سانفرانسیسکو کار می‌کند می‌گوید:"سپس گفتیم حالا به ما بگویید که چه تغییراتی باید در سلول‌های ناسالم رخ دهد تا آن‌ها را سالم کنیم". Gene Former در پاسخ توصیه کرد که فعالیت چهار ژن را که پیش‌تر هرگز با بیماری قلبی مرتبط نبوده اند کاهش دهید. تیم دکتر تئودوریس توصیه‌های آن مدل را دنبال کردند و هر یک از چهار ژن را از بین بردند. در دو مورد از چهار مورد درمان نحوه انقباض سلول‌ها را بهبود بخشید. تیم استنفورد پس از کمک به ساخت یکی از بزرگ‌ترین پایگاه‌های داده سلول‌ها در جهان به نام Cell X Gene وارد تجارت مدل پایه شد. پژوهشگران در آغاز ماه آگوست رایانه‌های خود را بر روی ۳۳ میلیون سلول در پایگاه داده آموزش دادند و بر نوعی از اطلاعات ژنتیکی به نام RNA پیام رسان تمرکز کردند. آنان هم چنین ساختار‌های سه بعدی پروتئین‌ها را که محصول ژن‌ها هستند به مدل ارائه دادند. رایانه‌های آموختند که چگونه بیش از هزار نوع سلول را بر اساس نحوه روشن و خاموش شدن ژن آن‌ها طبقه بندی کنند. از این داده‌ها مدل معروف به Universal Cell Embedding یا UCE شباهت بین سلول‌ها را محاسبه کرد و آن‌ها را به بیش از ۱۰۰۰ خوشه بر اساس نحوه استفاده از ژن‌های شان گروه بندی نمود. این خوشه‌ها با انواع سلول‌های کشف شده توسط نسل‌های مختلف زیست شناسان مطابقت داشتند. UCE هم چنین نکات مهمی را در مورد چگونگی رشد سلول‌ها از یک تخمک بارور شده به خود آموخت. برای مثال، UCE متوجه شد که تمام سلول‌های بدن را می‌توان بر اساس کدام یک از سه لایه در جنین اولیه گروه بندی کرد. "استفان کویک" بیوفیزیکدان در استنفورد که به توسعه UCE کمک کرد می‌گوید:" این مدل اساسا زیست شناسی رشد را دوباره کشف کرد. این مدل هم چنین توانست دانش خود را به گونه‌های جدید انتقال دهد. زمانی که به UCE مشخصات ژنتیکی سلول‌های حیوانی که پیش‌تر هرگز ندیده بود برای مثال، موش خال برهنه ارائه شود آن مدل می‌تواند بسیاری از انواع سلول‌های آن حیوان را شناسایی کند. شما می‌توانید یک ارگانیسم کاملا جدید مرغ، قورباغه، ماهی، هر چیز دیگری را در مدل قرار دهید و پس از آن نتیجه مفیدی را به دست آورید.

دانشمندان پس از UCE سلول‌های نورن را کشف کردند و در پایگاه داده Cell X Gene جستجو کردند تا ببینند از کجا آمده اند. در حالی که بسیاری از سلول‌ها از کلیه‌ها گرفته شده بودند برخی از ریه‌ها یا سایر اندام‌ها به وجود آمده بودند. محققان حدس می‌زنند که ممکن است سلول‌های نورن ناشناخته قبلی در سراسر بدن پراکنده شده باشند.

در مورد سلول‌های نورن واقعی تردید وجود دارد که آن مدل آن سلول‌ها را در خارج از کلیه‌ها پیدا کند، زیرا هورمون اریتروپویتین در مکان‌های دیگر یافت نشده اند. با این وجود، سلول‌های جدید ممکن است مانند سلول‌های نورن اکسیژن را حس کنند. به عبارت دیگر UCE ممکن است پیش از زیست شناسان نوع جدیدی از سلول را کشف کرده باشد.

درست مانند چت جی پی تی مدل‌های بیولوژیکی گاهی اوقات اشتباه می‌کنند. "کاسیا کدزیرسکا" زیست شناس محاسباتی در دانشگاه آکسفورد و همکاران اش همکاران ش اخیرا به Gene Former و یک مدل پایه دیگر به نام scGPT مجموعه‌ای از آزمایش‌ها را ارائه کردند. آن‌ها اطلس‌های سلولی را به مدل‌هایی ارائه کردند که پیش‌تر ندیده بودند و از مدل‌ها خواستند وظایفی مانند طبقه بندی سلول‌ها را انجام دهند. مدل‌ها در برخی از کار‌ها به خوبی عمل کردند، اما در موارد دیگر در مقایسه با برنامه‌های رایانه‌ای ساده‌تر عملکرد ضعیفی داشتند.

دکتر کدزیرسکا گفت که امید زیادی به این مدل‌ها دارد، اما در حال حاضر نباید بدون درک درست از محدودیت‌هایی که وجود دارد از آن مدل‌ها استفاده کرد. مدل‌ها با آموزش دانشمندان مبتنی بر داده‌های بیش‌تر در حال بهبود هستند. با این وجود، در مقایسه با آموزش چت جی پی تی در کل اینترنت تازه‌ترین اطلس‌های سلولی تنها مقدار اندکی از اطلاعات را ارائه می‌دهند. به همین خاطر یک اینترنت کامل از سلول‌ها مورد نیاز است!

با آنلاین شدن اطلس‌های سلولی بزرگتر سلول‌های بیش تری در راه هستند و دانشمندان در حال جمع آوری انواع مختلف داده‌ها از هر یک از سلول‌های آن اطلس‌ها هستند. برخی از دانشمندان در حال فهرست بندی مولکول‌هایی هستند که به ژن‌ها می‌چسبند یا از سلول‌ها عکس می‌گیرند تا مکان دقیق پروتئین‌های شان را روشن کنند. تمام این اطلاعات به مدل‌های پایه اجازه می‌دهد تا در مورد آن چه سلول‌ها را به کار می‌اندازند درس‌هایی را بیاموزند. دانشمندان هم چنین در حال توسعه ابزار‌هایی هستند که به مدل‌های پایه اجازه می‌دهد آن چه را که به تنهایی یاد می‌گیرند با آن چه زیست شناسان پیش‌تر کشف کرده اند ترکیب نمایند. ایده آن است که یافته‌های هزاران مقاله علمی منتشر شده را به پایگاه‌های داده اندازه گیری سلولی متصل کنیم. دانشمندان می‌گویند با داده‌ها و قدرت محاسباتی کافی در نهایت ممکن است یک نمایش ریاضی کامل از یک سلول ایجاد کنند. "بو وانگ" زیست شناس محاسباتی در دانشگاه تورنتو و خالق scGPT می‌گوید:"این برای حوزه زیست شناسی انقلابی بزرگ خواهد بود". او حدس می‌زند که با این سلول مجازی می‌توان پیش بینی کرد که یک سلول واقعی در هر شرایطی چه کاری انجام می‌دهد. دانشمندان در آن صورت می‌توانند آزمایش‌های کامل را بر روی رایانه‌های خود به جای ظروف پتری انجام دهند.

دکتر کویک می‌گوید:"فکر می‌کنم این مدل‌ها به ما کمک می‌کنند تا درکی واقعا بنیادی از سلول به دست آوریم که می‌تواند بینش واقعی را در مورد زندگی ارائه دهد". داشتن نقشه‌ای از آن چه برای حفظ حیات ممکن و غیر ممکن است می‌تواند بدان معنا باشد که دانشمندان در واقع می‌توانند سلول‌های جدیدی ایجاد کنند که هنوز در طبیعت وجود ندارند. مدل پایه ممکن است قادر به ساخت دستور العمل‌های شیمیایی باشد که سلول‌های معمولی را به سلول‌های جدید و خارق العاده تبدیل می‌کند. آن سلول‌های جدید ممکن است پلاک‌های موجود در رگ‌های خونی را ببلعند یا یک عضو بیمار را برای گزارش وضعیت آن بررسی کنند. دکتر کویک اعتراف کرد:"سفر فوق العاده‌ای است"، اما چه کسی می‌داند که آینده چه خواهد بود؟

البته اگر مدل‌های پایه رویا‌های دکتر کویک را تحقق بخشند خطراتی نیز به همراه خواهند داشت از جمله آن که می‌توان از آن‌ها برای ساخت تسلیحات بیولوژیکی جدید استفاده کرد. برخی از دانشمندان در مورد این که مدل‌های بنیادی تا چه اندازه در مسیر "سفر شگفت انگیز" قرار خواهند گرفت تردید دارند. مدل‌ها صرفا به خوبی با داده‌هایی تغذیه شده اند. انجام یک کشف جدید مهم در مورد زندگی ممکن است به داشتن داده‌هایی بستگی داشته باشد که نحوه جمع‌آوری آن‌ها را تاکنون درک نکرده ایم. حتی ممکن است ندانیم که مدل‌ها به چه داده‌هایی نیاز دارند. " سارا واکر" فیزیکدان دانشگاه ایالتی آریزونا که مبانی فیزیکی زندگی را مطالعه می‌کند می‌گوید:"مدل‌ها ممکن است به اکتشافات جدید جالب توجهی دست یابند، اما در نهایت وقتی نوبت به پیشرفت‌های اساسی جدید می‌رسد محدود هستند".

از میان اخبار