چند ترفند ساده برای آن‌که هوش مصنوعی، اطلاعات شما را ندزدد

هر محتوایی که در سطح اینترنت مشاهده می‌کنید، به‌احتمال‌زیاد جمع‌آوری شده و برای آموزش نسل کنونی هوش مصنوعی مولد مورداستفاده قرار گرفته است. مدل‌های زبان بزرگ مثل ChatGPT و ابزار‌های تولیدکنندهٔ تصویر با انبوهی از داده‌های ما تغذیه می‌شوند. حتی اگر این داده‌ها برای ساخت چت‌بات به کار نروند، می‌توانند در ویژگی‌های دیگر یادگیری ماشین استفاده شوند.

تاریخ انتشار: ۱۶:۴۹ - ۱۲ ارديبهشت ۱۴۰۳

در شرایطی که هوش مصنوعی با سرعتی روزافزون گسترش می‌یابد، با انجام چند ترفند ساده می‌توان جلوی دسترسی ابزار‌های هوش مصنوعی را به داده‌های شخصی خود گرفت تا از آن‌ها برای آموزش‌های مدل‌های هوش مصنوعی استفاده نشود.

به گزارش خبرآنلاین، هر محتوایی که در سطح اینترنت مشاهده می‌کنید، به‌احتمال‌زیاد جمع‌آوری شده و برای آموزش نسل کنونی هوش مصنوعی مولد مورداستفاده قرار گرفته است. مدل‌های زبان بزرگ مثل ChatGPT و ابزار‌های تولیدکنندهٔ تصویر با انبوهی از داده‌های ما تغذیه می‌شوند. حتی اگر این داده‌ها برای ساخت چت‌بات به کار نروند، می‌توانند در ویژگی‌های دیگر یادگیری ماشین استفاده شوند.

شرکت‌های فناوری برای جمع‌آوری داده‌هایی که به گفته خودشان برای خلق هوش مصنوعی مولد ضروری‌اند، سرتاسر وب را با بی‌توجهی به حقوق مؤلفان، قوانین کپی‌رایت و حریم خصوصی کاربران، کاویده‌اند و از هر داده‌ای که به دست آورده‌اند، برای آموزش هوش مصنوعی استفاده کرده‌اند. شرکت‌هایی هم که انبوهی از اطلاعات کاربران را در اختیار دارند، به دنبال سهمی از سود صنعت هوش مصنوعی هستند.

بر اساس مقاله وایرد، اگر شما هم نگرانید که داده‌هایتان مورداستفادهٔ هوش مصنوعی قرار بگیرد، با ماه همراه شوید تا به بررسی راهکار‌های جلوگیری از دسترسی هوش مصنوعی به اطلاعات خصوصی بپردازیم. البته پیش از آن‌که به روش‌های جلوگیری از دسترسی هوش مصنوعی به اطلاعات خصوصی بپردازیم، بهتر است سطح انتظارات را در حد واقع‌بینانه نگه‌داریم. بسیاری از شرکت‌های توسعه‌دهندهٔ هوش مصنوعی از مدت‌ها قبل اقدام به جمع‌آوری گستردهٔ داده‌های وب کرده‌اند؛ بنابراین، احتمالاً هر آنچه تا امروز منتشر کرده‌اید، هم‌اکنون در سیستم‌های آن‌ها ذخیره شده است. این شرکت‌ها دربارهٔ اطلاعاتی که استخراج یا خریداری کرده‌اند، شفاف عمل نمی‌کنند و اطلاعات ما در این زمینه بسیار مبهم است.

شرکت‌ها می‌توانند فرایند انصراف از استفادهٔ داده‌ها را برای آموزش هوش مصنوعی پیچیده کنند. بسیاری از افراد دربارهٔ مجوز‌هایی که پذیرفته‌اند یا نحوهٔ به‌کارگیری داده‌ها، دید روشنی ندارند. این موضوع مربوط به قبل از زمانی است که به قوانین مختلف، مانند حمایت از حقوق مالکیت فکری و قوانین قدرتمند حفظ حریم خصوصی اروپا، توجه شود. فیس‌بوک، گوگل و شرکت‌های دیگر، در اسناد مربوط به حریم خصوصی خود ذکر کرده‌اند که شاید از داده‌های شما برای آموزش هوش مصنوعی استفاده کنند.

فهرست زیر فقط شامل شرکت‌هایی می‌شود که درحال‌حاضر راهکاری برای منع دسترسی آن‌ها به داده‌های شخصی کاربران برای آموزش مدل‌های هوش مصنوعی ارائه می‌دهند. ذخیره‌سازی فایل‌ها در سرویس‌های ابری، مزایای زیادی دارد؛ اما این فایل‌ها می‌توانند برای مقاصد دیگر نیز مورداستفاده قرار بگیرند. بر اساس اسناد شرکت‌هایی مانند ادوبی و آمازون، داده‌های ذخیره‌شده در فضای ابری آن‌ها می‌تواند برای آموزش الگوریتم‌های یادگیری ماشین به کار رود.

گوگل جمنای

اگر از چت‌بات گوگل جمنای (Gemini) استفاده می‌کنید، باید بدانید کارشناسان انسانی برخی مکالمات شما را برای بررسی و بهبود مدل هوش مصنوعی بازبینی می‌کنند. به‌هرحال، می‌توانید این دسترسی را لغو کنید. بدین منظور جمنای را در مرورگر خود باز کرده، روی بخش Activity کلیک و سپس از منوی کشویی Turn Off را انتخاب کنید. در این قسمت، می‌توانید صرفاً فعالیت جمنای را غیرفعال کنید و یا با انتخاب گزینهٔ Delete data، هم دسترسی را لغو کرده و هم اطلاعات مکالمات گذشته را پاک کنید.

نکتهٔ مهم اینکه با غیرفعال‌سازی دسترسی جمنای به داده‌های شخصی خود، مکالمات آتی شما دیگر برای بازبینی در دسترس نخواهد بود، اما اطلاعات مکالمات قبلی که برای بررسی انتخاب شده‌اند، همچنان تا سه سال نزد گوگل باقی خواهند ماند.

ChatGPT و DALL-E

هنگام استفاده از چت‌بات‌ها، ناخواسته اطلاعات شخصی زیادی را فاش می‌کنیم. OpenAI به‌عنوان توسعه‌دهندهٔ چت‌بات محبوب ChatGPT به کاربران اختیاراتی برای کنترل داده‌هایشان می‌دهد. این اختیار شامل جلوگیری از استفاده از اطلاعات برای آموزش مدل‌های هوش مصنوعی آینده می‌شود.

طبق صفحات راهنمای OpenAI، کاربران وب ChatGPT که حساب کاربری ندارند، باید به بخش تنظیمات (Settings) مراجعه و گزینهٔ Improve the model for everyone را غیرفعال کنند. اگر حساب کاربری دارید و از طریق مرورگر وب وارد شده‌اید، باید به بخش ChatGPT بروید و سپس در مسیر Settings و Data Controls، گزینهٔ Chat History & Training را خاموش کنید. درصورتی‌که از اپلیکیشن‌های موبایل ChatGPT استفاده می‌کنید، به Settings مراجعه کرده و Data Controls را انتخاب کنید و درنهایت گزینهٔ Chat History & Training را خاموش کنید.

صفحات پشتیبانی OpenAI هشدار می‌دهند که تغییر تنظیمات دسترسی به داده‌های شخصی در مرورگر یا دستگاه خاص، روی سایر مرورگر‌ها یا دستگاه‌های شما همگام‌سازی نمی‌شود؛ بنابراین، باید این کار را در هرجایی که از ChatGPT استفاده می‌کنید، انجام دهید.

فعالیت‌های OpenAI فراتر از ChatGPT است. این استارتاپ برای ابزار تولید تصویر Dall-E ۳ نیز فرمی در نظر گرفته است که به شما امکان می‌دهد با ارسال آن، تصاویر موردنظر خود را از مجموعه داده‌های آموزشی آینده حذف کنید. در این فرم باید نام، ایمیل، مالکیت حق نشر تصویر، جزئیات تصویر و اصل تصویر را آپلود کنید. OpenAI همچنین می‌گوید اگر حجم زیادی از تصاویر را به‌صورت آنلاین میزبانی می‌کنید که نمی‌خواهید برای آموزش داده‌ها استفاده شوند، شاید اضافه کردن GPTBot به فایل robots.txt وب‌سایت محل میزبانی تصاویر، روش کارآمدتری باشد.

Perplexity

Perplexity استارتاپی است که با استفاده از هوش مصنوعی در جست‌وجوی وب و یافتن پاسخ سؤالات به کاربران کمک می‌کند. این ابزار مثل سایر نرم‌افزار‌های مشابه، به‌صورت پیش‌فرض رضایت شما برای استفاده از تعاملات و داده‌هایتان را در جهت بهبود هوش مصنوعی خود دریافت می‌کند. برای غیرفعال کردن این مورد، روی نام کاربری خود کلیک کنید، به بخش Account بروید و AI Data Retention را در حالت غیرفعال قرار دهید.

ادوبی

اگر از حساب کاربری شخصی ادوبی استفاده می‌کنید، غیرفعال کردن این قابلیت به‌سادگی امکان‌پذیر است. بدین منظور باید در صفحهٔ حریم خصوصی ادوبی به بخش Content analysis بروید و کلید مربوطه را خاموش کنید. برای حساب‌های تجاری یا آموزشی، این امکان به‌صورت مجزا برای تک‌تک کاربران وجود ندارد و برای غیرفعال‌سازی آن باید با مدیر سیستم تماس بگیرید.

وردپرس

وردپرس گزینه‌ای برای جلوگیری از اشتراک‌گذاری داده‌ها با سرویس‌های شخص ثالث دارد. برای فعال کردن این قابلیت، در پنل مدیریت وب‌سایت، روی Settings و بعدازآن General و سپس Privacy کلیک کرده و درنهایت تیک گزینهٔ Prevent third-party sharing را بزنید. سخنگوی Automattic می‌گوید: «ما در حال همکاری با خزنده‌های وب ازجمله Common Crawl هستیم تا جلوی دسترسی و فروش غیرمجاز محتوای کاربران را بگیریم.»

Grammarly

در حال حاضر، کاربران عادی گرمرلی (Grammarly) امکان لغو استفاده از داده‌هایشان را برای بهبود مدل یادگیری ماشین این سرویس ندارند. این امکان فقط برای حساب‌های تجاری (Business Account) در دسترس است که به‌صورت خودکار قابل مدیریت بوده و نیازی به درخواست مستقیم کاربر ندارد.

برای لغو دسترسی گرمرلی در حساب‌های تجاری، به تنظیمات حساب کاربری (Account Settings) مراجعه، روی تب Data Settings کلیک و سپس گزینهٔ Product Improvement & Training را غیرفعال کنید. همچنین، حساب‌های تجاری تحت مدیریت مانند حساب‌های آموزشی و حساب‌های خریداری‌شده از طریق نمایندهٔ فروش گرمرلی، به‌صورت خودکار از فرایند آموزش مدل هوش مصنوعی مستثنی هستند.

Quora

Quora ادعا می‌کند درحال‌حاضر از پاسخ‌ها، پست‌ها یا نظرات کاربران برای آموزش هوش مصنوعی استفاده نمی‌کند. این شرکت همچنین هیچ‌گونه دادهٔ کاربری را برای آموزش هوش مصنوعی به فروش نمی‌رساند. به‌هرحال Quora هم گزینه‌ای برای انصراف از این موضوع در نظر گرفته است. برای این کار، به صفحهٔ Settings بروید، روی Privacy کلیک و سپس Allow large language models to be trained on your content را غیرفعال کنید.

البته امکان دارد Quora همچنان از برخی پست‌های خاص برای آموزش مدل‌های زبان بزرگ (LLM) استفاده کند. صفحات راهنمای این شرکت توضیح می‌دهند درصورتی‌که به پاسخ تولیدشده با هوش مصنوعی، پاسخ دهید، شاید اطلاعات آن، برای آموزش هوش مصنوعی مورداستفاده قرار گیرد. این شرکت اشاره می‌کند که احتمال استخراج داده‌ها از طرف شرکت‌های متفرقه نیز وجود دارد.

Tumblr

شرکت Automattic، مالک وب‌سایت‌های Tumblr و WordPress.com، اعلام کرده که با همکاری شرکت‌های هوش مصنوعی قصد دارد از مجموعه داده‌های عظیم و منحصربه‌فرد محتوای منتشرشده در پلتفرم‌های خود برای آموزش هوش مصنوعی استفاده کند. سخنگوی این شرکت تأکید کرده است که ایمیل‌های کاربران و محتوای خصوصی شامل این همکاری نخواهد شد.

درصورتی‌که در Tumblr وبلاگ شخصی دارید، می‌توانید با مراجعه به Settings، انتخاب وبلاگ، کلیک روی آیکون چرخ‌دنده، رفتن به بخش Visibility و فعال کردن گزینهٔ Prevent third-party sharing مانع استفاده از محتوای خود برای آموزش هوش مصنوعی شوید. همچنین بر اساس صفحات پشتیبانی Tumblr، پست‌های صریح، وبلاگ‌های حذف‌شده و وبلاگ‌های دارای رمز عبور یا خصوصی به‌هیچ‌وجه با شرکت‌های دیگر به اشتراک گذاشته نمی‌شوند.

اسلک

شاید برایتان عجیب باشد، اما حتی همان پیام‌های ردوبدل شدهٔ به‌ظاهر بی‌اهمیت در اسلک محل کارتان هم ممکن است برای آموزش مدل‌های این پلتفرم استفاده شوند. بر اساس گفتهٔ معاون بخش محصول اسلک، این پلتفرم از سالیان گذشته در محصولاتش از یادگیری ماشین برای ارائهٔ قابلیت‌هایی مثل پیشنهاد کانال و ایموجی استفاده می‌کند.

اگرچه اسلک از داده‌های مشتریان برای آموزش مدل زبان بزرگ محصول هوش مصنوعی خود استفاده نمی‌کند، اما می‌تواند از تعاملات شما برای بهبود قابلیت‌های یادگیری ماشینی نرم‌افزار بهره ببرد. درصورتی‌که از حساب سازمانی اسلک استفاده می‌کنید، امکان انصراف از این فرآیند وجود ندارد.

تنها راه برای لغو اشتراک اسلک، ارسال ایمیل از طرف مدیر سیستم به آدرس feedback@slack.com است. موضوع ایمیل باید Slack Global model opt-out request باشد و URL سازمان نیز در آن درج شود. اسلک هیچ جدول زمانی برای مدت‌زمان انجام فرایند لغو اشتراک ارائه نمی‌دهد، اما پس از تکمیل آن باید ایمیل تأیید برای شما ارسال کند.

وب‌سایت اختصاصی

اگر وب‌سایت اختصاصی خود را راه‌اندازی کرده‌اید، می‌توانید با به‌روزرسانی فایل robots.txt از ربات‌های هوش مصنوعی بخواهید صفحاتتان را کپی نکنند. بسیاری از وب‌سایت‌های خبری اجازه نمی‌دهند ربات‌های هوش مصنوعی مقالاتشان را مرور کنند. برای مثال، فایل robots.txt وب‌سایت WIRED اجازهٔ دسترسی به ربات‌های OpenAI، گوگل، آمازون، فیس‌بوک، Anthropic و Perplexity و بسیاری دیگر را نمی‌دهد.

این قابلیت صرفاً برای ناشران محتوا کاربرد ندارد. هر وب‌سایتی می‌تواند با اضافه کردن دستور disallow به فایل robots.txt، ربات‌های هوش مصنوعی را از دسترسی به سایت خود منع کند.