یادگیری فدرال
یادگیری فدرال (به انگلیسی: Federated learning) (همچنین به عنوان یادگیری مشارکتی (به انگلیسی: collaborative learning) نیز شناخته میشود) یک روش یادگیری ماشین است که یک الگوریتم را در چندین دستگاه لبه غیرمتمرکز یا سرورهای نگهدارنده نمونه دادههای محلی، بدون مبادله آنها آموزش میدهد. این روش برخلاف تکنیکهای سنتی یادگیری ماشین، متمرکز است که همه مجموعه دادههای محلی در یک سرور بارگذاری میشوند، و همچنین رویکردهای غیرمتمرکز کلاسیک تر که اغلب فرض میکنند نمونههای داده محلی بهطور یکسان توزیع میشوند.
یادگیری فدراسیون، چندین بازیگر را قادر میسازد تا مدل مشترک و قوی یادگیری ماشین را بدون به اشتراک گذاشتن دادهها بسازند، بنابراین اجازه میدهد تا به موارد مهم مانند حریم خصوصی دادهها، امنیت دادهها، حقوق دسترسی دادهها و دسترسی به دادههای ناهمگن بپردازید. کاربردهای آن در تعدادی از صنایع از جمله دفاع، ارتباطات از راه دور، اینترنت اشیا و داروسازی پخش شدهاست.
تعریف[ویرایش]
هدف از یادگیری فدراسیون آموزش الگوریتم یادگیری ماشین، به عنوان مثال شبکههای عصبی عمیق، روی چندین مجموعه داده محلی است که در گرههای محلی وجود دارد بدون اینکه صریحاً دادههای داده رد و بدل شود. اصل کلی شامل آموزش مدلهای محلی بر روی نمونههای دادههای محلی و مبادله پارامترها (به عنوان مثال وزن و بایاس شبکه عصبی عمیق) بین این گرههای محلی در برخی از فرکانسها برای تولید یک مدل جهانی مشترک بین همه گرهها است.
تفاوت اصلی بین یادگیری فدراسیون و یادگیری توزیع شده در فرضیاتی است که در مورد خواص مجموعههای داده محلی وجود دارد، زیرا هدف اصلی از یادگیری توزیع شده موازی سازی قدرت محاسبه در جایی است که در ابتدا یادگیری فدراتیو هدف آموزش مجموعه دادههای ناهمگن است. در حالی که هدف یادگیری توزیع شده آموزش یک مدل واحد بر روی چندین سرور است، یک فرض اصلی رایج این است که مجموعه دادههای محلی بهطور یکسان توزیع میشوند (یعنی i.i.d.) و تقریباً از همان اندازه برخوردار هستند. هیچیک از این فرضیهها برای یادگیری فدراسیون ساخته نشدهاست. در عوض، مجموعه دادهها بهطور معمول ناهمگن هستند و اندازه آنها ممکن است چندین مرتبه از اندازه را دربر بگیرد. علاوه بر این، مشتریانی که درگیر آموزش فدراسیون هستند ممکن است غیرقابل اعتماد باشند زیرا در معرض خرابیهای بیشتری قرار دارند یا از تحصیل خارج میشوند، زیرا در مقایسه با توزیع یادگیری که در آن گرهها بهطور معمول مرکز دادهای هستند که دارای توانایی محاسباتی قدرتمندی هستند و با شبکههای سریع به یکدیگر متصل میشوند.
یادگیری فدراسیون متمرکز[ویرایش]
در تنظیم یادگیری فدراسیون متمرکز، از یک سرور مرکزی برای تنظیم مراحل مختلف الگوریتمها و هماهنگی همه گرههای شرکت کننده در طول فرایند یادگیری استفاده میشود. سرور مسئول انتخاب گرهها در ابتدای فرایند آموزش و جمعآوری به روزرسانیهای مدل دریافت شدهاست. از آنجا که همه گرههای انتخاب شده باید به روزرسانیها را برای یک موجود واحد ارسال کنند، ممکن است سرور به یک گلوگاه سیستم تبدیل شود.
یادگیری فدراسیون غیر متمرکز[ویرایش]
در محیط یادگیری فدراسیون غیرمتمرکز، گرهها میتوانند خود را برای به دست آوردن مدل جهانی هماهنگ کنند. این تنظیمات از خرابیهای تک نقطه ای جلوگیری میکند زیرا به روزرسانیهای مدل فقط بین گرههای بهم پیوسته و بدون هماهنگی سرور مرکزی رد و بدل میشوند. با این وجود، توپولوژی خاص شبکه ممکن است بر عملکرد فرایند یادگیری تأثیر بگذارد. به یادگیری مبتنی بر بلاکچین و منابع موجود در آن مراجعه کنید.
ویژگیهای اصلی[ویرایش]
یادگیری تکراری[ویرایش]
برای اطمینان از عملکرد خوب یک مدل نهایی و مرکزی یادگیری ماشین، یادگیری فدراسیون متکی به فرایند تکراری است که در یک مجموعه اتمی از تعاملات مشتری و سرور تجزیه میشود و به عنوان دور آموزش فدراسیون شناخته میشود. هر دور از این فرایند شامل انتقال وضعیت مدل جهانی فعلی به گرههای شرکت کننده، آموزش مدلهای محلی در این گرههای محلی برای تولید مجموعه ای از به روزرسانیهای مدل بالقوه در هر گره و سپس جمعآوری و پردازش این به روزرسانیهای محلی در یک به روز رسانی جهانی و استفاده از آن در مدل جهانی [۱].
در روش زیر، از یک سرور مرکزی برای جمعآوری استفاده میشود، در حالی که گرههای محلی بسته به سفارشهای سرور مرکزی، آموزش محلی را انجام میدهند. با این حال، سایر استراتژیها بدون استفاده از سرورهای مرکزی، در یک روش همتا به همتا، با استفاده از شایعات یا متدولوژیهای اجماع، به همان نتایج منجر میشوند.
با فرض یک دور فدرالی تشکیل شده توسط یک تکرار از فرایند یادگیری، روش یادگیری را میتوان به شرح زیر خلاصه کرد:
شروع اولیه: با توجه به ورودیهای سرور، یک مدل یادگیری ماشین (به عنوان مثال، رگرسیون خطی، شبکه عصبی، تقویت کننده) انتخاب میشود تا روی گرههای محلی آموزش داده شود و مقداردهی اولیه شود. سپس، گرهها فعال میشوند و منتظر میمانند تا سرور مرکزی وظایف محاسبه را انجام دهد.
انتخاب مشتری: برای شروع آموزش دادههای محلی، بخشی از گرههای محلی انتخاب میشود. گرههای انتخاب شده مدل آماری فعلی را بهدست میآورند در حالی که بقیه منتظر دور بعدی فدراسیون هستند.
پیکربندی: سرور مرکزی به گرههای انتخاب شده دستور میدهد تا مدل را بر روی دادههای محلی خود به روشی از پیش تعیین شده آموزش دهند (به عنوان مثال، برای برخی از به روزرسانیهای مینی دسته ای از شیب نزولی).
گزارش دادن: هر گره انتخاب شده مدل محلی خود را برای تجمیع به سرور ارسال میکند. سرور مرکزی مدلهای دریافت شده را جمع کرده و به روزرسانیهای مدل را به گرهها ارسال میکند. همچنین از عهده خرابیهای گرههای قطع شده یا به روزرسانیهای از دست رفته مدل است. دور فدراسیون بعدی بازگشت به مرحله انتخاب مشتری است.
خاتمه: به محض احراز معیار خاتمه از پیش تعریف شده (به عنوان مثال، حداکثر تعداد تکرار حاصل میشود یا دقت مدل از آستانه بیشتر است) سرور مرکزی به روزرسانیها را جمع میکند و مدل جهانی را نهایی میکند.
روشی که قبل از آن در نظر گرفته شده، به روزرسانیهای همزمان مدل را در نظر گرفتهاست. تحولات یادگیری فدراسیون اخیر، تکنیکهای جدیدی را برای مقابله با عدم همزمان بودن در طی مراحل آموزش معرفی کردهاست. در مقایسه با رویکردهای همزمان که مدلهای محلی پس از انجام محاسبات برای همه لایههای شبکه عصبی رد و بدل میشوند، موارد غیر همزمان به محض محاسبه یک لایه خاص، از خصوصیات شبکههای عصبی برای تبادل به روزرسانیهای مدل استفاده میکنند. این تکنیکها معمولاً به عنوان یادگیری تقسیم شده یاد میشوند و میتوانند بدون توجه به تنظیمات یادگیری متمرکز یا غیرمتمرکز، هم در زمان آموزش و هم در زمان استنباط استفاده شوند.
دادههای غیر iid[ویرایش]
در بیشتر موارد، فرض نمونههای مستقل و توزیع شده یکسان در بین گرههای محلی، برای تنظیمات آموزش فدراسیون صدق نمیکند. تحت این تنظیمات، عملکرد فرایند آموزش ممکن است با توجه به عدم تعادل نمونههای دادههای محلی و همچنین توزیع احتمال خاص نمونههای آموزش (به عنوان مثال، ویژگیها و برچسبها) ذخیره شده در گرههای محلی، تفاوت قابل توجهی داشته باشد. برای بررسی بیشتر اثرات دادههای غیر iid، شرح زیر مقولههای اصلی ارائه شده توسط Peter Kiarouz و دیگران را در نظر میگیرد. در سال ۲۰۱۹ شرح دادههای غیر iid به تجزیه و تحلیل احتمال مشترک بین ویژگیها و برچسبها برای هر گره متکی است. این اجازه میدهد تا هر سهم را با توجه به توزیع خاص موجود در گرههای محلی جدا کنید. دستههای اصلی برای دادههای غیر iid را میتوان به شرح زیر خلاصه کرد:
تغییر متغیر: گرههای محلی ممکن است نمونههایی را که در مقایسه با گرههای دیگر توزیع آماری متفاوتی دارند ذخیره کنند. یک مثال در مجموعه دادههای پردازش زبان طبیعی رخ میدهد که در آن افراد معمولاً رقم / حروف یکسانی را با عرض ضربه یا شیب متفاوت مینویسند.
تغییر احتمال قبلی: گرههای محلی ممکن است برچسبهایی را ذخیره کنند که توزیع آماری متفاوتی نسبت به گرههای دیگر دارند. اگر مجموعههای داده منطقه ای یا از نظر جمعیتی تقسیم شده باشند، این اتفاق میافتد. به عنوان مثال، مجموعه دادههای حاوی تصاویر حیوانات از کشوری به کشور دیگر متفاوت است.
تغییر مفهوم (همان برچسب، ویژگیهای مختلف): گرههای محلی ممکن است برچسبهای یکسانی داشته باشند اما برخی از آنها با ویژگیهای مختلف در گرههای محلی مختلف مطابقت دارند. به عنوان مثال، تصاویری که شی خاصی را به تصویر میکشند میتوانند با توجه به شرایط آب و هوایی که در آن گرفته شدهاند، متفاوت باشند.
تغییر مفهوم (همان ویژگیها، برچسبهای مختلف): گرههای محلی ممکن است از ویژگیهای یکسانی برخوردار باشند اما برخی از آنها با برچسبهای مختلف در گرههای محلی مختلف مطابقت دارند. به عنوان مثال، در پردازش زبان طبیعی، تجزیه و تحلیل احساسات ممکن است احساسات مختلفی ایجاد کند حتی اگر متن مشابه مشاهده شود. عدم تعادل: اندازه دادههای موجود در گرههای محلی ممکن است بهطور قابل توجهی متفاوت باشد.
سایر توصیف کنندگان دادههای غیر iid، تغییر پویای توپولوژی شبکه را به دلیل خرابی یا عدم صلاحیت گرههای محلی در طی فرایند یادگیری فدراسیون یا تغییر دادهها، در نظر میگیرند، جایی که گرههای شرکت کننده در مرحله آموزش برای یادگیری مدل جهانی ممکن است در هنگام استنباط به دلیل عدم توانایی کافی محاسباتی واجد شرایط باشند. این امر منجر به تفاوت بین آمار آموزش و آزمایش نمونه دادهها میشود.
انواع یادگیری فدراسیون[ویرایش]
در این بخش، مقاله ای که توسط H. Brendan McMahan و دیگران منتشر شدهاست. در سال ۲۰۱۷ دنبال میشود. برای توصیف استراتژیهای فدراسیون، اجازه دهید برخی از علائم را معرفی کنیم:
K: تعداد کل کلاینتها
k: فهرست کلاینتها
n_{k}: تعداد نمونه داده موجود در حین آموزش برای کلاینت k
k_{t}: بردار وزن مدل در کلاینت k
E: تعداد epochهای محلی
فاصله گرادیان تصادفی فدرال (FedSGD)[ویرایش]
آموزش یادگیری عمیق عمدتاً به انواع نزولی شیب تصادفی متکی است، جایی که شیبها در زیرمجموعه ای تصادفی از کل مجموعه داده محاسبه میشوند و سپس برای ایجاد یک مرحله از نزول شیب استفاده میشوند.
نزول شیب تصادفی فدرال انتقال مستقیم این الگوریتم به تنظیمات فدراسیون است، اما با استفاده از کسر تصادفی C گرهها و استفاده از تمام دادههای این گره. شیبها بهطور متوسط و متناسب با تعداد نمونههای آموزش در هر گره، توسط سرور ساخته میشوند و برای ایجاد یک مرحله نزولی شیب دار استفاده میشوند.
میانگین فدراسیون[ویرایش]
یک تعمیم FedSGD است که به گرههای محلی اجازه میدهد بیش از یک به روزرسانی دسته ای روی دادههای محلی انجام دهند و وزنهای به روز شده را به جای شیبها رد و بدل کنند. دلیل اصلی این تعمیم این است که در FedSGD، اگر همه گرههای محلی از همان مقدار اولیه شروع شوند، میانگین شیبها کاملاً معادل متوسط وزنهای خودشان است. بهعلاوه، میانگین وزنی تنظیم شده از همان مقدار اولیه، لزوماً به عملکرد مدل میانگین منتهی نمیشود.
ویژگیهای یادگیری فدراسیون[ویرایش]
محرمانگی دادهها[ویرایش]
مزیت اصلی استفاده از رویکردهای فدرال در یادگیری ماشین اطمینان از حریم خصوصی دادهها یا مخفی بودن دادهها است. در واقع، هیچ داده محلی به صورت خارجی بارگذاری نشده، بهم پیوسته یا مبادله نمیشود. از آنجا که کل پایگاه داده به بیتهای محلی تقسیم شدهاست، این کار هک کردن آن را دشوارتر میکند.
با یادگیری فدرال، فقط پارامترهای یادگیری ماشین رد و بدل میشوند. علاوه بر این، میتوان چنین پارامترهایی را قبل از اشتراک بین دورههای یادگیری برای افزایش حریم خصوصی رمزگذاری کرد و میتوان از طرحهای رمزگذاری همومورفیک برای ایجاد مستقیم محاسبات بر روی دادههای رمزگذاری شده بدون رمزگشایی قبلی استفاده کرد. با وجود چنین اقدامات محافظتی، ممکن است این پارامترها با ایجاد چندین پرس و جو خاص در مجموعه دادههای خاص، اطلاعات مربوط به نمونههای دادههای اساسی را فاش کنند؛ بنابراین پرسش از توانایی گرهها یک نکته مهم است، که میتواند با استفاده از حریم خصوصی افتراقی یا تجمیع امن حل شود.
قابلیت شخصیسازی[ویرایش]
مدل تولید شده براساس الگوهای جهانی گرهها بینش ارائه میدهد. با این حال، اگر یک گره شرکت کننده بخواهد از الگوهای جهانی بیاموزد، اما نتایج را با وضعیت عجیب و غریب خود نیز مطابقت دهد، روش یادگیری فدرال را میتوان برای تولید همزمان دو مدل در یک چارچوب یادگیری چند کاره تطبیق داد. علاوه بر این، ممکن است تکنیکهای خوشه بندی برای گرههای کل استفاده شود که پس از اتمام فرایند یادگیری، برخی شباهتها را دارند. این امکان تعمیم مدلهای آموخته شده توسط گرهها را با توجه به دادههای محلی آنها نیز فراهم میکند. در مورد شبکههای عصبی عمیق، میتوان برخی از لایهها را در گرههای مختلف به اشتراک گذاشت و برخی از آنها را روی هر گره محلی نگه داشت. بهطور معمول، اولین لایههایی که شناسایی الگوهای عمومی را انجام میدهند، همه مجموعههای داده به اشتراک گذاشته شده و آموزش میبینند. آخرین لایهها روی هر گره محلی باقی میمانند و فقط روی مجموعه دادههای گره محلی آموزش داده میشوند.
منابع[ویرایش]
- ↑ Khademi Nori, Milad; Yun, Sangseok; Kim, Il-Min (23 May 2021). "Fast Federated Learning by Balancing Communication Trade-Offs". arXiv:2105.11028 [cs.LG].
- ویکیپدیای انگلیسی
پیوند به بیرون[ویرایش]
- "Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016" at eur-lex.europa.eu. Retrieved October 18, 2019.
- "Data minimisation and privacy-preserving techniques in AI systems" at UK Information Commissioners Office. Retrieved July 22, 2020