در سالهای اخیر، یادگیری تقویتی با بازخورد انسانی ([۱]RLHF) توجه بسیاری را به خود معطوف کرده و موضوع بسیاری از تحقیق و توسعهها بوده است. همچنین در چند روز گذشته، چندین توئیت مشاهده کردهام که نشان میدهند ۹ مورد از هر ۱۰ تحقیق در زمینه هوش مصنوعی حول RLHF هستند و باعث شدهاند این موضوع در رسانهها تبلیغ شود. همچنین باید بدانیم که RLHF یکی از چندین رویکرد آموزش سیستمهای یادگیری ماشینی است و برای هر کار یا هر موقعیتی، بهترین گزینه نیست.
بنابراین، یادگیری تقویتی با بازخورد انسانی چیست؟
یادگیری تقویتی (RL) نوعی یادگیری ماشینی است که در آن، عامل یاد میگیرد برای حداکثرسازی یک سیگنال پاداش[۲]، با محیطاش تعامل کند. در یادگیری تقویتی با بازخورد انسانی، عامل، بازخورد را بهشکل پاداش یا تنبیه از یک ناظر یا معلم انسانی و نه از خود محیط، دریافت میکند.
یادگیری تقویتی با بازخورد انسانی میتواند برای آموزش یک عامل در چگونگی انجام یک تکلیف خاص همچون انجام یک بازی ویدئویی یا هدایت یک ربات در طول یک مسیر مارپیچ مورد استفاده قرار گیرد. عامل، عملکردش را از طریق آزمون و خطا، امتحانکردن اقدامات مختلف و دریافت بازخورد از معلم انسانی فرامیگیرد. بازخورد میتواند بهشکل یک تنبیه یا پاداش عددی یا در قالب انتزاعیتر، همچون یک انتقاد یا تشویق کلامی باشد.
یادگیری تقویتی با بازخورد انسانی در شرایطی که تعریف یک تابع پاداش[۳] دقیق برای عامل جهت بهینهسازی آن تابع پاداش، دشوار یا غیرعملی است، میتواند سودمند باشد. بهدلیل اینکه معلم یا ناظر انسانی میتواند راهنماییهایی را ارائه کند و فرایند یادگیری را همانگونه که لازم است تنظیم نماید، میتواند برای وظایفی که به انعطافپذیری یا انطباقپذیری بالایی نیاز دارند سودمند باشد.
آیا آنگونه که یادگیری تقویتی با بازخورد انسانی بهنظر میآید اطمینان بخش است؟
بهخصوص در شرایطی که تعریف یک تابع پاداش دقیق برای عامل، جهت بهینهسازی آن تابع پاداش دشوار یا غیرعملی است، یادگیری تقویتی با بازخورد انسانی (RLHF) میتواند برای آموزش سیستمهای یادگیری ماشینی، رویکرد مطمئنی باشد. یادگیری تقویتی با بازخورد انسانی (RLHF) میتواند به معلم یا ناظر انسانی امکان دهد راهنماییهای دقیقتر و زمینهمحوری را برای عامل ارائه کند که میتوانند برای وظایفی که به انعطافپذیری یا انطباقپذیری بالایی نیاز دارند، سودمند باشند.
اگرچه استفاده از یادگیری تقویتی با بازخورد انسانی، محدودیتها و چالشهایی دارد. یک چالش آن این است که معلم یا ناظر انسانی باید بازخورد منسجم و قابلاطمینانی را ارائه کند که این کار زمانبر است و به تخصص و آموزش قابلتوجهی نیاز دارد. علاوهبراین، یادگیری تقویتی با بازخورد انسانی میتواند در معرض جهتگیریها و قضاوتهای شخصی از جانب معلم قرار گیرد که این میتواند بر فرایند یادگیری عامل تأثیر بگذارد.
کدام روشها معمولاً با یادگیری تقویتی با بازخورد انسانی (RLHF) مورد استفاده قرار میگیرند؟
جهت بهبود کارایی و تأثیر فرایند یادگیری، میتوان از چند روش به همراه یادگیری تقویتی با بازخورد انسانی استفاده کرد.
برخی مثالها عبارتند از:
یادگیری مقلدانه[۴]: نوعی یادگیری نظارتشده[۵] است که در آن، عامل یاد میگیرد با مشاهده و کپیکردن اقدامات یک متخصص انسانی، وظیفهای را انجام دهد. میتوان از یادگیری مقلدانه برای راهاندازی سریع فرایند یادگیری و ایجاد یک مبنای قوی برای عامل استفاده کرد. معلم یا ناظر انسانی برای استفاده از یادگیری مقلدانه بههمراه یادگیری تقویتی با بازخورد انسانی، ابتدا میتواند وظیفه را برای عامل شرح دهد و سپس عامل میتواند یاد بگیرد که با مشاهده و کپیکردن عملیات متخصص انسانی، آن وظیفه را انجام دهد. معلم یا ناظر انسانی میتواند برای کمک به یادگیری مؤثرتر عامل، در صورت ضرورت، راهنماییها و بازخوردهای بیشتری را ارائه کند.
یادگیری خودنظارتی[۶]: نوعی یادگیری غیرنظارتی است که در آن عامل یاد میگیرد فقط با استفاده از سازوکارها و ساختار درونی و لاینفک موجود در محیط، وظیفه یا کاری را انجام دهد. یادگیری خودنظارتی را میتوان جهت کمک به یادگیری مؤثرتر عامل، بهویژه زمانیکه بازخورد انسانی پراکنده و نویزدار است، استفاده کرد. برای استفاده از یادگیری خودنظارتی بههمراه یادگیری تقویتی با بازخورد انسانی، میتوان به عامل آموزش داد که از سازوکارها و ساختار درونی و لاینفک موجود در محیط، برایمثال با پیشبینی تصویر بَعدی در یک ویدئو یا کلمه بَعدی در یک جمله، یاد بگیرد. سپس معلم یا ناظر انسانی میتواند در مورد عملکرد عامل بازخورد دهد و در صورت نیاز، فرایند یادگیری را تنظیم نماید.
یادگیری انتقالی[۷]: یک روش یادگیری ماشینی است که به عامل امکان میدهد از دانش و تجربهی یک وظیفه یا کارش جهت یادگیری مؤثرتر و سریعتر یک وظیفهی جدید استفاده کند. میتوان از یادگیری انتقالی، جهت کمک به عامل در تعمیم یادگیریاش به محیطها و موقعیتهای جدید و کاهش نیاز به بازخورد انسانی استفاده کرد. برای استفاده از یادگیری انتقالی بههمراه یادگیری تقویتی با بازخورد انسانی، عامل میتواند در مورد وظیفه یا مجموعه وظایف مربوطه، ازپیش آموزش ببیند و سپس برای وظیفهی هدف با استفاده از یادگیری تقویتی با بازخورد انسانی آماده شود. بهدلیل اینکه عامل، برخی از دانشها و مهارتهای مربوطه را از مرحلهی پیشآموزش فراگرفته است، میتواند وظیفهی هدف را سریعتر و مؤثرتر فراگیرد.
روشهای ترکیبی: روشهایی هستند که پیشبینیها یا عملیات چند مدل را برای ایجاد یک نتیجه دقیقتر و منسجمتر ترکیب میکنند. میتوان از روشهای ترکیبی، برای ترکیب پیشبینیها و عملیات چند مدل یادگیری تقویتی با بازخورد انسانی و بهبود عملکردشان استفاده کرد. برای استفاده از روشهای ترکیبی بههمراه یادگیری تقویتی با بازخورد انسانی، میتوان وظایف مشابه را به مدلهای RLHF چندگانه آموزش داد و جهت ایجاد یک نتیجه منسجمتر و دقیقتر، پیشبینیها یا عملیاتشان را ترکیب کرد. معلم یا ناظر انسانی میتواند بهطورکل در مورد عملکرد ترکیب و نه فقط هر یک مدل خاص، بازخورد دهد.
بنابراین، چه نتیجهای میگیریم؟
نتیجه میگیریم، یادگیری تقویتی با بازخورد انسانی برای آموزش سیستمهای یادگیری ماشینی، بهویژه در شرایطی که تعریف یک تابع پاداش دقیق برای عامل جهت بهینهسازی آن، دشوار یا غیرعملی است، رویکرد نویدبخش و مطمئنی میباشد. یادگیری تقویتی با بازخورد انسانی میتواند به معلم یا ناظر انسانی امکان دهد تا راهنماییهای زمینهمحور و دقیقتری را برای عامل ارائه کند که میتوانند برای وظایفی که به انعطافپذیری یا انطباقپذیری بالایی نیاز دارند، سودمند باشند.
اگرچه یادگیری تقویتی با بازخورد انسانی، محدودیتهایی نیز دارد:
- یادگیری تقویتی با بازخورد انسانی برای ارائه بازخورد قابلاطمینان و منسجم، به یک معلم یا ناظر انسانی نیاز دارد که میتواند زمانبر باشد و به تخصص و آموزش قابلتوجهی نیاز داشته باشد. در شرایطی که منابع انسانی کم هستند یا فرایند بازخورد بسیار پیچیده یا پرهزینه است، این میتواند یک محدودیت تلقی شود.
- یادگیری تقویتی با بازخورد انسانی میتواند در معرض جانبداریها و قضاوتهای شخصی از جانب معلم یا ناظر انسانی قرار گیرد که میتواند بر فرایند یادگیری عامل تأثیر بگذارد. در شرایطی که شفافیت یا بیطرفی اهمیت دارد، میتواند به یک دغدغه تبدیل شود.
- یادگیری تقویتی با بازخورد انسانی برای وظایف خاص بهویژه آنهایی که میتوانند با استفاده از یک تابع پاداش دقیق تعریف شوند یا به تخصص بالایی احتیاج دارند، مؤثرترین رویکرد نیست.
- بهدلیل اینکه بازخوردی که توسط معلم یا ناظر انسانی ارائه میشود ممکن است جامع یا بازتابدهنده تمام شرایط احتمالی نباشد، یادگیری تقویتی با بازخورد انسانی برای وظایفی که به تعمیم یا قابلیتاطمینان بالایی احتیاج دارند مناسب نیست؛
بنابراین، بررسی دقیق نقاط قوت و محدودیتهای یادگیری تقویتی با بازخورد انسانی و در صورت لزوم، استفاده از آن به همراه روشهای دیگر اهمیت دارد.
[۱] – Reinforcement Learning from Human Feedback
[۲] – reward signal
[۳] – reward function
[۴] – Imitation learning
[۵] – supervised learning
[۶] – self-supervised learning
[۷] – Transfer learning
دیدگاه خود را بنویسید