چرا یادگیری تقویتی با بازخورد انسانی (RLHF ) همیشه جوابگو نیست: درک محدودیت‌ها و چالش‌های یادگیری ماشینی با راهنمایی انسان

 در سال‌های اخیر، یادگیری تقویتی با بازخورد انسانی ([۱]RLHF) توجه بسیاری را به خود معطوف کرده و موضوع بسیاری از تحقیق و توسعه‌ها بوده است. هم‌چنین در چند روز گذشته، چندین توئیت مشاهده کرده‌ام  که نشان می‌دهند ۹ مورد از هر ۱۰ تحقیق در زمینه هوش مصنوعی حول RLHF هستند و باعث شده‌اند این موضوع در رسانه‌ها تبلیغ شود. هم‌چنین باید بدانیم که RLHF یکی از چندین رویکرد آموزش سیستم‌های یادگیری ماشینی است و برای هر کار یا هر موقعیتی، بهترین گزینه نیست.

بنابراین، یادگیری تقویتی با بازخورد انسانی چیست؟

 یادگیری تقویتی (RL) نوعی یادگیری ماشینی است که در آن، عامل یاد می‌گیرد برای حداکثرسازی یک سیگنال پاداش[۲]، با محیط‌اش تعامل کند. در یادگیری تقویتی با بازخورد انسانی، عامل، بازخورد را به‌شکل پاداش یا تنبیه از یک ناظر یا معلم انسانی و نه از خود محیط، دریافت می‌کند.

 یادگیری تقویتی با بازخورد انسانی می‌تواند برای آموزش یک عامل در چگونگی انجام یک تکلیف خاص هم‌چون انجام یک بازی ویدئویی یا هدایت یک ربات در طول یک مسیر مارپیچ مورد استفاده قرار گیرد. عامل، عملکردش را از طریق آزمون و خطا، امتحان‌‌کردن اقدامات مختلف و دریافت بازخورد از معلم انسانی فرامی‌گیرد. بازخورد می‌تواند به‌شکل یک تنبیه یا پاداش عددی یا در قالب انتزاعی‌تر، هم‌چون یک انتقاد یا تشویق کلامی باشد.

 یادگیری تقویتی با بازخورد انسانی در شرایطی که تعریف یک تابع پاداش[۳] دقیق برای عامل جهت بهینه‌سازی آن تابع پاداش، دشوار یا غیرعملی است، می‌تواند سودمند باشد. به‌دلیل اینکه معلم یا ناظر انسانی می‌تواند راهنمایی‌هایی را ارائه کند و فرایند یادگیری را همان‌گونه که لازم است تنظیم نماید، می‌تواند برای وظایفی که به انعطاف‌پذیری یا انطباق‌پذیری بالایی نیاز دارند سودمند باشد.

آیا آنگونه که یادگیری تقویتی با بازخورد انسانی بهنظر میآید اطمینان بخش است؟

 به‌خصوص در شرایطی که تعریف یک تابع پاداش دقیق برای عامل، جهت بهینه‌سازی آن تابع پاداش دشوار یا غیرعملی است، یادگیری تقویتی با بازخورد انسانی (RLHF) می‌تواند برای آموزش سیستم‌های یادگیری ماشینی، رویکرد مطمئنی باشد. یادگیری تقویتی با بازخورد انسانی (RLHF) می‌تواند به معلم یا ناظر انسانی امکان دهد راهنمایی‌های دقیق‌تر و زمینه‌محوری را برای عامل ارائه کند که می‌توانند برای وظایفی که به انعطاف‌پذیری یا انطباق‌پذیری بالایی نیاز دارند، سودمند باشند.

اگرچه استفاده از یادگیری تقویتی با بازخورد انسانی، محدودیت‌ها و چالش‌هایی دارد. یک چالش آن این است که معلم یا ناظر انسانی باید بازخورد منسجم و قابل‌اطمینانی را ارائه کند که این کار زمان‌بر است و به تخصص و آموزش قابل‌توجهی نیاز دارد. علاوه‌براین، یادگیری تقویتی با بازخورد انسانی می‌تواند در معرض جهت‌گیری‌ها و قضاوت‌های شخصی از جانب معلم قرار گیرد که این می‌تواند بر فرایند یادگیری عامل تأثیر بگذارد.

کدام روش‌ها معمولاً با یادگیری تقویتی با بازخورد انسانی (RLHF) مورد استفاده قرار می‌گیرند؟

جهت بهبود کارایی و تأثیر فرایند یادگیری، می‌توان از چند روش به همراه یادگیری تقویتی با بازخورد انسانی استفاده کرد.

برخی مثال‌ها عبارتند از:

یادگیری مقلدانه[۴]: نوعی یادگیری نظارت‌شده[۵] است که در آن، عامل یاد می‌گیرد با مشاهده و کپی‌کردن اقدامات یک متخصص انسانی، وظیفه‌ای را انجام دهد. می‌توان از یادگیری مقلدانه برای راه‌اندازی سریع فرایند یادگیری و ایجاد یک مبنای قوی برای عامل استفاده کرد. معلم یا ناظر انسانی برای استفاده از یادگیری مقلدانه به‌همراه یادگیری تقویتی با بازخورد انسانی، ابتدا می‌تواند وظیفه را برای عامل شرح دهد و سپس عامل می‌تواند یاد بگیرد که با مشاهده و کپی‌کردن عملیات متخصص انسانی، آن وظیفه را انجام دهد. معلم یا ناظر انسانی می‌تواند برای کمک به یادگیری مؤثرتر عامل، در صورت ضرورت، راهنمایی‌ها و بازخوردهای بیشتری را ارائه کند.

یادگیری خودنظارتی[۶]: نوعی یادگیری غیرنظارتی است که در آن عامل یاد می‌گیرد فقط با استفاده از سازوکارها و ساختار درونی و لاینفک موجود در محیط، وظیفه یا کاری را انجام دهد. یادگیری خودنظارتی را می‌توان جهت کمک به یادگیری مؤثرتر عامل، به‌ویژه زمانی‌که بازخورد انسانی پراکنده و نویزدار است، استفاده کرد. برای استفاده از یادگیری خودنظارتی به‌همراه یادگیری تقویتی با بازخورد انسانی، می‌توان به عامل آموزش داد که از سازوکارها و ساختار درونی و لاینفک موجود در محیط، برای‌مثال با پیش‌بینی تصویر بَعدی در یک ویدئو یا کلمه بَعدی در یک جمله، یاد بگیرد. سپس معلم یا ناظر انسانی می‌تواند در مورد عملکرد عامل بازخورد دهد و در صورت نیاز، فرایند یادگیری را تنظیم نماید.

یادگیری انتقالی[۷]: یک روش یادگیری ماشینی است که به عامل امکان می‌دهد از دانش و تجربه‌ی یک وظیفه‌ یا کارش جهت یادگیری مؤثرتر و سریع‌تر یک وظیفه‌ی جدید استفاده کند. می‌توان از یادگیری انتقالی، جهت کمک به عامل در تعمیم یادگیری‌اش به محیط‌ها و موقعیت‌های جدید و کاهش نیاز به بازخورد انسانی استفاده کرد. برای استفاده از یادگیری انتقالی به‌همراه یادگیری تقویتی با بازخورد انسانی، عامل می‌تواند در مورد وظیفه یا مجموعه وظایف مربوطه، ازپیش آموزش ببیند و سپس برای وظیفه‌ی هدف با استفاده از یادگیری تقویتی با بازخورد انسانی آماده شود. به‌دلیل اینکه عامل، برخی از دانش‌ها و مهارت‌های مربوطه را از مرحله‌ی پیش‌آموزش فراگرفته است، می‌تواند وظیفه‌ی هدف را سریع‌تر و مؤثرتر فراگیرد.

روش‌های ترکیبی: روش‌هایی هستند که پیش‌بینی‌ها یا عملیات چند مدل را برای ایجاد یک نتیجه دقیق‌تر و منسجم‌تر ترکیب می‌کنند. می‌توان از روش‌های ترکیبی، برای ترکیب پیش‌بینی‌ها و عملیات چند مدل یادگیری تقویتی با بازخورد انسانی و بهبود عملکردشان استفاده کرد. برای استفاده از روش‌های ترکیبی به‌همراه یادگیری تقویتی با بازخورد انسانی، می‌توان وظایف مشابه را به مدل‌های RLHF چندگانه آموزش داد و جهت ایجاد یک نتیجه منسجم‌تر و دقیق‌تر، پیش‌بینی‌ها یا عملیاتشان را ترکیب کرد. معلم یا ناظر انسانی می‌تواند به‌طورکل در مورد عملکرد ترکیب و نه فقط هر یک مدل خاص، بازخورد دهد.

بنابراین، چه نتیجه‌ای می‌گیریم؟

نتیجه می‌گیریم، یادگیری تقویتی با بازخورد انسانی برای آموزش سیستم‌‌های یادگیری ماشینی، به‌ویژه در شرایطی که تعریف یک تابع پاداش دقیق برای عامل جهت بهینه‌سازی آن، دشوار یا غیرعملی است، رویکرد نویدبخش و مطمئنی می‌باشد. یادگیری تقویتی با بازخورد انسانی می‌تواند به معلم یا ناظر انسانی امکان دهد تا راهنمایی‌های زمینه‌محور و دقیق‌تری را برای عامل ارائه کند که می‌توانند برای وظایفی که به انعطاف‌پذیری یا انطباق‌پذیری بالایی نیاز دارند، سودمند باشند.

اگرچه یادگیری تقویتی با بازخورد انسانی، محدودیت‌هایی نیز دارد:

  • یادگیری تقویتی با بازخورد انسانی برای ارائه بازخورد قابل‌اطمینان و منسجم، به یک معلم یا ناظر انسانی نیاز دارد که می‌تواند زمان‌بر باشد و به تخصص و آموزش قابل‌توجهی نیاز داشته باشد. در شرایطی که منابع انسانی کم هستند یا فرایند بازخورد بسیار پیچیده یا پرهزینه است، این می‌تواند یک محدودیت تلقی شود.
  • یادگیری تقویتی با بازخورد انسانی می‌تواند در معرض جانبداری‌ها و قضاوت‌های شخصی از جانب معلم یا ناظر انسانی قرار گیرد که می‌تواند بر فرایند یادگیری عامل تأثیر بگذارد. در شرایطی که شفافیت یا بی‌طرفی اهمیت دارد، می‌تواند به یک دغدغه تبدیل شود.
  • یادگیری تقویتی با بازخورد انسانی برای وظایف خاص به‌ویژه آن‌هایی که می‌توانند با استفاده از یک تابع پاداش دقیق تعریف شوند یا به تخصص بالایی احتیاج دارند، مؤثرترین رویکرد نیست.
  • به‌دلیل اینکه بازخوردی که توسط معلم یا ناظر انسانی ارائه می‌شود ممکن است جامع یا بازتاب‌دهنده تمام شرایط احتمالی نباشد، یادگیری تقویتی با بازخورد انسانی برای وظایفی که به تعمیم یا قابلیت‌اطمینان بالایی احتیاج دارند مناسب نیست؛

 بنابراین، بررسی دقیق نقاط قوت و محدودیت‌های یادگیری تقویتی با بازخورد انسانی و در صورت لزوم، استفاده از آن به همراه روش‌های دیگر اهمیت دارد.

 

[۱] – Reinforcement Learning from Human Feedback
[۲] – reward signal
[۳] – reward function
[۴] – Imitation learning
[۵] – supervised learning
[۶] – self-supervised learning
[۷] – Transfer learning

دیدگاه‌ها (1)
دیدگاه خود را بنویسید
  • Wiley ۱۶ دی, ۱۴۰۱ | ۱۲:۳۰

    I am sure this piece of writing has touched all the
    internet users, its really really pleasant post on building up new weblog.

    Visit my blog post: followers