انقلابی در ارزیابی هوش مصنوعی: رضایت انسان، معیار نهایی

عامل‌های هوش مصنوعی که با مدل‌های زبان بزرگ (LLM) کار می‌کنند، به سرعت در حال تبدیل شدن به ابزاری قدرتمند هستند. اما چگونه می‌توانیم بفهمیم کدام‌یک واقعاً برای کاربران مفید است؟ تاکنون، ارزیابی این عامل‌ها بیشتر بر اساس بنچمارک‌های خودکار بوده است که عملکرد آن‌ها را در حالت کاملاً مستقل می‌سنجد، در حالی که در دنیای واقعی، تعامل با انسان بخش مهمی از کار آن‌هاست.

به گزارش کیوسک خبر، پژوهشگران برای حل این مشکل، یک چارچوب جدید و کارآمد برای ارزیابی انسان-محور به نام PULSE ارائه کرده‌اند. این چارچوب با جمع‌آوری بازخورد مستقیم از کاربران، آموزش یک مدل یادگیری ماشین برای پیش‌بینی رضایت آن‌ها و ترکیب نتایج انسانی با برچسب‌های تولیدشده توسط مدل، به ارزیابی دقیق‌تری دست می‌یابد.

این تیم تحقیقاتی، چارچوب PULSE را بر روی یک پلتفرم بزرگ مبتنی بر عامل نرم‌افزاری متن‌باز OpenHands با بیش از ۱۵ هزار کاربر پیاده‌سازی کرد. آن‌ها تأثیر تصمیمات کلیدی در طراحی عامل‌ها، مانند انتخاب مدل هوش مصنوعی (مثلاً مقایسه claude-sonnet-4 و gpt-5)، استراتژی برنامه‌ریزی و مکانیزم‌های حافظه را بر میزان رضایت توسعه‌دهندگان بررسی کردند.

نتایج این مطالعه نشان داد که تفاوت‌های قابل توجهی بین عملکرد عامل‌ها در دنیای واقعی و نتایج بنچمارک‌های استاندارد وجود دارد. این یافته‌ها بر محدودیت‌های ارزیابی‌های مبتنی بر بنچمارک تأکید می‌کند و راهنمایی‌های عملی برای طراحی عامل‌های هوش مصنوعی بهتر و کاربرپسندتر ارائه می‌دهد.