عاملهای هوش مصنوعی که با مدلهای زبان بزرگ (LLM) کار میکنند، به سرعت در حال تبدیل شدن به ابزاری قدرتمند هستند. اما چگونه میتوانیم بفهمیم کدامیک واقعاً برای کاربران مفید است؟ تاکنون، ارزیابی این عاملها بیشتر بر اساس بنچمارکهای خودکار بوده است که عملکرد آنها را در حالت کاملاً مستقل میسنجد، در حالی که در دنیای واقعی، تعامل با انسان بخش مهمی از کار آنهاست.
به گزارش کیوسک خبر، پژوهشگران برای حل این مشکل، یک چارچوب جدید و کارآمد برای ارزیابی انسان-محور به نام PULSE ارائه کردهاند. این چارچوب با جمعآوری بازخورد مستقیم از کاربران، آموزش یک مدل یادگیری ماشین برای پیشبینی رضایت آنها و ترکیب نتایج انسانی با برچسبهای تولیدشده توسط مدل، به ارزیابی دقیقتری دست مییابد.
این تیم تحقیقاتی، چارچوب PULSE را بر روی یک پلتفرم بزرگ مبتنی بر عامل نرمافزاری متنباز OpenHands با بیش از ۱۵ هزار کاربر پیادهسازی کرد. آنها تأثیر تصمیمات کلیدی در طراحی عاملها، مانند انتخاب مدل هوش مصنوعی (مثلاً مقایسه claude-sonnet-4 و gpt-5)، استراتژی برنامهریزی و مکانیزمهای حافظه را بر میزان رضایت توسعهدهندگان بررسی کردند.
نتایج این مطالعه نشان داد که تفاوتهای قابل توجهی بین عملکرد عاملها در دنیای واقعی و نتایج بنچمارکهای استاندارد وجود دارد. این یافتهها بر محدودیتهای ارزیابیهای مبتنی بر بنچمارک تأکید میکند و راهنماییهای عملی برای طراحی عاملهای هوش مصنوعی بهتر و کاربرپسندتر ارائه میدهد.











