مقایسه دقت و سرعت بین ارزیابان انسانی و مدل‌های هوش مصنوعی مولد در نمره دهی امتحانات حسابداری

شفیعی  توچایی, کتایون; حجازی, رضوان

doi:10.22034/iaar.2026.574235.1912

مقایسه دقت و سرعت بین ارزیابان انسانی و مدل‌های هوش مصنوعی مولد در نمره دهی امتحانات حسابداری

مقالات آماده انتشار

نوع مقاله : مقاله پژوهشی

نویسندگان

کتایون شفیعی توچایی ¹

رضوان حجازی ²

¹ دانشگاه غیر انتفاعی خاتم(دانشکده مدیریت و امور مالی) تهران، ایران

² دانشگاه غیر انتفاعی ، تهران، ایران

10.22034/iaar.2026.574235.1912

چکیده

هدف پژوهش بررسی مقایسه تفاوت دقت، میزان توافق و سرعت نمره دهی و مدل‌های هوش مصنوعی در مقابل قضاوت تخصصی انسان در بافت‌های ارزیابی واقعی است. روش پژوهش کمی و از نوع شبه تجربی است. جامعه آماری شامل دانشجویان حسابداری در سال تحصیلی 1405-1404 بود که نمونه با استفاده از نمونه گیری در دسترس انتخاب گردید. داده‌ها از40دانشجو جمع آوری شد. نمره‌دهی آزمون‌های میان ترم و پایان ترم توسط سه مدل هوش مصنوعی، دو ارزیاب انسانی بررسی گردید. داده‌ها با استفاده از نرم‌افزار 27SPSS و همچنین اجرای کدهای پایتون در محیط ابری Google Colab مورد تجزیه‌ و تحلیل قرار گرفتند. در این راستا، آمارهای توصیفی، تحلیل واریانس با اندازه‌گیری‌های مکرر ، ضریب کاپا و اندازه‌گیری سرعت محاسبه و بررسی شدند. یافته‌های اولیه نشان می‌دهد که ارزیابی‌های انسانی دقیق‌تر و پایدارتر هستند (میانگین بالاتر و انحراف معیار کوچکتر). تداوم این برتری با تعامل قابل توجه بین نوع ارزیابان وآزمون با پشتیبانی همراه بود و تفاوت معناداری را بین امتیازدهی انسان و هوش مصنوعی نشان داد. توافق انسان و هوش مصنوعی حداقل تا متوسط، اما توافق درون انسانی بسیار بالا بود. از سوی دیگر، مدل‌های هوش مصنوعی که از بازخورد بهره‌مند بودند، نسبت به ارزیابان انسانی بدون بازخورد، بهبود عملکردی در بازه ۱۰ تا 24 برابری را نشان دادند. نتایج حاکی از نقش هوش مصنوعی در تحول و بهبود در حوزه ارزشیابی، به عنوان یک مکمل سریع در مراحل اولیه تصحیح یا ارزیابی عینی به همراه امتیاز دهی انسانی به منظور حفظ صحت و ثبات در آزمون‌های مفهومی حسابداری را برجسته می‌کند

کلیدواژه‌ها

'ارزیابی انسان'

'تحلیل واریانس با اندازه‌گیری مکرر'

'دقت و ثبات'

'هوش مصنوعی مولد'

'نمره‌دهی'

موضوعات