در جامعهٔ ما نمره‌های آزمون‌ها نقش تعبین‌کننده‌ای در بسیاری از امور دارند. در کلاس‌های مدارس ابتدائی، کودکان اغلب براساس عملکردشان در آزمون‌های ریاضی و مهارت‌های خواندن، در گروه آموزشی متفاوت جایگزین می‌شوند. در برخی دبیرستان‌ها دریافت‌ گواهینامهٔ پایان دورهٔ متوسطه مستلزم گذراندن آزمون‌های حداقل شایستگی است. در بسیاری از دانشگاه‌ها و مدارس عالی تخصصی و دوره‌های تحصیلی بعد از لیسانس آزمون‌ها بخشی از برنامهٔ پذیرش دانشجو است.


- توصیف آزمون‌های توانائی برحسب دو بُعد:

هر آزمون در نقطه‌ای از پیوستار استعداد ـ پیشرفت و همچنین در نقطه‌ای از پیوستار عمومی ـ اختصاصی قرار دارد. برای مثال یک آزمون واژگان زبان فرانسه یا آزمون ماشین‌نویسی (تعداد واژه‌هائی که آزمودنی می‌تواند در یک دقیقه بدون اشتباه تایپ کند) در انتهاء ”پیشرفت“ پیوستار استعداد ـ پیشرفت، و در انتهاء ”اختصاصی“ پیوستار عمومی ـ اختصاصی قرار دارد.


نیم‌رخ استعداد موسیقی که مستلزم داشتن معلومات قبلی در زمینه نیست و به‌منظور پیش‌بینی قابلیت فرد برای بهره‌گیری از دروس موسیقی طرح شده، آزمونی است که یک توانائی بسیار اختصاصی را می‌سنجد و در عین حال در انتهاء ”استعداد“ بعد استعداد ـ پیشرفت قرار دارد. اکثر آزمون‌های هوش مانند مقیاس‌های هوشی استانفورد ـ بینه (Stanford - Binet) و کسلر (Wechler) تا حدود زیادی جبنهٔ عمومی دارند به این معنی که سلسله توانائی‌هائی را می‌سنجد که بیشتر برای سنجش استعداد طراحی شده‌اند تا سنجش میزان تسلط بر مهارت‌ها. آزمون‌های پیشرفت تحصیلی از قبیل آزمون استعداد تحصیلی و برنامهٔ ارزیابی دانشگاهی آمریکا نیز کمابیش عمومی هستند، زیرا فراگیری‌های کلامی و استدلال ریاضی و درک مطلب را می‌سنجد و ادعای سنجش تسلط در رشته‌های مشخصی را ندارند.


بسیاری از دانش‌آموزان دبیرستان که به ادامهٔ تحصیل در دانشگاه علاقه‌مند هستند مجبور هستند آزمون استعداد تحصیلی و یا آزمون ورودی مشابهی نظیر برنامهٔ ارزیابی دانشگاهی آمریکا را بگذرانند. نمره‌های این آزمون‌ها همراه با نمره‌های دورهٔ دبیرستان و ملاک‌های دیگر تعیین می‌کنند که چه کسانی به دانشگاه‌ها راه می‌یابند. داوطلبان دانشگاه‌های حقوق و پزشکی مجبور به گذراندن آزمون‌های ورودی ویژه‌ای هستند: آزمون ورودی دانشکدهٔ حقوق (Law School Admission Test ـLSAT) و آزمون ورودی دانشگاه پزشکی (Medical College Admission Test ـ MCAT). در بسیاری از دوره‌های تحصیلات بعد از لیسانس در دانشگاه‌ها، گذراندن امتحان ورودی تحصیلات بعد از لیسانس (Graduate Record Examination ـ GRE) برای داوطلبان اجباری است. داوطلبان ورود به دوره‌های آموزش مشاغل تخصصی (مانند دندان‌پزشکی، پرستاری، داروسازی، حسابداری و مدیریت بازرگانی) باید آزمون‌های ورودی ویژه‌ای را بگذرانند و پس از پایان تحصیلات خود نیز باید آزمون‌های دیگری را بگذرانند تا بتوانند پروانهٔ کار یا گواهینامهٔ تخصص دریافت دارند. دریافت پروانهٔ کار برای اشتغال تقریباً در هر حرفه‌ای اعم از لوله‌کشی، آرایشگری، فیزیوتراپی، طبابت، روانشناسی بالینی و یا وکالت، مستلزم گذراندن امتحانات کتبی است. علاوه بر این‌ها در بسیاری از ادارات دولتی و مؤسسات صنعتی گزینش داوطلبان کار، یا جایگزینی و ترفیع کارکنان براساس نمره‌های آزمون‌ها صورت می‌گیرد.


از آنجا که آزمون‌ها چنین نقض مهمی در زندگی افراد دارند، لازم است دقیقاً همانا چیزی را بسنجند که برای سنجش آن ساخته شده‌اند، و نمره‌های حاصل از آنها میزان معلومات و مهارت‌های افراد را به‌درستی نشان دهند. هر آزمون در صورتی می‌تواند مفید باشد که نمره‌های حاصل از آن هم معتبر (Valid) و هم پایا (reliable) باشند.

پایائی (reliability)

نمره‌های آزمون هنگامی پایا محسوب می‌شوند که در آزمایش‌های مکرر تغییر نکنند. آزمون‌ها به دلایل متعددی ممکن است ناپایا باشند. سؤال‌های مبهم و گیج‌کننده ممکن است در مواقع مختلف برای آزمودنی معانی متفاوتی داشته باشند. آزمون‌ها ممکن است بیش از حد کوتاه باشند و در نتیجه معرف توانائی‌های مورد آزمایش نباشند، و یا نمره‌گذاری آنها به شیوه‌ای بسیار شخصی صورت گیرد. آزمونی که به‌هنگام اجراء در موقعیت‌های گوناگون و یا نمره‌گذاری توسط افراد مختلف نتایج متفاوتی به‌دست دهد ناپایا به ‌حساب می‌آید. چنین وضعی شبیه استفاده از یک خط‌کش لاستیکی است. اگر ندانیم این خط‌کش در موقع اندازه‌گیری چقدر کش می‌آید در آن صورت علی‌رغم دقت کافی در اندازه‌گیری باز هم نتایج اندازه‌گیری ناپایا خواهد بود. از نتایج آزمون در صورتی می‌توان با اطمینان خاطر استفاده کرد که آزمون پایائی داشته باشد.


برای ارزیابی میزان پایائی باید برای هر آزمودنی در یک آزمون واحد دو اندازه در دست باشد. این دو اندازه از راه بازآزمائی فرد با آزمون واحد یا آزمایش فرد با دو صورت متفاوت ولی هم ارز آزمون، و تحلیل جداگانهٔ دو نیمهٔ آزمون واحد به‌دست می‌آید هرگاه در موارد هر یک از آزمودنی‌ها مقدار این دو اندازه تقریباً برابر باشد می‌توان آزمون را پایا به ‌حساب آورد. البته در مورد آزمون‌های پایا نیز ممکن است به‌ خاطر عوامل تصادف و خطاهای اندازه‌گیری، بین دو نمرهٔ یک فرد تفاوتی وجود داشته باشد. در نتیجه ناگزیر باید یک شاخص آماری از رابطهٔ بین سلسله نمره‌های جفتی افراد به‌دست آورد. ضریب همبستگی (r) میزان این رابطه را به‌دست می‌دهد. ضریب همبستگی بین دو سلسله نمرهٔ گروهی از افراد در یک آزمون واحد ضریب پایائی نامیده می‌شود. ضریب پایائی آزمون‌هائی که با دقت ساخته شده‌اند معمولاً برابر ۹۰/۰ و یا بیشتر است.

اعتبار

هر آزمون هنگامی معتبر شناخته می‌شود که همان چیزی را بسنجد که برای اندازه‌گیری آن ساخته شده است. یک امتحان دانشگاهی در رشتهٔ اقتصاد که مملو از سؤالاتی پیچیده یا فریب‌دهنده است ممکن است به‌جای مطالب آموخته شده در زمینهٔ اقتصاد، توانائی کلامی دانشجویان را بسنجد. چنین امتحانی ممکن است پایائی داشته باشد (به این معنی که هر دانشجو در بازآزمائی نمره‌ای معادل نمرهٔ قبلی خود به‌دست آورد)، اما نمی‌توان آن را آزمون معتبری برای سنجش میزان فراگیری آن درس تلقی کرد. یا می‌توان آزمونی برای سنجش میزان شوخ‌طبعی تهیه کرد که سؤال‌های آن متشکل از شوخی‌هائی باشد که درک آنها بسیار دشوار است مگر برای افراد بسیار باهوش یا افرادی که کتاب‌های فراوان خوانده باشند. چنین آزمونی ممکن استت چیزی (مثلاً شاید هوش یا پیشرفت تحصیلی) را به صورتی پایا بسنجد ولی آزمون معتبری برای سنجش شوخ‌طبعی نباشد.


برای اندازه‌گیری اعتبار باید برای هر فرد دو نمره به‌دست آورد: نمرهٔ آزمون، و شاخص دیگری از توانائی مورد آزمایش. این شاخص دوم ملاک (criterion) خوانده می‌شود. فرض کنید آزمونی برای پیش‌بینی موفقیت در ماشین‌نویسی ساخته شده است. برای تعیین اعتبار این آزمون، آن را به گروهی از افراد پیش از فراگیری فن ماشین‌نویسی می‌دهند. پس از پایان دورهٔ آموزشی، تعداد کلماتی که هر آزمودنی می‌تواند در یک دقیقه به طور صحیح ماشین کند تعیین می‌شود؛ و این شاخصی است از میزان موفقیت افراد که به‌عنوان ملاک از آن استفاده می‌شود. اینک می‌توان بین نمره‌های آزمون و نمره‌های ملاک ضریب همبستگی حساب کرد. این ضریب همبستگی که به‌عنوان ضریب اعتبار (Validity coefficient) شناخته می‌شود اطلاعاتی در مورد ارزش آزمون از لحاظ هدفی که در ساختن آن موردنظر بوده، به‌دست می‌دهد. هرچه ضریب اعتباری بزرگتر باشد دقیق‌تر می‌توان براساس نتایج آزمون دست به پیش‌بینی زد.


مع‌هذا در بسیاری از آزمون‌ها سنجش توانائی‌هائی مطرح است که در مقایسه با مهارت ماشین‌نویسی حوزهٔ گسترده‌تری دارند و اندازه‌گیری آنها دشوارتر است. برای مثال، از نمره‌های آزمون ورودی دانشکدهٔ پزشکی (همراه با سایر اطلاعات) به‌منظور گزینش دانشجویان پزشکی استفاده می‌شود. اگر هدف آزمون، پیش‌بینی موفقیت دانشجو در دانشکدهٔ پزشکی باشد می‌تواند میانگین نمره‌های درسی او را به‌عنوان ملاک به‌کار برد، و محاسبهٔ همبستگی بین نمره‌های آزمون ورودی دانشکدهٔ پزشکی و میانگین نمره‌های درسی یکی از شیوه‌های تعیین اعتبار آن آزمون خواهد بود. اما اگر بخواهیم براساس نمرهٔ دانشجو در این آزمون موفقیت او را به‌عنوان یک پزشک پیش‌بینی کنیم در آن صورت اعتباریابی آزمون دشوار تر می‌شود. در این مورد چه ملاکی باید انتخاب شود؟ درآمد سالانه، دستاوردهای تحقیقاتی، کمک به بهزیستی جامعه، ارزش پزشک از دیدگاه بیماران با همکاران، یا دعاوی مربوط به سوءاستفاده از حرفهٔ پزشکی؟ حتی اگر مجریان آزمون بتوانند در مورد یکی از این ملاک‌ها به توافق برسند تازه اندازه‌گیری آن احتمالاً دشوار خواهد بود.


نکتهٔ مهمی که لازم است در اینجا خاطرنشان شود این است که در ارزیابی یک آزمون باید به کاربردهای احتمالی و استنتاج‌های آینده براساس نمره‌های آن نیز توجه داشت.

همسانی شرایط اجرای آزمون

پایائی و اعتبار آزمون به میزان زیادی بستگی دارد به رعایت همسانی در شیوهٔ اجراء و نمره‌گذاری آن. در سنجش توانائی نیز مثل هر نوع اندازه‌گیری علمی دیگر باید شرایط کنترل شود تا تأثیر متغیرهای نامربوط به حداقل ممکن برسد. بنابراین، آن دسته از آزمون‌های توانائی قبول عام یافته‌اند که دستورالعمل‌های اختصاصی، حدهای زمانی (یا فقدان محدودیت زمانی در مورد برخی آزمون‌ها)، و شیوه‌های نمره‌گذاری روشن و مشخصی دارند. توضیحات آزماینده و نحوهٔ ارائه موارد آزمون به آزمودنی باید در تمام اجراءهای آزمون یکسان باشد.


البته نمی‌توان همهٔ متغیرهای نامربوط را پیش‌بینی یا کنترل کرد. مثلاً جنسیت و نژاد آزماینده مسلماً تغییر می‌کند. این قبیل ویژگی‌های فردی، و نیز سلوک عمومی آزماینده (مانند حالت چهره و لحن صدای وی) ممکن است بر عملکرد آزمودنی اثر بگذارند. هر چند این‌گونه متغیرها قابل کنترل نیستند اما در ارزیابی نتایج آزمون باید به اثر احتمالی آنها توجه داشت. مثلاً اگر پسربچهٔ سیاهپوستی که به‌وسیلهٔ یک زن سفیدپوست آزمایش شده عملکرد ضعیفی در آزمون داشته باشد. ممکن است در برابر یک آزمایندهٔ مرد سیاه‌پوست به همان اندازه اضطراب یا انگیزش نشان ندهد.