方法或仪器的主要特征

测试的主要要求是有效性——传统上定义为测试实际测量它所要测量的东西的程度。一个测试是可靠的，在某种程度上，它测量一致，但可靠性是没有后果，如果一个测试缺乏效度。因为画画的人推论从一个测试必须确定它如何服务于他的目的，有效性的估计不可避免地需要判断。取决于标准对于所采用的判断，测试显示出许多不同种类的效度。

经验效度(也称为统计效度或预测效度)描述了一项测试的分数与其他测试中测量的行为的对应(相关)程度上下文．例如，学生在学术能力测试中的分数可能会与他们的学校成绩(一种常用的测试方法)进行比较标准)．在某种程度上，这两种测量在统计上是一致的，测试经验地预测在学校表现的标准。预测效度在能力倾向测验中有最重要的应用(例如,在筛选工作申请人，在学术安排，在分配军事人员不同的职责)。

或者，检查一个测试可能只是为了看看它是否内容似乎适合其预期的目的。这种内容验证被广泛应用于学术成就的衡量，但也承认判断的不可避免的作用。因此，几何测试显示内容(或课程)有效性时，专家(例如,教师)认为，它充分地抽样了该主题的学校课程。从广义上解释，内容包括所需的技能(如计算能力)以及在成绩测试情况下的信息点。表面有效性(一种粗略的内容效度)反映了学生、家长、雇主和政府官员等人对测试的接受程度。一个看起来有效的测试是可取的，但没有更基本效度的表面效度只不过是摆设。

在个性测试时，对测试内容的判断往往特别不可信，而外部可靠标准是罕见的。例如，人们可以认为一个出汗过多的人会感到焦虑。然而，他的焦虑感(如果有的话)并不是直接可见的。任何假定的特征(例如焦虑)被认为是可观察到的行为的基础，被称为心理障碍构造．由于建构本身不能直接测量，任何测试作为焦虑测量的充分性只能间接衡量;例如,通过证据证明其构念效度。

当低分者和高分者被发现对日常经验或实验程序的反应不同时，测试就显示出建构效度。一个测试假定例如，为了测量焦虑，如果那些高分的人(“高度焦虑”)能被证明比那些低分的人学习效率低，就能提供建构效度的证据。其基本原理是，有几个命题与焦虑的概念有关:焦虑的人学习效率可能较低，尤其是在不确定自己的学习能力时;他们可能会忽略在执行任务时应该注意的事情;他们容易感到紧张，因此感到疲劳。(但焦虑的人可能是年轻人，也可能是老年人，聪明的也可能是不聪明的。)如果在焦虑测试中得分高的人表现出这样的焦虑迹象，也就是说，如果焦虑测试与这些命题中给出的其他测量值具有预期的关系，则该测试被视为具有构念效度。

测试可靠性是否受到评分准确性、内容抽样的充分性和稳定被测量的特质。评分者信度指的是在同一项测试中得分的不同人所认同的一致性。对于一个有明确答案的测试，记分者的可靠性可以忽略不计。然而，当被试用自己的语言、笔迹和对主题的组织来回应时，不同评分者的先入之见就会导致不同评分者对同一项测试的不同得分;也就是说，测试显示了评分者(或评分者)的不可靠性。在没有客观评分的情况下，评分者的评价可能会因时间不同而不同，也可能与同样受尊重的评估者的评价不同。在其他条件相同的情况下，允许客观评分的考试是首选。

可靠性还取决于测试样本和待测内容的代表性。如果一个测试项目的分数抽样了一个特定的内容设计合理均匀（例如,词汇)与从同一内容宇宙中选择的另一组项目的内容高度相关，测试具有高内容信度。但如果宇宙的内容是高度多样化的由于它对不同的因素进行了采样(比如，语言推理和数字能力)，测试可能具有较高的内容信度，但内部一致性较低。

在大多数情况下，同一科目在同一考试中的表现一天一天应该是一致的。当这些分数随着时间的推移趋于稳定时，测试表现出时间可靠性。分数的波动可能源于性状的不稳定性;例如，考生可能一天比第二天更快乐。或者时间上的不可靠性可能反映了不明智的测试结构。

测试可靠性评估的主要方法之一是比较形式技术，将一组人在一种测试形式中的得分与他们在另一种测试形式中的得分进行比较。从理论上讲，比较形式方法可以反映评分者、内容和时间可靠性。理想情况下，这要求每种形式的测试都由不同但能力相同的人编写，并且在不同的时间给出这些形式，并由二流评分者评估(除非客观的关键是固定的)。

在测试-再测试方法，同一组人的分数是相关的，来自两个行政相同的测试。如果管理的时间间隔太短，内存可能不适当增强的相关性。或者有些人，例如，可能会查找他们在第一次词汇测试中漏掉的单词，从而能够在第二次考试中提高他们的分数。太长的间隔时间会对每个人产生不同的影响，因为遗忘或学习的速度不同。除了非常简单的速度测试(例如,在这种情况下，一个人的分数取决于他做简单加法的速度有多快)，这种方法可能会对可靠性给出误导性的估计。

估计信度的内部一致性方法只需要对单一形式的测试进行一次管理。一种方法是在测试的不同部分获得分数，通常是奇数和偶数项目。对应的程度(用数字表示)相关在这些半测试的分数之间的系数)允许通过统计校正的方法估计测试的可靠性(在完整的长度)。

这是通过使用斯皮尔曼-布朗预测公式(用于估计由于测试长度的增加而预期增加的可靠性)。更常用的是这种升级的概化，分一半可靠性估计，其中之一Kuder-Richardson公式。这个公式提供了将测试分成两半的所有可能方法所产生的估计值的平均值。