智商如何计算

智商计算的基本概念

智力商数（IQ）是从一系列旨在衡量人类智力的认知评估中得出的标准化总分。如今，IQ分数是一个以规范为参照的指数，用于表达个人的成绩与完全相同年龄的普通人群相比所处的位置。

在设计上，人群平均值始终固定在预先设定的均值100，韦氏测验等主要量表的标准差（SD）为15。标准化对于确保一致性和可靠性是绝对必要的；通过基于具有代表性的人口样本建立规范，临床医生可以可靠地确定个体的认知能力与同龄人相比所处的确切位置。

早期方法：比率智商

20世纪初，"智力年龄"这一概念被引入。这一指标将儿童的测试成绩与该特定水平表现成为典型的平均年龄相对应。为了将其量化为单一分数，比率智商法由刘易斯·特曼（Lewis Terman）于1916年推广普及。

比率智商的精确公式为：

IQ = (智力年龄 ÷ 实际年龄) × 100

例如，如果一个8岁的孩子完成了一项智力测试，达到了10岁孩子的典型智力年龄，那么他的计算结果为：(10 ÷ 8) × 100 = 125。

然而，这种方法存在根本性的数学局限性。主要局限在于智力年龄不会以恒定的线性速率无限增长；它在青春期晚期趋于停滞，而实际年龄却持续增加。如果将其应用于成年人，随着年龄增长，这个公式会导致他们的智商分数人为地大幅下降。此外，不同年龄组的分数标准差差异悬殊，使得跨年龄比较在数学上失去意义。

估算退休人员（65岁以上）的智商

虽然比率智商对一般测试已经过时，但已有专门的数学模型被提出，利用智力年龄和实际年龄来估算老年群体的智商。用于估算65岁以上人群智商的一个模型公式为：

IQ = 317.1332268 × (MA / CA) − 111.2947030 / CA

这一特定数学模型考虑了退休人员智商下降的速率，并用经过优化的特定常数调整智力年龄/实际年龄的比值，以防止经典比率公式中出现的人为分数下降。

现代智商计算方法

为了解决比率公式的缺陷，心理测量学转向了由大卫·韦克斯勒（David Wechsler）于1939年引入的"偏差智商"模型。这一统计系统将智商分数视为相对于特定年龄均值的标准化偏差，将个体置于相对于同龄人的正态分布（钟形曲线）中。

现代偏差智商的精确公式为：

IQ = 100 + 15z

求"z"（标准分数）的精确计算为：

z = (原始分数 − 年龄组均值) / 年龄组SD

该模型确保了固定的均值和标准差，这意味着绝大多数人聚集在平均值附近，极高或极低两端的人较少。约68%的人群得分在均值一个标准差以内（85到115之间），95%的人群在两个标准差以内（70到130之间）。

智商测量：逐步说明

进行标准化智商测试：个体完成由各种独立分测试组成的评估，在受控、统一的条件下进行。
原始分计算：测试评估员统计原始分，原始分代表个人测试表现所获得的总分。
将原始分转换为量表分：使用特定年龄的规范表将原始分转换为"量表分"。在WISC或WAIS等测试中，各分测试的量表分范围为1至19，均值为10，标准差为3。
与常模组比较结果：主考将量表分相加，得出"量表分总和"（S）。
从量表分总和计算FSIQ：量表分总和（S）遵循均值为100、标准差为20的正态分布。由于最终的全量表智商需要标准差为15，主考使用统计转换公式将总和转换为最终FSIQ：
FSIQ = 100 + ((15 / 20) × (S - 100))
简化后，这一精确统计公式表示为：
FSIQ = 25 + 0.75 × S
不完整智商测试的按比例推算：如果临床医生无法完成全部核心分测试，他们必须对可用分数进行"按比例推算"，以估算最终指数或智商。
仅用2个分测试估算3个分测试的指数：公式需要将2个可用量表分之和乘以1.5（或3/2）。
仅用8或9个核心分测试估算全量表智商：公式需要将有效的8或9个量表分之和分别乘以（10/8）或（10/9）。

智商测试中的智力测量

现代智商测试测量的是抽象推理、逻辑和认知处理的特定方面，而非所获得的通识知识。不同的部分通过评估特定的、独立的认知领域（如流体推理、语言理解、工作记忆和处理速度）来对总智商做出贡献。这些单个分测试的表现会产生特定的指数分数。通过复合计分，这些指数分数被数学汇总，产生全量表智商（FSIQ），它是对整体智力功能最为全面的估算。

标准化与常模制定过程

测试基准是通过称为"标准化"的过程创建的，该过程涉及对大量具有代表性的人群样本进行测试。这些大型人群样本的作用是为每个特定年龄群体确定平均表现和标准差，以便建立准确的参考点。测试对象始终只与其确切年龄同龄人的常模样本进行比较。

智商测试方差与弗林效应的统计公式

在过去的一个世纪里，研究人员记录了平均智力测试分数的持续历史性上升，这一现象被广泛称为"弗林效应"（Flynn Effect）。由于这种分数的持续上升，较旧的测试规范最终会过时，并可能人为地抬高个人的智商分数。为了理解和量化这一效应，研究人员进行了元分析，比较个体在旧版测试与新规范版本上的表现差异。

为了精确测量弗林效应的程度并考虑测量误差，研究人员依赖几个特定的统计公式：

计算效应量：某项研究中弗林效应的程度（效应量）通过计算旧测试和新测试平均分之间的原始差异，再将该差异除以两个测试规范制定日期之间的年数来计算。这提供了对每年智商分数增益的估算。

差异的方差：为了确定所比较两个测试之间差异的统计方差，研究人员使用以下公式：

$Variance = \frac{S D_{New}^{2} + S D_{Old}^{2} - 2 r S D_{New} S D_{Old}}{N}$

其中SD2New是最新规范测试的方差，SD2Old是较早规范测试的方差，r是两个测试之间报告的相关性，N是总样本量。

持续时间调整方差：评估弗林效应的研究通常涉及旧测试和新测试规范制定之间不同的时间长度。为了根据这些不同的持续时间进行差异化精度调整，研究人员必须调整方差。他们计算一个持续时间因子（ω），代表相对于单年持续时间的增减因子。最终调整后的方差通过将差异方差除以总样本量（N）乘以ω来计算。最终调整后的方差公式表示为：

$Variance = \frac{S D_{New}^{2} + S D_{Old}^{2} - 2 r S D_{New} S D_{Old}}{N ω^{2}}$

解读最终智商分数

智商数字的真正含义是统计稀有性和相对排名的反映。由于正态分布在数学上是固定的，特定的偏差分数始终对应特定的百分位排名。

130及以上：非常优秀 / 天才（排名在第98百分位或更高，约占人口的2.1%至2.3%）。
115至129：中上至优秀（排名在第84至第98百分位之间）。
85至114：中等至中下（约占人口的68%，分数100恰好对应第50百分位）。
70至84：边界至中下。
70以下：极低（代表人口中最低的约2.3%）。