Dass Noten von Schüler:innen – insbesondere aus unterschiedlichen Klassen – nur schwer vergleichbar sind, ist vielen Akteur:innen im Schulwesen seit langer Zeit bewusst. Verschafft man sich einen Überblick zu Lösungsansätzen für diese Problematik, so stößt man in internationaler Literatur schnell auf standardisierte Testverfahren. Ein Beispiel hierfür ist der genannte Kompass 4-Tests. Von ihm verspricht man sich unter anderem eine Unterstützung bei Entscheidungsprozessen von Eltern und Empfehlungen von Lehrkräften. Erreicht werden soll dies durch die Einführung einer 2-aus-3-Regel beim Übergang auf die weiterführende Schule (Elternwille + Empfehlung der Klassenkonferenz oder Testergebnis).
Standardisierte Leistungstests weisen, vorausgesetzt sie wurden lege artis entwickelt, aus wissenschaftlicher Sicht besonders günstige Eigenschaften auf, um Schüler:innen miteinander vergleichen zu können (Objektivität, Reliabilität und Validität). Inzwischen existiert allerdings auch eine reichhaltige Literatur zu Herausforderungen und Risiken solcher Tests. Zwei davon sollen im Folgenden näher dargestellt werden.
1. Herausforderungen bei der Entwicklung und beim Einsatz standardisierter Tests
Der Prozess der Entwicklung verlässlicher Tests ist mit einem enormen Aufwand verbunden. Aufgaben müssen fachdidaktisch rückgekoppelt entwickelt, pilotiert und normiert werden. Funktionierende Kompetenztests zeichnen sich insbesondere dadurch aus, dass sie die gesamte Fähigkeitsverteilung von Schüler:innen durch entsprechende Testaufgaben gut abdecken, den Bildungs- und Lehrplanvorgaben entsprechen und das abbilden, was tatsächlich im Unterricht behandelt wurde. Die Kompass 4-Ergebnisse von 2024 in Mathematik legen nahe, dass ein Großteil der Aufgaben zu schwierig für die Schüler:innen zu sein scheint – nur sechs Prozent erreichten das definierte gymnasiale Niveau, 86 Prozent das definierte Hauptschulniveau. Die Schwierigkeit der Testaufgaben kann dabei ganz unterschiedliche Ursachen haben (zum Beispiel zu wenig Bearbeitungszeit oder eine geringe Überschneidung mit Unterrichtsinhalten), die in jedem Fall genau untersucht werden müssen. Weitere „Risiken und Nebenwirkungen“ des Einsatzes standardisierter Leistungstests liegen beispielsweise in einer Einengung der tatsächlichen Unterrichtsinhalte. Anstatt den gesamten Bildungsplan abzubilden, orientiert sich der Unterricht dann ab einem bestimmten Zeitpunkt primär an erwarteten Testinhalten, andere wichtige Themen werden hingegen vernachlässigt.
2. Die Schwierigkeit der Diagnostik anhand von Grenzwerten
Um Schüler:innen unterschiedlichen Kompetenzniveaus und darauf basierend unterschiedlichen Schulformen zuordnen zu können, müssen bestimmte Grenzwerte festgelegt werden. Nehmen wir an, der hypothetische Grenzwert für das Gymnasium läge bei 515 Punkten. Das bedeutet, dass den Testteilnehmer:innen mit 515 und mehr Punkten bei vorliegendem Elternwillen in jedem Falle eine Anmeldung am Gymnasium offen stünde, Schüler:innen ohne Empfehlung für das Gymnasium, die (nur minimal) unter dem Grenzwert liegen (zum Beispiel mit 514, 513, 512, usw. Punkten), hingegen nicht. Praktisch kann stark angezweifelt werden, ob sich Schüler:innen knapp unter und knapp über dem Grenzwert tatsächlich bedeutsam in ihren Kompetenzen oder Wahrscheinlichkeiten, am Gymnasium erfolgreich oder nicht erfolgreich zu sein, unterscheiden. Außerdem muss hinterfragt werden, ob ein Test derart geringe Unterschiede überhaupt hinreichend genau und verlässlich abbilden kann. Selbst wenn dies sichergestellt wäre, würden trotzdem Schüler:innen mit sehr ähnlichen Kompetenzen unterschiedlichen Schulformen zugewiesen.

Grafik 1: Kompetenzverteilung der Viertklässler*innen
Eine weitere Problematik liegt darin, dass sich unmittelbar am Grenzwert – unabhängig davon, ob dieser nun bei 550 Punkten oder bei 515 Punkten liegt – eine beträchtliche Anzahl von Schüler:innen befindet (siehe Abbildung). Es würden also bei beiden (hypothetischen) Grenzwerten viele Schüler:innen unterschiedlichen Schulformen zugewiesen, die eigentlich vergleichbare Kompetenzen aufweisen. Wenn weitreichende Entscheidungen an solche Grenzwerte gekoppelt werden, muss also sichergestellt werden, dass auch sehr geringe Unterschiede in den diagnostizierten Kompetenzen mit praktisch bedeutsamen Kompetenzunterschieden einhergehen, die eine Zuweisung zu unterschiedlichen Schulformen rechtfertigen.
Fazit
Dies sind lediglich zwei ausgewählte Aspekte, die generell in Bezug auf standardisierte Tests und auch mit Blick auf Kompass 4 zu hinterfragen sind. Weitere wichtige Punkte, die mit der Umsetzung solcher standardisierter Testverfahren einhergehen und einer umfassenden Berücksichtigung und systematischen Begleitforschung bedürfen, sind unter anderen der zeitliche Aufwand für Lehrpersonen, die Auswirkungen auf die psychische Gesundheit von Kindern sowie notwendige sprachliche Voraussetzungen und damit verbundene Benachteiligungen bestimmter Schüler:innengruppen.