Krise der Schule und Bildung – nützlich für Kontrolle und Testindustrie?

Schule und Bildung zum Zweck der Erkenntnis und Aufklärung, zur Beförderung von Selbstbestimmung und demokratischer Verfügung scheint aus der Mode gekommen. Aber noch regen sich Stimmen gegen diesen Verfall.

Der Autor von „We feed the world“ und „Let’s make money“, Eugen Wagenhöfer, hat sich jetzt auch dem Thema Schule und Bildung gewidmet. Hier einige Hinweise zu seinem neuen Film „Alphabet“ von 3sat.

Dazu passend die ausführliche Kommentierung eines Lesers der diversen Bildungsstudien auf den Nachdenkseiten (Nr.21)

Ich wundere mich, warum die Bildungspolitik Schulleistungsvergleiche im Stile von PISA nicht kritischer hinterfragt. Auch die Die Kritik ist viel zu zahm. Diese Studien sind m.E. nicht nur wertlos, sondern dysfunktional:

Rangplätze, die von der Testindustrie gern verwendet werden, weil sie in den Medienredaktionen begeistert aufgenommen werden, sind völlig sinnlose Messwerte. Würde die Politik sich auf solche “Messwerte” verlassen, wenn es sich um Entscheidungen über die Kostenvoranschläge für neue Schulgebäude handelt? Bringt man dann die Angebote nur in eine Rangreihe? Ist es nicht wichtig zu wissen, welche absoluten Kosten in Euro sich dahinter verbergen? Wir wissen nichts, was bei den Schultests der “mittlerere Rangplatz” wirklich bedeutet. Wenn, wie ich vermute, die Messwerte eng beieinander liegen und vielleicht sogar nicht wirklich fachliche Kompetenzen messen, sondern irgendetwas anderes, dann sollten wir nicht über den Unterricht in unseren Schulen diskutieren, sondern über die Testindustrie.

Wie groß ist überhaupt die Streuung der Ergebnisse von Land zu Land, nicht nach den künstlich aufgeblähten und willkürlich transformierten PISA-Punktwerten, sondern nach der Zahl der gelösten Aufgaben? Sind diese Unterschiede überhaupt nennenswert? Liegt Baden-Württemberg mehr als eine halbe Aufgabe hinter Sachsen?

Wie ausgelesen ist die Schülerpopulation, die getestet wurde? Die neuen Bundesländer haben mit den höchsten Anteil von Förderschülern unter den deutschen Bundesländern. Er ist deutlich höher als den meisten alten Bundesländern. Allein die hohe Selektivität sächsischer Schulen treibt die Testmittelwerte nach oben, ohne dass die Schulen Sachsen besser sein müssen. Wenn die wirklichen Unterschiede eh nicht groß sind, können schon geringe Unterschiede bei den Selektionsraten zu großen Rangunterschieden bei den Tests führen.

Wie ernst werden diese Art der Tests von Schülern in den verschiedenen Ländern genommen? Mit wie viel Lust und Interessen nehmen sie an diesen Tests teil? Wie hoch war die Ausfallrate? Korrelierte die Ausfallrate mit der Höhe der Testwerte? Aus anderen Studien gibt es Hinweise, dass die höher befähigten Schüler kritischer gegen solche Tests eingestellt sind als weniger fähige Schüler. Wenn das so ist, kommt es zu paradoxen Befunden: Je schlechter die Schüler, umso besser die Testwerte. Als Gegenmaßnahme ist Druck mittels Benotung hoch problematisch. Die Tests stimmen nicht mit den Bildungszielen unserer Schulen überein und würden daher die Kluft zwischen Unterricht und Bildungszielen vergrößern, wenn sie notenrelevant werden. Zudem gilt es als gesichertes Wissen, dass mit dem Druck die Korruption zunimmt; schon jetzt schicken Lehrer schwache Schüler am Testtag nach Hause, um den Mittelwert zu steigern.

Mathematikdidaktiker und Lernpsychologen kritisieren die Aufgaben in Mathe-Tests. Es wird zwar immer wieder darauf verwiesen, dass an der Entwicklung der Aufgaben Mathematiklehrer beteiligt waren, aber ich weiß von renommierten Mathematikdidaktikern, dass sie sich aus den Beiträten zurückgezogen haben, nachdem die Testmacher ihre Aufgaben abgelehnt und durch minderwertige Aufgaben ersetzt haben, weil die besser in das Prokrustes-Bett der verwendeten Testtheorie passen. Schon seit Jahren wird daher von Experten heftige Kritik an den Vergleichstests geübt, die nach den Vorgaben der Klassischen Testtheorie oder, neuerdings, nach der Item-Response-Theorie konstruiert sind. Diesen statistischen Theorien liegen versteckt simple Kompetenztheorien zugrunde, die mit den Erkenntnissen der Psychologie nicht vereinbar sind.

Die Testmacher sind weitgehend immun gegen Kritik. Dass die Realität nicht zu ihrer Theorie passt, merken auch die Testmacher. Aber das führt nicht dazu, wie in der seriösen Wissenschaft, dass sie ihre falsche Theorie durch eine bessere ersetzen, sondern dazu, dass sie die Aufgaben in den Tests so lange austauschen, bis die Wirklichkeit zur Theorie passt. Seit vielen Jahren kritisieren renommierte Experten diese Probleme in Fachzeitschriften und in Büchern. Die Testmacher haben sich dazu m.W. noch nie ernsthaft geäußert. Stattdessen weiß ich von persönlichen Angriffen auf Kritiker. Es geht halt um viel Geld.

Dies ist nicht die einzige Manipulation, die m.E. gegen die Regeln der Wissenschaft verstößt. Die Multiplikation der Testwerte mit großen Zahlen, um Unterschiede imposanter erscheinen zu lassen, ist vielleicht eine lässliche Sünde. Aber für bedenklich halte ich die Transformation der Rohtestwerte, so dass ihre Verteilung eine Glockenkurve bildet. Glockenkurven wurden von Gauss erfunden, um Messfehler zu beschreiben, nicht die Verteilungen realer Dinge.

Die Testaufgaben, die zur statistischen Theorie passen, haben meist nur einen oberflächlichen Bezug zu der Kompetenz, die sie messen sollen. Wenn man sie allen Distraktoren, dem überzogenen Zeitdruck und dem sonstigen Beiwerk entkleidet, das sie künstlich schwer machen sollen, bleiben oft nur sehr triviale Fach-Aufgaben übrig. Hier dominiert, wie schon erwähnt, der Wunsch der Statistiker, mit den Tests möglichst große Unterschiede zu produzieren. Daher werden durch “Itemselektion” valide Testaufgaben weggeworfen und durch “trennscharfe”, aber wenig valide Aufgaben ersetzt. Auf diese Weise wird verhindert, dass sich die Modellvorstellungen der Bildungsforscher über die Fachkompetenz als falsch erweisen.

Die wichtigste Frage der Testkonstruktion ist, ob die Testwerte überhaupt etwas Wichtiges messen: Wie gute lassen Testwerte beruflichen Erfolg, Lebensglück, Hilfsbereitschaft, Ehrlichkeit, Nicht-Kriminalität, Diskussionsfähigkeit, Wirtschaftskraft oder sonst etwas vorhersagen, was von Belang ist? Es gibt viele Leute, die durchaus die Preise im Supermarkt vergleichen können, aber bei einer wortlastigen Test-Aufgabe mit dieser Aufgabe nicht klarkommen.

Schaut man sich die Statistiken an, scheint — mit einigen Ausnahmen — zu gelten: Je mittelmäßiger die Testwerte bei PISA sind, desto höher ist der Wirtschaftserfolg einer Nation, desto niedriger die Staatsverschuldung, desto geringer die Kriminalitätsrate, desto höher das Umweltbewusstsein und die Urteils- und Diskursfähigkeit. Mittelmäßig PISA-Testwerte stellen nicht unser Bildungssystem in Frage, sondern die Test-Industrie. (Ich bin durchaus der Meinung, dass unsere Schulen nicht optimal sind und stark verbessert werden könnten.)

Niemand weiß, wie stark diese Kritik zutrifft, aber sie ist plausibel und durch viele Studien erhärtet. Die Tests müssten unbedingt kritisch untersucht werden, bevor man die Testwerte ernst nimmt und Schlüsse daraus zieht. Die Empirische Bildungsforschung nimmt unter fast allen Wissenschaften eine merkwürdige Ausnahmestellung ein. Zum einen scheint sie sich selbst zu genügen; Fragen der Validität und Nützlichkeit scheinen ihr fremd. Genügt es, dass diese Studien sehr viel kosten, um ihnen unbegrenztes Vertrauen entgegen zubringen? Zum anderen kommen bei ihr, um eine Analogie zu benutzen, die Daten direkt vom Acker auf den Tisch, bevor sie auf der Grundlage der Lern- und Kognitionspsychologie reflektiert und einer kritischen Fachdiskussion unterzogen werden. In den Naturwissenschaften werden alle Untersuchungsergebnisse auf Herz und Nieren geprüft, bevor sie publiziert werden. Selbst da passiert es immer wieder, dass sie später aufgrund von kollegialer Kritik widerrufen werden müssen. Warum hat die Empirische Bildungsforschung diese Ausnahmestellung? Kein anderer Anbieter für öffentliche Auftraggeber (Architekten, Baufirmen, Büroausstatter etc.) kommt derart leicht an Aufträge, ohne die Qualität seiner Leistung prüfen zu lassen. Warum ignorieren OECD, Kultusminister und Wissenschaftsredaktionen einfach die fundierte Kritik an PISA & Co., die von hoch angesehenen und kompetenten Wissenschaftlern veröffentlicht wurde? (…) Warum akzeptieren die Kultusminister, dass PISA vorbei an demokratisch legitimierten Institutionen seine eigenen Bildungsstandards definiert? Warum dringen sie nicht darauf, dass die prognostische Validität und Nützlichkeit solcher Tests nachgewiesen wird?