Stellen Sie sich zwei Bewerberinnen vor. Beide haben im Persönlichkeitstest ein nahezu identisches Ergebnis – solide Werte in allen fünf klassischen Dimensionen, keine Ausreißer nach unten, kein klarer Favorit. Sechs Monate nach Einstellung ist eine der beiden eine der leistungsstärksten Mitarbeiterinnen im Team. Die andere hat das Unternehmen bereits verlassen.
Was hat das Assessment nicht gesehen? Diese Frage lässt sich nicht pauschal beantworten – Leistungsunterschiede entstehen aus vielen Faktoren: Teamdynamik, Onboarding, Aufgabenpassung, Führungsqualität. Aber eine Dimension wird in der Praxis systematisch unterschätzt: die Ebene unterhalb der großen fünf Persönlichkeitsdimensionen.
Eine Forschungsarbeit, die Anfang 2023 in den renommierten Proceedings of the National Academy of Sciences erschienen ist, zeigt systematisch, warum diese Ebene so viel Information enthält – und warum die Standarddiagnostik sie fast vollständig ignoriert.
Was diese Studie von anderen unterscheidet
Kevin Stanek und Deniz Ones von der University of Minnesota haben keine neue Studie mit ein paar hundert Teilnehmern durchgeführt. Sie haben etwas Aufwändigeres getan: Sie haben rund 100 Jahre psychologischer Forschung zusammengefasst. Das nennt man eine Metaanalyse – eine Analyse von Analysen, sozusagen. Statt eine eigene Stichprobe zu befragen, wurden die Rohdaten und Ergebnisse aus Hunderten von Einzelstudien mit zusammen Millionen von Teilnehmern ausgewertet und auf ein einheitliches Maß gebracht.
Das macht die Befunde deutlich belastbarer als jede einzelne Studie es je sein könnte. Wenn ein Zusammenhang über so viele verschiedene Stichproben, Länder und Jahrzehnte hinweg stabil bleibt, ist das kein Zufall.
Die zentrale Frage der Autoren war: Wie hängen Persönlichkeit und kognitive Fähigkeit – also das, was wir vereinfacht als Intelligenz bezeichnen – wirklich zusammen? Und: Spielt es eine Rolle, auf welcher Detailebene man schaut?
Die Antwort auf die zweite Frage ist ein klares Ja. Und das ändert einiges.
Das Aggregationsproblem: Wenn der Durchschnitt lügt
Bevor wir zu den Befunden kommen, braucht es ein kurzes Verständnis des Problems. In der Persönlichkeitspsychologie gibt es eine weit verbreitete Struktur: die sogenannten Big Five, also die fünf großen Persönlichkeitsdimensionen. Sie heißen Offenheit für Erfahrungen, Gewissenhaftigkeit, Extraversion, Verträglichkeit und Neurotizismus – manchmal auch emotionale Stabilität genannt.
Diese fünf Dimensionen sind praktisch, weil sie viel in wenige Zahlen verdichten. Aber genau das ist auch ihr Problem.
Stellen Sie sich vor, ein Mitarbeiter-Feedback-Bogen enthält zehn Fragen zur „Kommunikationsstärke". Fünf davon messen, wie gut jemand zuhört und Verständnis zeigt – etwas, das in komplexen Projekten sehr wertvoll ist. Die anderen fünf messen, wie direkt und konfrontationsbereit jemand kommuniziert – etwas, das in denselben Projekten eher hinderlich sein kann. Beide Aspekte gehen in denselben Gesamtwert „Kommunikationsstärke" ein. Das Ergebnis: Der Gesamtwert sagt Ihnen fast nichts – weil sich zwei gegensätzliche Informationen gegenseitig aufheben. Erst wenn Sie die Unterfragen getrennt auswerten, sehen Sie, womit Sie es wirklich zu tun haben. Genau das ist das Kernproblem der Big-Five-Diagnostik, das Stanek und Ones aufdecken: Nicht verschiedene Menschen werden falsch gemittelt, sondern die Skala einer Person bündelt intern entgegengesetzte Signale – und löscht sie dabei aus.
Genau dieses Problem beschreiben Stanek und Ones für die Persönlichkeits-Intelligenz-Forschung. Wenn man auf der Ebene der Big Five misst, heben sich viele entgegengesetzte Teileffekte gegenseitig auf. Das Ergebnis sieht dann aus wie „kein Zusammenhang" – obwohl darunter zwei starke, gegenläufige Zusammenhänge schlummern.
Das sehen wir am deutlichsten am Beispiel der Verträglichkeit – jener Dimension, die beschreibt, wie kooperativ, einfühlsam und rücksichtsvoll jemand ist. Auf der Ebene der Big Five hat Verträglichkeit nahezu keinen Zusammenhang mit kognitiver Fähigkeit. Schaut man tiefer, auf die Ebene der sogenannten Aspekte – also der Untereinheiten der Big Five –, sieht es völlig anders aus:
| Aspekt von Verträglichkeit | Zusammenhang mit Intelligenz | Richtung |
|---|---|---|
| Mitgefühl — Empathie, Fürsorge, emotionale Zugewandtheit | ρ̂ = +.26 | positiv |
| Höflichkeit — Regelkonformität, Konfliktscheu, Anpassung | ρ̂ = −.12 bis −.16 | negativ |
Hinweis zum Symbol ρ̂ (gesprochen: „rho-dach"): Das ist ein statistisches Maß für den Zusammenhang zwischen zwei Merkmalen, bereinigt um typische Messfehler. Es reicht von −1 (perfekt entgegengesetzt) über 0 (kein Zusammenhang) bis +1 (perfekt gleichläufig). Werte ab etwa ±.20 gelten in der Personalpsychologie als praktisch bedeutsam.
Mitgefühl und Höflichkeit stecken beide in derselben Verträglichkeitsskala – und zeigen spiegelverkehrte Muster. Wer nur die Gesamtskala auswertet, sieht: nichts. Wer disaggregiert, sieht: zwei starke, gegenläufige Signale.
„Substanzielle Zusammenhänge zeigen sich selten auf der Ebene der Big Five, sondern erst auf der Ebene von Aspekten, Facetten und zusammengesetzten Eigenschaften."
Stanek & Ones (2023), PNASDie drei stärksten Befunde für die Praxis
Was bedeutet das konkret? Hier sind die drei handlungsrelevantesten Ergebnisse der Studie, geordnet nach ihrer Belegstärke.
Die Facette „Industriousness" – am besten zu übersetzen als zielorientierter Fleiß oder Leistungsstreben – ist innerhalb der Gewissenhaftigkeit die mit Abstand stärkste Einzelgröße: ρ̂ = .32 mit allgemeiner kognitiver Fähigkeit. Das ist bemerkenswert, weil wir Fleiß intuitiv eher als Arbeitshaltung verstehen – nicht als etwas, das mit kognitiven Ressourcen zusammenhängt. Die sogenannte Investmenttheorie der Intelligenz bietet eine plausible Erklärungshypothese: Wer systematisch kognitive Herausforderungen aufsucht, könnte damit über Zeit kognitive Fähigkeiten ausbauen. Ob das tatsächlich so funktioniert – also ob Fleiß Intelligenz formt, Intelligenz fleißiges Verhalten begünstigt, oder beides auf gemeinsame Ursachen zurückgeht – lässt sich aus Korrelationsdaten allein nicht ableiten. Was die Studie belegt: Fleiß und Intelligenz treten statistisch gemeinsam auf, deutlicher als bislang bekannt.
Extraversion als Ganzes korreliert auf der Big-Five-Ebene kaum mit kognitiver Fähigkeit. Schaut man auf den Aspekt Aktivität – also die Tendenz, beschäftigt zu bleiben, viel anzugehen, ein hohes Tempo zu schätzen –, ergibt sich ein positiver Zusammenhang von ρ̂ = .23. Der andere Aspekt von Extraversion, Durchsetzungsvermögen/Geselligkeit, verhält sich anders. Aspekte sind die erste Unterebene der Big Five und bereits deutlich aussagekräftiger als die Faktorebene – aber noch breiter gefasst als einzelne Facetten. Wer also extravertierte Bewerberinnen pauschal als „nicht besonders analytisch" einschätzt, liegt mit dieser Forschung falsch – es kommt auf die spezifische Ausprägung an.
Jahrzehntelang lautete der Konsens: Nur Offenheit für Erfahrungen zeigt nennenswerte Zusammenhänge mit kognitiver Fähigkeit. Alle anderen Big Five? Vernachlässigbar. Stanek und Ones zeigen, dass das ein Artefakt des zu groben Messrasters war. Sobald man auf Aspekt- und Facettenebene schaut, tauchen substanzielle Zusammenhänge auch bei Neurotizismus, Extraversion und Gewissenhaftigkeit auf. 347 solcher Zusammenhänge mit Beträgen ≥ .20 wurden außerhalb von Offenheit gefunden. Das ist kein Randphänomen.
Was diese Studie nicht beantwortet – und warum das wichtig ist
Gute Forschung benennt ihre eigenen Grenzen. Das tun Stanek und Ones, und Sie sollten es bei der Einordnung dieser Befunde ebenfalls tun.
Einschränkungen im Blick behalten
- Korrelation ist keine Kausalität. Die Studie zeigt, dass Fleiß und Intelligenz zusammenhängen. Sie sagt nicht, ob Fleiß Intelligenz fördert, Intelligenz zu mehr Fleiß führt, oder beides auf eine dritte Ursache zurückgeht – zum Beispiel auf das Elternhaus oder frühkindliche Lernumgebungen.
- Datenbasis überwiegend westlich. Die meisten ausgewerteten Studien stammen aus Europa und Nordamerika. Wie stabil die Muster in anderen Kulturräumen sind, ist noch unzureichend erforscht.
- Facettenebene = weniger Datenpunkte. Je tiefer die Analyseebene, desto weniger Primärstudien liegen vor. Einzelne Facettenbefunde – besonders die spezifischsten – sind daher mit etwas mehr Vorsicht zu interpretieren als die Befunde auf Faktorebene.
- Rein beschreibend, nicht kausal. Die Studie ist eine meisterhafte Bestandsaufnahme. Sie sagt uns mit hoher Präzision, dass bestimmte Zusammenhänge existieren – das Warum bleibt ein Thema für künftige Forschung.
Das schmälert den Wert der Befunde nicht. Es bedeutet: Nutzen Sie sie als informierte Orientierung, nicht als Entscheidungsalgorithmus.
Drei konkrete Änderungen für Ihr nächstes Assessment
Was folgt daraus für die Praxis? Hier sind Empfehlungen mit unterschiedlichem Zeithorizont – von morgen bis zum nächsten Strategiezyklus.
Fragen Sie nicht nach Gewissenhaftigkeit im Allgemeinen. Fragen Sie konkret: „Beschreiben Sie eine Situation, in der Sie aktiv nach einer kognitiv anspruchsvolleren Aufgabe gesucht haben – obwohl Sie auch eine einfachere Option hätten wählen können." Diese Frage zielt gezielt auf Leistungsstreben und kognitive Neugier – beides Merkmale, die laut Studie auf Facettenebene stark mit Intelligenz zusammenhängen. Zu beachten: Verhaltensfragen im Interview erfassen berichtetes, nicht beobachtetes Verhalten und sind anfällig für soziale Erwünschtheit. Sie ergänzen psychometrische Tests sinnvoll, ersetzen sie aber nicht. Nutzen Sie solche Fragen als qualifizierende Gesprächsgrundlage, nicht als eigenständiges Messinstrument.
Viele etablierte Verfahren – zum Beispiel das NEO-PI-R oder das BFAS – erheben bereits Daten auf Aspekt- und Facettenebene. Sie werden in der Praxis oft nur auf Faktorebene ausgewertet, weil das übersichtlicher ist. Fragen Sie Ihren Testanbieter, ob Facettenprofile verfügbar sind, und definieren Sie vorab, welche Facetten für die jeweilige Rolle besonders relevant sind. Das erfordert etwas Vorarbeit, verändert aber die Aussagekraft des Verfahrens erheblich.
Stanek und Ones zeigen: Persönlichkeitsfacetten und Intelligenz hängen systematisch zusammen – sie sind keine unabhängigen, trennscharf separierbaren Eigenschaften. Das hat eine praktische Konsequenz: Ein Assessment, das Persönlichkeit und kognitive Fähigkeit getrennt erhebt und isoliert auswertet, ignoriert diese Zusammenhänge. Sinnvoller ist eine integrierte Interpretation: Welche Facettenausprägungen bringt eine Person mit – und wie passen sie zu den kognitiven Anforderungen der konkreten Rolle? Das erfordert keine neuen Verfahren, sondern ein anderes Auswertungsmodell: rollenspezifische Hypothesen über relevante Facetten formulieren, bevor das Assessment beginnt, und die Ergebnisse dann im Zusammenhang lesen.
Das Periodensystem der menschlichen Psychologie – und was es für Ihre nächste Einstellungsentscheidung bedeutet
Stanek und Ones haben mit dieser Arbeit das bisher detaillierteste Bild davon gezeichnet, wie Persönlichkeit und Intelligenz zusammenspielen. Man könnte es das Periodensystem der Psychologie für die Arbeitswelt nennen: Es zeigt nicht nur, welche Elemente es gibt, sondern wie sie miteinander reagieren – und auf welcher Auflösungsebene die eigentlich interessanten Reaktionen stattfinden.
Die Botschaft für die Praxis ist keine bequeme: Die bisherige Diagnostikpraxis arbeitet oft mit einem zu groben Raster. Das führt nicht zu falschen, aber zu unvollständigen Informationen. Ob unvollständige Information direkt zu Fehlbesetzungen führt, lässt sich aus dieser Studie nicht ableiten – dafür bräuchte es Längsschnittstudien, die Facettenprofile mit Einstellungsentscheidungen und tatsächlicher Leistung verknüpfen. Was sich sagen lässt: Wer mehr Information hat, trifft informiertere Entscheidungen. Und mehr Information ist auf der Facettenebene verfügbar – sie wird nur selten genutzt.
Die gute Nachricht: Die Instrumente, um es besser zu machen, existieren bereits. Es braucht keine neuen Verfahren, sondern mehr Granularität bei der Auswertung bestehender Daten – und gezieltere Fragen im Interview.
Welche Facette einer Persönlichkeitsdimension ist für Ihre wichtigste offene Stelle gerade am entscheidendsten? Das wäre eine lohnende Frage für Ihr nächstes Diagnostikgespräch.
Dieser Beitrag gibt die Kernbefunde der Studie für eine Fachpraxiszielgruppe wieder. Statistische Kennziffern wurden in ihrer Bedeutung erläutert, aber nicht inhaltlich vereinfacht; die genannten ρ̂-Werte entsprechen den korrigierten Korrelationen aus der Originalarbeit. Er ersetzt nicht die Lektüre der Originalarbeit und stellt keine psychologische Fachberatung dar. Für Konfidenz- und Glaubwürdigkeitsintervalle sowie vollständige Konstruktbeschreibungen sei auf die Originalquelle verwiesen.