Profile cover photo
Profile photo
Methodenlehre Uni Mainz
85 followers -
Methodenlehre, Statistik und Evaluation
Methodenlehre, Statistik und Evaluation

85 followers
About
Posts

Post has attachment
Klausurnachlese Sommersemester 2017

Auf vielfachen Wunsch unserer Studierenden hier die Klausurnachlese zur Abschlussklausur Methodenlehre im Sommersemester 2017.

Wir sehen einen ganz ähnlichen Trend wie schon im vergangenen Wintersemester 2016/2017 (https://twitter.com/methodenlehre/status/839035770803478528 ). Die Studierendenschaft ist eindeutig zweigeteilt. Der größere Teil der Studierenden liefert gute bis exzellente Leistungen ab, die in dieser Güte für die typische Statistikveranstaltung in nicht-mathematischen Fächern ungewöhnlich ist. Das gilt insbesondere angesichts des durchaus hohen Anspruchs in unseren Veranstaltungen, in denen theoretische Kenntnisse sehr kompetenznah mit fundierten Softwareskills verknüpft werden.

Gleichzeitig gibt es eine Subgruppe von Studierenden, die größere bis größte Probleme mit den Veranstaltungsinhalten haben. Hier gilt es zu bedenken, dass das Modul Methodenlehre aus vier verschiedenen Veranstaltungen zusammengesetzt ist. Zwei davon elementar zu statistischen Methoden, eine zu allgemeinen Forschungsmethoden und die vierte zu spezialisierten Softwareskills. Studierende im unteren Bereich der Notenskala haben zumeist in allen vier Bereichen mit erheblichen Defiziten zu kämpfen. Überdies sehen wir auch in diesem Semester, dass unter den Studierenden, die das Bestehenskriterium verfehlt haben, ungewöhnlich viele "Altstudierende" sind. Darunter fassen wir solche, die das zweite Studiensemester bereits seit vier oder mehr Semestern hinter sich gelassen haben. Das zugrunde liegende Problem haben wir in einem früheren Beitrag bereits thematisiert (https://plus.google.com/u/1/+Methodenlehren/posts/VqxNamhCwBV ).

Fazit: Studierende mit befriedigenden Leistungen gibt es beinahe gar nicht mehr. Unser stark digital und interaktiv angelegtes Lehrkonzept dichotomisiert die Studierendenschaft in gute bis sehr gute KandidatInnen versus Studierende, die mit dem Scheitern kämpfen.
Photo

Post has attachment
Modulprüfungsteile in der Methodenlehre

In der vergangenen Woche haben wir unsere Studierenden befragt, welchen von zwei alternativen Klausurmodi im Modul B: Methodenlehre sie bevorzugen würden.

Im Augenblick sieht die Prüfungsordnung (PO) des Psychologischen Instituts für den B.Sc. Psychologie vor, dass am Ende des Moduls eine 120minütige Modulabschlussklausur absolviert werden muss. Die PO nennt das "K(120)". Für die meisten Studierenden läuft dieser Prüfungsmodus auf die Abprüfung der Inhalte von insgesamt vier Modulveranstaltungen (VL Statistik I, VL Statistik II, VL Forschungsmethoden und SEM Datenerhebung) am Ende ihres zweiten Fachsemsters hinaus.

In der Praxis hat sich diese Regelung als verheerend erwiesen. Vor der Einführung des aktuellen Bachelor-Studiengangs galt stets das Modell der studienbegleitenden Prüfungen, bei dem nach jedem Semester eine Klausur über die Fachinhalte nur dieses Semesters geschrieben wurde. Die vor einigen Jahren erfolgte Abkehr von diesem Modell hin zu nur noch einer integrierten Modulabschlussprüfung hat die Noten unserer Studierenden erheblich einbrechen lassen, Durchfallquoten waren deutlich gestiegen.

Wir von der Abteilung Methodenlehre und Statistik halten die integrierte Modulabschlussprüfung aber nicht allein aus diesem Grunde für klar unterlegen. Die Liste der Gründe, die für eine Verteilung der Klausurlast auf mehrere Prüfungstermine sprechen, ist lang:

• Es kann nach dem ersten Semester eine Klausur geschrieben werden, wenn noch keine konkurrierenden Klausurtermine liegen
• Die Vorbereitung auf jede Einzelprüfung wird intensiver und zielgerichteter, da nur die Inhalte des aktuellen Semesters nachgeholt werden müssen
• Der Umfang der vorzubereitenden Inhalte steigt durch die Teilung der Prüfung nicht
• Die Inhalte der Veranstaltungen im Modul Methodenlehre sind so heterogen und ihre Prüfung gleichzeitig in einem Maße kompetenzorientiert, dass eine integrierte Prüfung nur unwesentliche Zusatzinformationen über den Kompetenzgrad der Studierenden liefert
• Je länger die Semesterzeit vor einer Prüfung, desto stärker wird bei vielen Studierenden die Neigung zu "Bulimielernen"
• Zwei kürzere Klausuren fordern weniger Konzentration und Aufmerksamkeit als eine längere Klausur
• Ein „schlechter Tag“ führt nicht direkt zu einer unbefriedigenden Gesamtnote
• Bereits nach dem ersten Semester kann eine Bescheinigung über das Ergebnis der ersten Klausur ausgestellt werden, um z.B. Praktikumsbewerbungen oder Stipendienanträge zu unterstützen

Demgegenüber sehen wir keinen einzigen stichhaltigen Grund für das aktuell durch die PO vorgeschriebene Modell der integrierten Modulabschlussprüfung. Deshalb haben wir die Absicht, den Klausurmodus für das Modul B: Methodenlehre ändern zu lassen. Wir wollten das aber nicht ohne ein eindeutiges Votum unserer Studierenden tun.

Also haben wir unsere Studierenden befragt, ob sie überhaupt lieber eine lange oder zwei kürzere Klausuren im Sinne des aktuellen Probeklausur-Modells haben wollen. Der Rücklauf im Erhebungszeitraum vom 19.07.2017 - 26.07.2017 war überwältigend. Mit insgesamt n=379 Einsendungen hat mehr als die Hälfte aller derzeit im B.Sc. eingeschriebenen Psychologiestudierenden an der Umfrage teilgenommen. Das Ergebnis ist erwartungsgemäß eindeutig (siehe Abbildungen unten).

Wir möchten an dieser Stelle unseren Studierenden danken, die uns auf dem Wege der Umfrage ihre Meinung mitgeteilt haben. Ihr habt geholfen, den Weg für eine Änderung des Prüfungsmodus im Modul Methodenlehre zu ebnen. Unser Vorhaben muss nun eine Reihe von Gremien passieren, bevor die Änderung offiziell erfolgen kann.

Wir halten Euch auf dem Laufenden.
Photo
Photo
26.07.17
2 Photos - View album

Welche Varianz beim Q-Q Plot?

Frage: Braucht man für den Q-Q Plot zum Test auf Normalverteilung die geschätzte Standardabweichung (SD) oder die nicht geschätzte SD, um die Quantile zu berechnen?

Antwort: Der Q-Q Plot ist ein Verfahren, um die beobachtete Verteilung von Stichprobendaten mit beliebigen theoretischen Verteilungen zu verglichen. In den meisten Fällen wird der Q-Q Plot aber für die Prüfung einer Normalverteilung verwendet.

Das Prinzip des Q-Q Plots ist der Vergleich der in Stichprobendaten beobachteten Quantile mit erwarteten Quantilen, die aus einer gegebenen Wahrscheinlichkeitsverteilung berechnet werden. Eine gut verständliche Erläuterung findet sich hier: https://de.wikipedia.org/wiki/Quantil-Quantil-Diagramm

Für die Beantwortung der Frage ist der Begriff "erwartet" entscheidend. Dieser bedeutet: „in der Population erwartet“. Damit haben wir auch schon die Lösung, denn für die Berechnung der Quantile aus einer Populationsverteilung brauchen wir natürlich deren Populationsparameter. Für die Normalverteilung wären das:

(1) Der Erwartungswert
(2) Der Erwartungswert der Varianz

Diese müssen meist aus den Stichprobendaten geschätzt werden. Für den Q-Q Plot der Normalverteilung verwenden wir dann folgende Parameter:

(1) Den Mittelwert der Stichprobendaten
(2) Die aus der Stichprobe geschätzte Populationsvarianz („sigma dach quadrat“) bzw. deren Wurzel, falls die Standardabweichung benötigt wird

PANIK! Hypothesenprüfung bei gerichteten t-Test?

Einer häufigsten Klausurfehler im Rahmen des t-Tests ist die Beurteilung eines Tests als signifikant, obwohl er kaum "unsignifikanter" sein könnte. Was meinen wir damit?

Man stelle sich vor, bei der jüngsten Staffel von Let's Dance vergleiche man die wöchentlichen Sonnenbankstunden pro Person für die weiblichen und männlichen Kandidaten. Die Hypothese lautet:

H1: "Frauen bräunen sich länger als Männer."

Die Mittelwerte der Sonnenbankstunden seien wie folgt:

MW(Frauen) = 13 h/Person
MW(Männer) = 18 h/Person

Man beachte: Die Daten zeigen klar an, dass sich Frauen kürzer bräunen als Männer. Die H1 kann also nicht gelten!

Das Problem: Der Standardfehler sei mal SE = 0.5. Wenn man einfach losrechnet ohne sich vorher die Daten anzuschauen, erhält man einen t-Wert von:

t = (MW(Frauen) - MW(Männer)) / SE = (13 - 18) / 0.5 = -10

Ein t-Wert von -10 wäre normalerweise höchst signifikant. Nicht aber in unserem Beispiel, denn der Effekt geht in die falsche Richtung. In einem solchen Fall schlagen leider viele "Kochrezepte" in Excel oder auch vielen Statistikprogrammen fehl, weil ein mechanisches Vorgehen oft nicht berücksichtigt, in welche Richtung die H1 zeigt.

Hilfe, was soll ich tun?

Entweder man erkennt direkt, dass die Zahlen nicht zur Hypothese passen und entscheidet ohne jede Rechnung, dass der Test nicht signifikant werden kann. Im Klausurstress gelingt das aber nicht so ohne weiteres. Gibt es also einen Weg, bei dem die Berechnung des t-Tests auch bei "falscher" Datenrichtung immer zum richtigen Ergebnis führt?

Die Lösung lautet: Ja! Und sie ist ganz einfach. Man muss genau 1x denken. Und das passiert bei der Anwendung einer einzigen Regel. Sie lautet:

"Wir bilden die Differenz so, dass sie positiv wird, wenn die H1 gilt."

Sobald man diese Regel beachtet, läuft der Rest absolut automatisch ab. Es wird dann nämlich immer die rechte Seite der t-Verteilung betrachtet. Man wendet also immer die Excel-Formel "1-T.VERT()" oder "T.VERT.RE()" an. Immer!

Übertragen wir die Regel auf unser Beispiel. Die H1 lautet: "Frauen bräunen sich länger als Männer." Länger ist gleichbedeutend mit "höhere Zahlen bei Frauen". Wie müssen wir also die Differenz zwischen den beiden Mittelwerten bilden, damit diese Differenz positiv wird? Ganz einfach:

MW(Frauen) - MW(Männer)

Und Achtung: wir bilden die Differenz nicht so, dass sie bei den gegebenen Daten positiv ist! Wir bilden sie so, dass sie unter Annahme der H1 positiv werden müsste, ganz egal, wie die Daten aussehen.

Ok, wir waren zur Erkenntnis gekommen, dass wir die Differenz für den t-Wert als MW(Frauen) - MW(Männer) bilden müssen. Wie sieht dann der t-Wert aus?

t = (MW(Frauen) - MW(Männer)) / SE = (13 - 18) / 0.5 = -10

Weiter oben haben wir gesagt, dass wir nun immer die Formel "1-T.VERT()" oder "T.VERT.RE()" anwenden. Was liefert diese Formel?

p =T.VERT.RE(-10; ...) = 0.99999...

Diesen p-Wert jetzt noch mit alpha vergleichen und fertig. Ohne weiteres Nachdenken! Der p-Wert könnte nicht unsignifikanter werden. Und das, obwohl wir einen absolut extremen t-Wert gefunden haben - nur eben in die falsche Richtung. Unsere eine Regel von oben berücksichtigt die Richtung ganz automatisch. Immer!

Hypothesen beim Binomialtest
Eine Frage aus der Kommentarbox, die sich mit der zugegebenermaßen etwas umständlichen Hypothesenprüfung im 1-Stichproben Binomialtest beschäftigt.

Frage: Ich habe eine Frage zur DIY_Beta aus der Inferenzstatistik, Aufgabe 4 (untutorisiert). Hier werden in Aufgabenteil b) folgende Hypothesen geprüft:

H0: p <= 0.1
H1: p > 0.1

Beim p-Wert wird in der Lösung jetzt die "rechte Seite" der Verteilung angeschaut. Müsste es nicht linksseitig sein, weil wir uns ja die Wahrscheinlichkeit der H0 anschauen?

Antwort: Danke für die Frage! In der genannten Aufgabe geht es um die Binomialverteilung. Zu prüfen ist dort, ob eine gegebene Trefferwahrscheinlichkeit (hier: p = 0.1) zutreffen kann oder ob die wahre Trefferwahrscheinlichkeit höher ist (also: p > 0.1).

Du hast völlig recht mit Deinem Hinweis, dass wir beim Hypothesentesten immer die Wahrscheinlichkeit der beobachteten Daten unter der Nullhypothese testen. Du hast das abgekürzt mit der Formulierung, dass "wir uns ja die Wahrscheinlichkeit der H0 anschauen".

Nun muss man sich bei der Aufgabe überlegen, was passiert, wenn die H0 nicht gilt. In diesem Falle ist die Trefferwahrscheinlichkeit höher als p = 0.1. Wir bekommen dann viel mehr Treffer als wir erwarten würden. Je mehr Treffer wir tatsächlich beobachten, desto unwahrscheinlicher wird das unter der Nullhypothese.

Welche Wahrscheinlichkeit müssen wir uns also in der Aufgabe anschauen? Die Überlegung, die uns zur Beantwortung dieser Frage führt, läuft in etwa wie folgt:

"Die Anzahl der beobachteten Treffer ist ziemlich hoch. Kann das passiert sein, obwohl p nur gleich 0.1 sein soll? Schauen wir doch mal, wie wahrscheinlich noch mehr als die beobachteten Treffer wären, wenn p wirklich nur gleich 0.1 ist."

Wir suchen also - genau wie Du geschrieben hast - nach der Wahrscheinlichkeit für die Beobachtung, gegeben, dass die H0 stimmt. Wie berechnet man diese Wahrscheinlichkeit? Sie ist nichts anderes als die Summe der Wahrscheinlichkeiten für jede Trefferanzahl oberhalb der von uns beobachteten Trefferanzahl. Und genau das ist die rechte Seite der Binomialverteilung, nämlich das "Schwänzchen" oberhalb der beobachteten Trefferanzahl.

Der McNemar Test - gerichtet oder ungerichtet

Wir werden immer wieder gefragt ob der McNemar Test seine Fragestellung nicht auch als gerichteter Test prüfen kann. Die Antwort: ja, kann er! Die Erklärung folgt jetzt.


Chi² ist immer ungerichtet!
Üblicherweise lassen mit Chi² verteilten Prüfgrößen nur ungerichtete Fragestellungen beantworten. Das liegt daran, dass in die Chi² Prüfgröße beliebig viele Häufigkeiten (beobachtet und erwartet) eingehen können. Man stelle sich eine Kreuztabelle vor, die das Auftreten der Merkmale "Geschlecht" und "Präferierte Gummibärchenfarbe" darstellt. Die Tabelle hätte 2 x 5 Zellen (m/f und grün/gelb/orange/rot/weiß). Selbst wenn Geschlecht und präferierte Gummibärchenfarbe zusammenhängen, wäre niemals eindeutig, in welcher Zelle der Effekt genau zu finden ist. Männer könnten mehr grüne Gummibärchen essen, Frauen mehr gelbe und rote. Eine eindeutige Richtung jedenfalls gäbe es nicht mehr.

Die Chi² Prüfgröße ist deshalb direkt so angelegt, dass sie auf eine ungerichtete Prüfung hinausläuft.


Chi² ist immer ungerichtet?
Die McNemar Tabelle ist allerdings etwas besonderes. Weil sie immer eine 2x2 Tabelle ist, können wir die Richtung eines Effektes immer angeben. Es gibt nur zwei Ausprägungen und was bei der einen fehlt, hat die andere mehr. Die Richtung des Effekts kann eindeutig bestimmt werden.


Was tun?
Es müsste also eigentlich funktionieren mit der Gerichtetheit. Nur wie? Um den McNemar Test gerichtet durchzuführen, muss man sich klar machen, worin üblicherweise der Unterschied zwischen der gerichteten und ungerichteten Durchführung eines Tests liegt. Wir haben bislang immer folgendes festgestellt:

(1) Testet man ungerichtet, wird die Fläche am rechten und linken Rand einer Wahrscheinlichkeitsverteilung bewertet.

(2) Testet man gerichtet, wird nur eine der beiden Flächen am linken oder rechten Rand bewertet.

Ist die Wahrscheinlichkeitsverteilung symmetrisch, wird es also ganz einfach:

(i) Wenn man vom ungerichteten Fall zum gerichteten Fall geht, fällt eine der beiden Flächen weg. Man halbiert dann also die ungerichtete Wahrscheinlichkeit und rechnet:

p(gerichtet) = p(ungerichtet) / 2

(ii) Wenn man vom gerichteten Fall zum ungerichteten Fall geht, kommt eine der beiden Flächen hinzu. Man verdoppelt dann also die gerichtete Wahrscheinlichkeit und rechnet:

p(ungerichtet) = p(gerichtet) * 2


Kochrezept
Will man einen Mcnemar Test gerichtet durchführen, berechnet man wie üblich seinen p-Wert. Dann teilt man diesen p-Wert durch 2, um auf die Signifikanz im gerichteten Fall zu kommen.

Der Additionssatz und die Sigma-Algebra

Kürzlich gab es eine Frage zur Addition von Wahrscheinlichkeiten in der Sigma-Algebra. Spezifischer: warum kann die Addition der Wahrscheinlichkeiten in der Sigma-Algebra eine Wahrscheinlichkeit größer als 1.0 ergeben?

Die kurze Antwort auf dieses Frage lautet: weil man es falsch gemacht hat. Die lange Antwort folgt jetzt.

Man stelle sich einen überdurchschnittlich intelligenten Roboter namens Marvin vor, der durch fehlerhafte Ersatzteile eine Vielzahl psychischer Krankheiten entwickelt hat. Zu jeder gegebenen Zeit leidet Marvin entweder an Langeweile (L), mittelgradiger Depression (M), schweren Depressionen (S) oder an einer paranoiden Störung (P). Marvin ist immer von genau einer dieser Störungen betroffen, er kann niemals zwei oder mehr gleichzeitig aufweisen. Die Auftretenswahrscheinlichkeit für jede der Störungen ist identisch (p = 1/4).

Lasst uns die eingangs gestellte Frage an diesem Fallbeispiel aufdröseln. Das Zufallsexperiment sei durch folgenden Bedingungskomplex gekennzeichnet:

Xi = "Stelle zu einem zufällig ausgewählten Zeitpunkt die Störung fest, an der Marvin gerade leidet."


Sein Stichprobenraum ist:

Ω = {L, M, S, P}


Die Wahrscheinlichkeitsfunktion darauf lautet gemäß Fallbeispiel:

p(Ω) = {1/4, 1/4, 1/4, 1/4}


Die Sigma-Algebra ist definiert als die Zusammenstellung aller möglichen Kombinationen aus den Elementen des Stichprobenraums. Mit ein wenig Aufwand erhält man:

σ = {Ø, {L}, {M}, {S}, {P}, {L,M}, {L,S}, {L,P}, {M,S}, {M,P}, {S,P}, {L,M,S}, {L,M,P}, {L,S,P}, {M,S,P}, {L,M,S,P}}


Angenommen, Dirk Gentleys Altruistisches Spielkasino bietet seinen Spielern folgende erste Wette an:

Wette: Der Spieler gewinnt, wenn Marvin gerade nicht an einer paranoiden Störung (P) leidet. Das zugehörige Ereignis können wir schreiben als "~P" ("nicht P"). Welches Ereignis in der Sigma-Algebra ist das? Zur Beantwortung sollten wir überlegen, wie der Stichprobenraum für die gegebene Wette partitioniert wird. Die Wette teilt den Stichprobenraum in drei günstige Elementarereignisse sowie ein ungünstiges Elementarereignis.

Günstig: L, M und S
Ungünstig: P

Das günstige Ereignis ist also das Element {L, M, S} aus der Sigma-Algebra. Nennen wir dieses Ereignis G1, dann können wir schreiben:

G1 = {L,M,S}

Wie wahrscheinlich ist dieses Ereignis? Nach Laplace dürfen wir die Wahrscheinlichkeiten der zugehörigen Elementarereignisse einfach addieren. Wir erhalten:

p(G1) = p(L) + p(M) + p(S) = 1/4 + 1/4 + 1/4 = 3/4


Wunderbar. Aber Dirk Gentleys Altruistisches Spielkasino ist noch lange nicht am Ende. Man bietet eine zweite Wette an.

Wette: Der Spieler gewinnt, wenn Marvin gerade an einer klinisch bedeutsamen psychischen Krankheit leidet. Klinisch bedeutsam ist alles außer der Langeweile (L). Das Ereignis tritt also ein, wenn bei Marvin eine mittelgradige (M), eine schwere (S) Depression oder eine paranoide Störung (S) vorliegt. Nennen wir das zugehörige Ereignis G2, dann können wir schreiben:

G2 = {M,S,P}

Die Wahrscheinlichkeit für dieses Ereignis ist:

p(G2) = p(M) + p(S) + p(p) = 1/4 + 1/4 + 1/4 = 3/4


Es hat also dieselbe Wahrscheinlichkeit wie das Ereignis G1, was aber reiner Zufall ist.

Zu Ehren des 2tägigen Bestehens erfindet das Spielkasino nun die Superwette. Sie ist die Verbindung der beiden bisherigen Wetten.

Superwette: Der Spieler gewinnt, wenn Marvin gerade nicht von einer paranoiden Störung betroffen ist oder wenn er gerade an einer klinisch bedeutsamen Störung leidet. Nennen wir das zugehörige Ereignis G3, dann gilt:

G3 = G1 + G2

Wie hoch ist nun die Wahrscheinlichkeit für das Ereignis G3? Dürfen wir die Wahrscheinlichkeiten der Ereignisse G1 und G2 einfach addieren? Täten wir das, erhielte man

p(G3) = p(G1) + p(G2) = 3/4 + 3/4 = 6/4 = 1.5

Man sieht, wenn man blind die Wahrscheinlichkeiten von beliebigen Ereignisse aus der sigma-Algebra addiert, können dabei Werte größer als 1.0 entstehen. Deshalb haben wir den Additionssatz, der diese Malaise verhindert (https://www.lernhelfer.de/schuelerlexikon/mathematik-abitur/artikel/additionssatz-fuer-wahrscheinlichkeiten).

Dieser besagt, dass wir nicht einfach die Wahrscheinlichkeiten für beliebige Ereignisse addieren dürfen, sondern die Wahrscheinlichkeit der Schnittmenge abziehen müssen. Was ist nun die Schnittmenge von G1 und G2? Es gilt:

G1 geschnitten G2 = {M,S}

denn die beiden Elementarereignisse M und S sind Teil sowohl von G1 als auch von G2. Die Wahrscheinlichkeit dafür beträgt:

p(G1 geschnitten G2) = 1/4 + 1/4 = 1/2


Damit können wir endlich die korrekte Wahrscheinlichkeit für das Ereignis G3 berechnen

p(G3) = p(G1) + p(G2) - p(G1 geschnitten G2) = 3/4 + 3/4 - 1/2 = 1.0

Der Spieler gewinnt also immer. Vermutlich ein Grund dafür, warum sich Dirk Gentleys Altruistisches Spielkasino kürzer am Markt behaupten konnte als Trumps Taj Mahal.

Wir brauchen den Additionssatz, weil das Additionsaxiom von Kolmogorov (3. Kolmogorov'sches Axiom) hier nicht gilt. Es setzt voraus, dass die Schnittmenge zweier Ereignisse leer sein muss, um die Wahrscheinlichkeiten addieren zu dürfen. Weil genau das im obigen Fall nicht der Fall ist, brauchen wir den Additionssatz.


Man kann sich diesem Resultat auch etwas intuitiver annähern, indem man überlegt, welche Elementarereignisse denn nun Teil der Superwette sind. Der erste Teil der Superwette schließt das Ereignis P aus, aber das Ereignis L ein, während der zweite Teil der Superwette das Ereignis L ausschließt, aber das Ereignis P einschließt. Wirft man diese beiden Teile in einen Topf, sind schlichtweg alle Elemente des Stichprobenraums günstig im Sinne der Superwette. Man könnte also auch schreiben:

G3 = {L,M,S,P}

Und damit natürlich:

p(G3) = 1/4 + 1/4 + 1/4 + 1/4 = 1.0

Combinatorics in The Blacklist

I stumbled upon a remarkably easy combinatorics problem in the series The Blacklist, starring the great James Spader.

In S03E03 the agents arrive at a farmhouse where the main entrance is secured by an electronic keypad. One of our keenly observant main protagonists declares that the keypad has a "Four digit PIN" which "Could be thousands of combinations".

Well, thousands is a rather unspecific quantity. How many possible combinations are there really with 4 digits running from 0 to 9? The easy solution is to determine the minimum and maximum number that can be created with four digits. The lowest number is zero (0000) and the highest number 9999. That makes 10000 numbers, so there we have our answer.

From a combinatorics standpoint, we are talking about permutations with repetition. There are

10 possibilities for the 1st digit (0...9)
10 possibilities for the 2nd digit (0...9)
10 possibilities for the 3rd digit (0...9)
10 possibilities for the 4th digit (0...9)

This makes 10 * 10 * 10 * 10 = 10^4 = 10000.

So why not have the agent say "There are ten thousand combinations"? A mystery never solved.

Then, another protagonist blows some dust onto the keypad and realizes that the dust sticks to 4 different keys. These must be the correct keys for the code! The keys are

1, 3, 4, 5

Now we're down to permutations without repetition. There are

4 possibilites for the 1st digit
3 possibilites for the 2nd digit
2 possibilites for the 3rd digit
1 possibilites for the 4th digit

which gives us 4 * 3 * 2 * 1 = 4! = 24 permutations. This number is expertly divined by our protagonist who states "Now there's only 24 combinations".

Almost perfect, if only both protagonists had not confused combinations (where the order does not matter) with permutations (where the order matters),

Post has attachment
Combinatorics in +Blindspot vol. 2

Ok, it's time to come back to the remaining problem I decided not to cover here: https://plus.google.com/b/104655503559564193969/+Methodenlehren/posts/Eup1zBeihA5.

The question was how many permutations of 19 given letters had to be checked in alphabetical order until the target term

A S H W E L L C R E E K K E N N E L S

pops up?

Just as the agents in Blindspot, we have luck firmly on our side here. The leading letter of the target term is "A", and "A" also happens to be the first letter we would have checked when going through all possible permutations in alphabetical order. So we can dismiss this first letter and proceed only with a reduced set of 18 letters.

The question remains the same. How many permutation must we generate in alphabetical order until we reach the reduced target sequence which reads:

S H W E L L C R E E K K E N N E L S

Like before, we first sort the letters in alphabetical order to make things more, well, orderly.

C E E E E E H K K L L L N N R S S W

For starters, we shall again assume that all these letters are different. It is immediately clear that among the permutations we would traverse in alphabetical order, none can start with the letter "W" since it comes after "S". For the first letter, we therefore have 17 candidates in our set of letters ("C" through "S"). Good. The second letter of the target word is "H". "H" is the 7th letter in our set. So for the second letter, we have 7 candidates. Having worked out the logic by now, we may rinse and repeat down to the last letter.

But wait, there is another catch. The last letter in the target word is "S" again, Only that for the last letter we do not have 17 candidates left but merely one. Hence, for each position in the target sequence we have either as many candidates as there are letters alphabetically before the letter in question, or as many as there are left - whichever number is lower.

This gives us the following candidates for each of the letter positions:

1st letter (must be "S" or below): 17 candidates
2nd letter (must be "H" or below): 7 candidates
3rd letter (must be "W" or below): 18 candidates, but only 16 left
4th letter (must be "E" or below): 6 candidates
5th letter (must be "L" or below): 12 candidates
6th letter (must be "L" or below): 12 candidates
7th letter (must be "C" or below): 1 candidate
8th letter (must be "R" or below): 15 candidates, but only 11 left
9th letter (must be "E" or below): 6 candidates
10th letter (must be "E" or below): 6 candidates
11th letter (must be "K" or below): 9 candidates, but only 8 left
12th letter (must be "K" or below): 9 candidates, but only 7 left
13th letter (must be "E" or below): 6 candidates
14th letter (must be "N" or below): 14 candidates, but only 5 left
15th letter (must be "N" or below): 14 candidates, but only 4 left
16th letter (must be "E" or below): 6 candidates, but only 3 left
17th letter (must be "L" or below): 12 candidates, but only 2 left
17th letter (must be "S" or below): 17 candidates, but only 1 left

Can we multiply all of these quantities to compute the total number of permutations which will come up before our target word? Nope, we're still not quite there because if we did simply multiply, we would include duplicates.

We stumbled across this fact in the first post when we realized that many of the letters appear multiple times in the sequence. These multiple instances are indistinguishable from each other. Our final step therefore is to divide the product of all above quantities by (5! * 2! * 3! * 2! * 2!).

Phew. We now have:

17 * 7 * 16 * 6 * 12 * 12 * 1 * 11 * 6 * 6 * 8 * 7 * 6 * 5 * 4 * 3 * 2 * 1 / (5! * 2! * 3! * 2! * 2!) = 4,560,095,232

That's much, much less than before. Our hypothetical high-performance cluster would blow through these in about 5 hours. Nicely done!


I find this result pretty amazing, so I double-checked it for correctness. Twice. Why is the reduction to about 4.5 billion permutations so baffling to me?

Well, as a very coarse estimation we could state that by only checking the permutations beginning with "A" we eliminate 18 of the 19 potential first letters. This should lead to a 19-fold reduction of the number of permutations to search through. In reality, we find a 4631.25-fold reduction. Limiting the number of candidates per position has a massive effect on the remaining number of permutations which at least I would not have forseen. Combinatorics sometimes is not the most intuitive thing.

Nachlese der Lehrevaluation zur Statistik

Wie in jedem Semester haben wir auch im vergangenen Winter die Veranstaltung zur Statistik mit einer Lehrveranstaltungsevaluation abgeschlossen. Die Ergebnisse der numerischen Antworten sind traditionsgemäß auf unserer Website veröffentlicht (https://methodenlehre.sowi.uni-mainz.de/methods/index.php/dr-malte-persike/73-lehrevaluationen/692-ergebnisse-der-lehrevaluation-im-sose-2017). Noch einmal danke an alle Studierenden, die teilgenommen haben und ein ganz besonderes Dankeschön an jene, die sich die Mühe gemacht haben, auch noch den einen oder anderen freien Kommentar zu formulieren.

Die Bewertung der Veranstaltung durch unsere Studierenden war im vergangenen Semester ungewöhnlich gut und lässt kaum echte Rückschlüsse auf Veränderungspotential zu. Deshalb sind für mich die freien Antworten oftmals eine weitaus interessantere Quelle für Anregungen und vor allem Kritik an der Veranstaltung. Lasst uns deshalb kurz auf jene Kommentare schauen, die mehrfach genannt worden sind. Ich spare die positiven Kommentare dabei weitgehend aus, gelobt wird schon genug.

Kritik 1: Die Klausur
Ja, die Klausur. Sie ist auch für mich ein konstantes Ärgernis. Es gibt kaum einen Punkt, bei dem ich stärker mit unseren Studierenden übereinstimme als in Sachen Klausur. Die Kritik vieler Studierender an der Klausur wird in einem der Kommentare präzise auf den Punkt gebracht: "Zeitdruck in der Klausur!" Um zu verstehen, wie groß die Belastung ist, genügt ein Blick zurück in den Diplomstudiengang. Damals bestand Methodenlehre in den ersten beiden Semestern aus genau zwei Veranstaltungen: Statistik I und Statistik II. Zu jeder dieser beiden Veranstaltungen gab es eine separate Klasur von jeweils 120 Minuten Dauer. Im Diplom also wurden zwei Teilbereiche in 240 Minuten geprüft. Im Bachelor nun setzt sich das Modul Methodenlehre aus vier Veranstaltungen zusammen: Statistik I, Statistik II, Forschungsmethoden und dem Softwareseminar. Zu diesen vier Teilen gibt es eine Klausur mit 120 Minuten Länge. Das ist eine Vervierfachung der Stoffmenge pro Klausurminute.

Ich hätte das gerne anders. Meine Studierenden hätten das gerne anders. Es geht aber nicht anders. Warum nicht? Die Verantwortung für die klare Verschlechterung der Studierbarkeit vom Diplom zum Bachelor liegt bei den Studierenden. Das klingt kontrovers, deshalb ein Rückblick. Nachdem die ersten psychologischen Studiengänge im Rahmen der Bologna-Reform auf das Bachelor-/Master-System umgestellt worden waren, gab es massive Studierendenproteste. Vorlesungen wurden boykottiert, Hörsäle bestreikt, die Präsidialbüros besetzt. Die Studierendenverbände hatten seinerzeit die Gelegenheit, ihre in weiten Teilen berechtigten Widerstände gegen das neue Studiensystem in Form von Forderungskatalogen zu verschriftlichen. Besonders eine Forderung war damals Teil praktisch jeden Verbesserungsvorschlags: Weniger Klausuren! Für Lehrende hätte es nicht besser kommen können. Seltener prüfen, weniger Zeit in Klausurräumen verbringen, kürzere Klausurkorrekturen. Ein Paradies. Weil die Studierenden kaum etwas vehementer gefordert haben als weniger Klausuren und dieser Wunsch auch Lehrenden ein glückseliges Schimmern in die Augen legt, ist die Anzahl der Klausuren pro Semester heute einer der fundamentalen Pfeiler jeder Studiengangsakkreditierung. Für jede Klausur mehr müssen wir kämpfen, weniger Klausuren indes gehen nahezu problemlos durch. Dass allerdings mit weniger Klausuren die Stoffmenge nicht abnimmt, fällt dabei weitgehend unter den Tisch.

So kommt es zu der grotesken Situation, dass wir die Inhalte einer Vorlesung, für die wir im Diplom zwei Stunden Klausurzeit veranschlagen konnten, im Bachlor-Studiengang innerhalb von 30 Minuten abprüfen müssen. Für die Studierenden verbessert sich dadurch exakt nichts. Sie müssen weiterhin die Inhalte einer kompletten Vorlesung vorbereiten, nur werden diese Inhalte jetzt in wesentlich weniger Zeit abgeprüft. Die studentische Vorbereitungszeit dürfte sich also um keine einzige Minute reduzieren. Nicht nur verbessert sich für sie nichts, vieles wird sogar schlechter. Die kürzere Klausurzeit führt ein Moment der Beliebigkeit ein, denn es können weniger Inhalte abgeprüft werden. Damit schlagen Wissenslücken, Flüchtigkeitsfehler und Konzentrationslöcher wesentlich stärker ins Gewicht. Zudem sind wir gezwungen, eine so genannte "Speed-Klausur" schreiben zu lassen, bei der es stärker auf Geschwindigkeit ankommt und weniger auf die Wissenstiefe. Es wäre verheerend, wenn wir in einem 30minütigen Klausurteil eine "Power-Aufgabe" stellen würden, bei der ein Teil der Studierenden die richtige Lösung findet und ein anderer Teil vollständig scheitert. Wir können also gar nicht anders als die Klausur auf Geschwindigkeit anzulegen und gleichzeitig möglichst gut zu versuchen, durch moderate Variationen in den Aufgabenschwierigkeiten eine hinreichende Differenzierung zwischen den Studierenden hinzubekommen.


Kritik 2: Das Veranstaltungsformat passt nicht
Eine kleinere Gruppe von Studierenden kritisiert unser Blended Learning Szenario und dabei vor allem die Videos. Das ist nicht weniger als eine Fundamentalkritik und schlägt sich in zwei der abgegebenen Kommentare nieder: "Leider entspricht die Art der Lehre (Videos und co.) nicht meinem Lernstil." und ein wenig pointierter "ich bin kein Baby, das Kinderkanal schauen möchte". Es ist wohl davon auszugehen, dass sich diese beiden Studierenden eher eine klassische Präsenzvorlesung gewünscht hätten. Die zugrunde liegende Frage ist jene der Diversität. Eine optimale Lehrveranstaltung sollte jedem Studierenden die Möglichkeit personalisierten Lernens mit individualisierten Lernwegen und Lernmethoden geben. Studierende, die nach einer traditionellen Vorlesung dürsten, könnten diese in einer auf Diversität ausgelegten Lehrveranstaltung bekommen, andere würden mit Buchkapiteln versorgt, wieder andere mit Lernvideos. Sollte man machen. Kann man aber nicht. Die begrenzten Ressourcen, mit denen Hochschullehre - wie auch jede andere Lehre - immer konfrontiert ist, lassen eine so starke Ausdifferenzierung nicht zu.

Deshalb haben wir eine Entscheidung getroffen: die Entscheidung für den Inverted Classroom. Es gibt überwältigende Evidenz aus der Forschung und auch aus unseren eigenen Erhebungen, dass der Inverted Classroom für den größten Teil unserer Studierenden weit besser funktioniert als die traditionelle Vorlesung. Lernmotivation, Lernfreude und Lerngewinn sind durch die Bank höher als im klassischen Setting. Mir ist aber schmerzlich bewusst, dass es eine sehr kleine Gruppe von Studierenden gibt, der wir mit dem Inverted Classroom keinen Gefallen tun.


Kritik 3: Stoffmenge, Anforderungsniveau und Geschwindigkeit sind zu hoch
Einige Studierende kritisieren die erhebliche Stoffmenge, deren zu hohe Vermittlungsgeschwindigkeit, das Anforderungsniveau oder alle drei zusammen. Diese Probleme schlagen sich in Antworten nieder wie "Zum Teil zu schnelles Vorgehen", "Teilweise waren die Tutoriumsaufgaben zu lang, um sie im Tutorium gemeinsam lösen zu können", "Die Wochenaufgaben und Videos sind sehr umfangreich, nehmen somit sehr viel Zeit in Anspruch" oder "Das Niveau der Vorlesung (also der eigentlichen Veranstaltung) ist mir oft etwas zu hoch, was mich vor allem im ersten Semester oft verunsichert hat.". Wir wissen, dass die Statistik im Psychologiestudium zu den größten Herausforderungen für viele Studierende zählt. Gleichzeitig aber sehen wir seit der Einführung des Inverted Classroom Formats eine mehr als deutliche Verringerung dieser Kritik. Bei den gerade zitierten vier Kommentare handelt es sich tatsächlich um die Gesamtheit aller Anmerkungen in dieser Richtung. In der klassischen Präsenzvorlesung war das deutlich mehr.

Ich habe gerade noch einmal gezählt, wie viele Kommentare vergleichbarer Art in der Evaluation zur letzten Präsenzvorlesung aus dem Jahr 2012 enthalten waren. Der Vergleich ist eindeutig: in der aktuellen Evaluation wird das zu hohe Anforderungsniveau von 4 der 121 Studierenden genannt (3%), im Jahr 2012 waren es 29 der 113 Studierenden (22%). Das ist eine Veränderung von mehr als 700%. Trotzdem nehmen wir diese Kritik sehr ernst und versuchen deshalb, die Supportstrukturen noch weiter zu verbessern - bessere Übungsaufgaben, mehr Materialien, Lösungsvideos, eine erheblich veränderte Präsenzphase. Die Möglichkeiten sind sicher noch nicht ausgeschöpft. Gleichzeitig aber muss ich darauf hinweisen, dass für eine Veranstaltung mit 6 ECTS Punkten 180 Arbeitsstunden pro Semester veranschlagt werden. Das sind knapp 13 Stunden/Woche in den durchschnittlich 14 Semesterwochen. Dabei handelt es sich nicht um eine willkürliche Vorgabe von mir, sondern um die Leitlinien aus der Bologna-Reform. Ich meine es deshalb vollkommen ernst, wenn ich meine Studierenden bereits in der Einführungsveranstaltung darum bitte, mich oder meine Tutoren anzusprechen, wenn der eigene wöchentliche Arbeitsaufwand oberhalb von 13 Stunden pro Woche liegt. Nur wenn wir durch individuelle Rückmeldung herausbekommen, wo der Knoten sitzt, können wir die Betreuung noch besser machen.

Kritik 4: Videos zu lang
Manche Studierende merken an, dass die Videos zu lang und teilweise zu ausführlich sind. Das schlägt sich in Kommentaren nieder wie "Manchmal hätte man das ein oder andere Video etwas kürzer halten können. Diese waren dann seeehhhrrr ausführlich." oder "Die Videos sind teilweise zu lange, und ein bisschen zu ausführlich bzw. behandeln zu lange das Theoretische und nicht das Praktische [...]". Ich stimme vollkommen zu. Für eine Reihe unserer Studierenden sind die Videos vermutlich zu langatmig und zu detailliert. Das ist die Crux der Normalverteilung von Fähigkeit. Jedes nicht-adaptive Medium wird für den einen Studierenden zu lang oder zu trivial und für den anderen zu knapp oder zu anspruchsvoll sein. Erneut gilt, dass wir mit mehr Ressourcen natürlich in der Lage wären, besser individualisierbare Materialien zu produzieren. Aktuell aber müssen wir wenigstens beim Inhalt der Videos mit einer "One-Size-Fits-All" Lösung leben. Dass die Videos mit weitem Abstand sehr viel häufiger bei den positiven Kommentaren auftauchen, ist ein Indiz dafür, dass unser der Spagat zwischen "zu knapp" und "zu lang" einigermaßen gut gelungen ist.

Kritik 5: Inhalte redundant
Kein Kritikpunkt wird von mehr Studierenden benannt als dieser. "Ziemlich viel Überscheidung zu Beginn der Veranstaltung" und "Leider war der Beginn der Veranstaltung recht redundant mit vielem des ersten Semesters" sind nur zwei einer ganzen Reihe gleichlautender Kommentare. Die Kritik bezieht sich vor allem auf die ersten vier Wochen des Semesters. Hier werden unsere Zweitsemester mit Inhalten konfrontiert, die sie aus dem Vorsemester bereits kennen. Diese Redundanz können wir nicht auflösen, da in Mainz der Beginn des Psychologiestudiums sowohl zum Sommer- als auch zum Wintersemester möglich ist. Wir müssen für jede Kohorte gleichwertige Studierbarkeit garantieren, was gerade in der Statistik die Doppelung von Inhalten absolut unvermeidbar macht. Wir nehmen für uns die Aufgabe mit, auf diese Redundanz noch besser hinzuweisen und den Zweitsemestern so eine bessere Allokation ihrer Lernzeit zu ermöglichen.


Schöne Semesterferien!
Wait while more posts are being loaded