111. Occam’s Rasiermesser

111. Occam’s Razor

Je komplexer eine Erklärung oder Theorie ist, desto mehr Indizien benötigt man, um allein seine Aufmerksamkeit auf sie zu fokussieren, bzw. um so mehr Indizien benötigt man, um sie zu rechtfertigen.

Doch wie misst man eigentlich die Komplexität einer Hypothese?

Occam’s Rasiermesser besagt, dass wir die einfachste Hypothese hernehmen sollten, die mit den Tatsachen vereinbar ist.

Ist “Die Hexe hat es getan” eine einfache Hypothese?

Nein, denn Konzepte und Wörter sind unglaublich kompliziert und setzen Vertrautheit mit der deutschen Sprache, der menschlichen Kultur, usw. voraus. Außerdem sind für Menschen Konzepte wie Thor viel einfacher zu verstehen als die Gleichungen der ART, doch dies ist auf unsere Evolutionsgeschichte zurückzuführen: Es war von enormen Vorteil die Gedanken und Emotionen anderer Menschen und Tiere richtig zu modellieren. Exzellente Mathematikkenntnisse waren dagegen recht nutzlos.

In welchem Sinn ist also die ART einfacher als Thor? Nun ja, es ist leichter ein Computer-Programm zu schreiben, dass die ART simuliert als eines zu bauen, das Thor simuliert.

Nun wird es etwas komplizierter. Ich erkläre zunächst kurz die Solomonoff-Induktion und Kolmogorov-Komplexität, dann was sie mit dem Occam’schen Rasiermasser zu tun haben.

Kolmogorov-Komplexität: (KK)

Angenommen jemand wirft eine Münze: KKKKKKKKKKKKKK                                                  Dann wirft er eine andere Münze:            KZZKKZZKKKKZZKZ

Warum glaubst du ihm nicht, wenn er behauptet, dass die erste Münze nicht getürkt ist?

Die erste Sequenz hat eine geringe KK, weil die einfachste( kürzeste) Beschreibung dieser Sequenz relativ kurz ist: 10mal K ist.

Die zweite Sequenz ist dagegen zufällig (du kannst nicht vorhersagen was als nächstes kommt), und die kürzeste Beschreibung ist wohl: KZZKKZZKKKKZZKZ, man kann die Sequenz nicht komprimieren, oder vereinfachen. (Hohe KK bedeutet also Zufälligkeit!)

Die KK einer Sequenz ist also die kürzest mögliche Beschreibung dieser Sequenz. 

Ein Problem ist natürlich noch, dass man sich noch auf eine Sprach einigen muss, mit der man die Sequenz beschreiben will. Wenn wir z.B. KKKK haben, dann ist die Beschreibung: “4mal K” länger als KKKK selbst. Aber man könnte ja auch 4*K schreiben, und jeder weiß, was damit gemeint ist. Deshalb einigen wir uns auf Universale Turing-Maschinen, ein universales Model der Komputation, auf das ich hier nicht näher eingehen werde weil ich keine Ahnung davon habe.

Solomonoff Induktion (SI)

SI ist ein Formalismus, der aus der minimalen Anzahl an Beobachtungen das Maximum an Vorhersage herausholt. (Oder so was in der Art)

Angenommen wir haben 4 Zeichen: 1,2,L,S. Angenommen, es gibt Computerprogramme die alle dieser Zeichen mit der gleichen Wahrscheinlichkeit als Output haben, also mit 25%. S bedeutet, dass die Sequenz an dieser Stelle stoppt. (Notation: z.B. hat das Computerprogramm C(A,L,1,S) den Ouput A,1,1,1,1,1,1,1,….    )

L bedeutet, dass an dieser Stelle eine Schleife beginnt, die bis zum Buchstaben S oder zum Ende der Sequenz läuft und dann wieder von vorne beginnt.

Wie wahrscheinlich ist also die Sequenz, die mit 1,A beginnt?

Mann zählt einfach die Wahrscheinlichkeiten aller Computerprogramme zusammen, die diesen Sequenzanfang als Output haben:

C(1,A,..) = 0.25*0.25                     (Was danach kommt ist ja egal)

C(L,1,A,…) = 0.25*0.25*0.25       ( Was danach kommt ist ja egal)

Es gibt also ein weniger kompliziertes Program mit einer Wahrscheinlichkeit von 1/16 und ein komplzierteres mit einer Wahrscheinlichkeit von 1/64. Die Gesamtwahrscheinlichkeit ist also 5/64.

Man sieht also, dass SI das Occam’sche Rasiermesser inkorporiert, da den weniger komplexen Programmen höhere (a priori) Wahrscheinlichkeiten zugewiesen werden.

Wenn wir nun z.B den Beginn einer Sequenz  sehen: 1,1,A,11,A,1,1,A,1,1,A,1,1,A,1,1,A,1,1,A  dann könnte folgende Programme diese Sequenz als Ouput haben:

Alle Programme mit: C(1,1,A,11,A,1,1,A,1,1,A,1,1,A,1,1,A,1,1,A,…)     Wahrscheinlichkeit = 0.25 ^21

Das Programm: C(L,1,1,A,S)   Wahrscheinlichkeit = 0.25^5

Das Programm: C(L,1,1,A,1,1,A,S) Wahrscheinlichkeit = 0.25^8

usw…

Wenn man jetzt vorhersagen will, wie die Sequenz weitergehen sollte, dann sollte man mit großer Wahrscheinlichkeit daran glauben, dass wieder 1,1,A  kommt und sich unendlich oft wiederholt.

Es ist möglich, dass die Sequenz mit z.B. A weitergeht, nämlich dann wenn das erste Programm den Output erzeugt hat. Doch die Wahrscheinlichkeit dafür ist sehr gering, nämlich 0.25^21/ (0.25^21+ 0.25^5+0.25^8+…..)

SI weist also verschiedenen Programmen verschiedene a priori- Wahrscheinlichkeiten zu, und denen mit der geringsten KK weist sie die höchsten a priori Wahrscheinlichkeiten zu.

Aber die a priori Wahrscheinlichkeiten sind nicht alles. Je mehr Beobachtungen man macht, desto mehr Programme kann man ja auch auschließen, deren Output nicht mehr mit den Beobachtungen vereinbar ist!

Das wichtigste ist nun, ich wiederhole: SI verwendet gewissermaßen das Occam’sche Rasiermesser, da die Programme mit der geringsten KK a priori am wahrscheinlichsten sind, deshalb sollte man immer den Programmen/Theorien mit der geringsten KK , und die zudem mit den Beobachtungen konsistent sind, auch die höchste a posteriori Wahrscheinlichkeit zuweisen!

SI hat das Problem, dass sie nicht berechenbar ist, weil es ja unendlich viele Programme gibt. Doch kann man sich dessen leicht behelfen, indem man z.B. alle Programme einfach verbietet, die mehr als 100 Zeichen haben, da deren Wahrscheinlichkeit ja dann sowie so nur (in unserem Beispiel) 0.25^100 ist.

Okay, jetzt wieder zurück zum eigentlichen Post.

Das Problem mit der Behauptung “Die Hexe hat es getan” ist also, außer der Tatsache, dass der Begriff “Hexe” alles andere als unkompliziert ist, vor allem das kleine Wörtchen es. Denn man das von der Hexe verursacht Ereignis erklären will, muss man auf jeden Fall auch das Ereignis selbst erklären. Und die Hexe macht die Beschreibung des Ereignisses nicht leichter. Sie komprimiert die Länge der Beschreibung des Ereignisses nicht. Man hat lediglich eine Art Prolog hinzugefügt. Wenn man hingegen ein Ereignis durch, sagen wir mal die ART beschreibt, kann man die Beschreibung des Phänomens vereinfachen (seine KK ist dann geringer).

Wenn ihr nicht alles komplett versteht, keine Sorge, ihr seid nicht allein. Ich will ehrlich sein: Mir erscheint Occam’s Rasiermesser vor allem deswegen plausibel: Wenn eine Theorie mehrere Elemente A,B,C,D,… enthält, dann ist ihre (apriori) Wahrscheinlichkeit notwendigerweise geringer als eine Theorie die nur A,B,C enthält, da P(A&B) < P(A) nach elementarer Wahrscheinlichkeitstheorie.

Dafür braucht man keine prätentiösen Theorien von dahergelaufenen Russen!

Die ganze Sache mit SI und KK sagt wahrscheinlich dasselbe und noch viel mehr, das ich niemals begreifen werde.

Weitere exzellente, verständliche Einführungen (von denen ich sehr viel geklaut habe):

Kolmogorov-Komplexität

Solomonoff-Induktion

Leave a Reply