Statistische Auswertung der Geheimsymbole auf den bisherigen Postkarten

Blog vom 2023-08-18: Statistische Auswertung der Geheimsymbole auf den bisherigen Postkarten
Kategorie:ARG (Alternate Reality Game), Kryptografie, Kryptoanalyse
Stichworte:ARG, Alternate Reality Game, Rätsel, 3D, Wackelbild, Postkarte, Geheimschrift, verschlüsselt, Kryptografie, authentic Cards, mbmSystems, anonym, Dino, Rhino, Voynich, Kryptoanalyse


Was bisher passiert ist

Statistische Auswertung der Geheimsymbole auf den bisherigen Postkarten

Bezüglich des vermeintlichen Alternate Reality Games um die geheimnisvollen 3D-Wackelbild-Postkarten mit Motiven von authentic Cards / mbm Systems gibt es Neuigkeiten. Zum Einlesen empfehle ich die obere Übersicht, am besten am Anfang beginnen.

Hier noch einmal ein kurzer Abriss zur Erinnerung: 58 Adressaten bekamen jeweils eine seltsame 3D-Postkarte mit Geheimschrift und einer kurzer Klartextbotschaft in einem anonymen Fensterbriefumschlag. Auf der Empfängerliste befinden sich Kryptologen, Informatik-Professoren und Firmen rund um das Thema IT-Sicherheit. Aber auch die Geheimdienste (BND, VerfSch, MAD) und weitere Behörden wie das BSI, das BKA und das Zentrum für Cyber-Sicherheit der Bundeswehr sollen eine Postkarte bekommen haben. Dazu gesellen sich noch ein paar Presse-Verlage auf der mir vom Veranstalter zugespielten Adress-Liste.

Durch diesen Blog und die sozialen Medien haben wir hier inzwischen Fotos von acht Postkarten mit ihrem Geheimtext sammeln können.

Wir brauchen aber noch mehr Postkarten, um den - wie sich herausstellt, schwierigen Code, dazu gleich mehr - knacken zu können. Darum nochmals der

Aufruf: Sendet eure Postkarten

Wenn Du eine solche Postkarte zugeschickt bekommen hast und deshalb hier gelandet bist: Schicke ein Foto der Postkarte bitte per e-mail an ARG at Cool-Web.de . Ich werde Sie dann hier veröffentlichen, damit alle daran miträtseln können. Willst du deinen Echtnamen nicht aufgeführt sehen, sag das bitte bzw. dein Pseudonym dazu.

Wenn wir nicht genügend Postkarten zusammen bekommen, werden wir dieses Rätsel nicht lösen können.

120 Geheimsymbole auf acht Postkarten

Nochmals vielen Dank an alle, die ihre Postkarte schon eingesandt haben. Es fehlt aber noch die Großzahl. Es ist höchst zweifelhaft, ob wir mir den bisherigen acht Postkarten irgendetwas reißen können. Die Datenbasis ist für die Komplexität der Chiffre einfach zu gering.

Trotzdem haben sich Wuselmann und ich an das Auseinanderdröseln der Symbole gemacht und jedem Symbol eine eigene Nummer verpasst, damit man sie überhaupt vernünftig ansprechen kann und "Zeichen 047" statt "das Tic Tac Toe Kreuz mit den drei Kreisen schräg von unten links über die Mitte nach oben rechts".

Erste Erkenntnis:
Die acht Postkarten haben zusammen 991 Zeichen und darauf befinden sich 120 unterschiedliche Zeichen.
Ja, richtig gelesen: 120 Zeichen und keines weniger und noch ist nur ein kleiner Bruchteil der Postkarten eingegangen und ausgewertet - siehe weiter unten. Runde wir auf 1000 Zeichen auf, haben wir 120 verschiedene Zeichen darin, in deutschen Texte wäre das nur 30, ein Viertel davon, schließt man Umlaute ein und vernachlässigt man Groß-/Kleinschreibung.

Das verschärft natürlich die Entropie (nach Shannon) bzw. den Koinzidenzindex Kappa (nach Friedman), sprich die Höhe der Ungleichmässigkeit in der Verteilung und erhöht damit die Kombinatorische Komplexität und die Unizitätslänge. Das ist die Länge eines Geheimtextes, die benötigt wird, um diesen überhaupt eindeutig in einer Klartext dekodieren zu können.

Wem jetzt der Kopf schwirrt vor lauter Links folgen und Einlesen in die Materie oder ein "TLTR / Too Long To Read" in den Raum ruft, nochmal kurz in verständlichem Deutsch: Diese Chiffre verschlüsselt den Klartext mit besonders vielen Geheimzeichen, so dass ein Entschlüsseln sehr schwierig sein wird und mit der vorliegenden Zahl von Postkarten wahrscheinlich unmöglich.

Aber irgendwie muss - falls es hier wirklich um ein ARG geht - das ja zu lösen sein, sonst hätte der Puppetmaster sein Ziel verfehlt. Unmöglich zu erreichende Ziele zu definieren ist kinderleicht. Schwieriger ist es, den Schwierigkeitsgrad der Aufgabe so zu setzen, dass sie nicht zu einfach ist, eine Herausforderung stellt, einen aber nicht zum Verzweifeln bringt. Aber diese Intention gilt natürlich nur für ein Alternative Reality Game, ein ARG. Dazu hatte ich ja schon einiges geschrieben. Hier ein weiterer Fun Fact zu ARGs: Getreu dem Motto "This is not a game!" weigern sich ARGs, zuzugeben, ein ARG zu sein - wo bliebe denn auch sonst die Spannung, der Thrill, der Spaß?

Bei den vielen Geheimzeichen verliert man natürlich total den Überblick, noch dazu, wenn diese teils unsauber geschrieben sind und man sich fragen muss:
Ist das jetzt dieses schon bekannte Symbol, nur etwas undeutlich geschrieben, oder ist das ein neues? Es gibt ja soviele Symbole, die sich ähnlich sehen.
Und um dem Chaos Herr zu werden, bekommt jedes Geheimsymbol normalerweise einen Großbuchstaben zugewiesen. Und wenn dieser Vorrat von 26 Zeichen aufgebraucht ist, kann man noch die Umlaute dazu nehmen. Und die Ziffern. Und wenn es dann noch nicht reiht, Groß- und Kleinschreibung unterscheiden. Damit kommt man dann auf 26 + 4 + 10 + 26 + 3 Symbole, also 69 insgesamt. Das reicht normalerweise immer. Nur hier nicht. Darum müssen wir hier leider den Weg mit dreistelligen Nummern gehen. Buchstaben wären einprägsamen, aber was nicht geht, geht halt nicht.

Nachdem die Symbole festgezurrt waren, haben sich Wuselmann und ich in den letzten zwei Tagen damit beschäftigt, jedes Symbol auf jeder Postkarte in der 120 Zeichen umfassenden Tabelle zu suchen und zu notieren, sprich die Karten zu transkribieren, damit man überhaupt irgendwie mit moderner Datenverarbeitung damit umgehen kann.

Die Transkriptionen sehen im Ergebnis dann so aus:

Bisher eingereichte Postkarten und Transkriptionen

Rhflg. EingangNr. oben linksEmpfängerAbbildunglesbarer TextTranskription
512Prof. Dr. Joachim Posegga, Universität Passau (Lehrstuhl für Informatik mit Schwerpunkt IT-Sicherheit)Viel Glück, Erfolg und Spaß beim lösen! 053 033 086 113 110 048 068 086 029 034
046 006 111 006 007 086 089 055
095 012 114 110 108 074 067 044 023 086 042 091 029 028 002 103 010 083
002 045 014 044 113 062 025 013 094 097 022 062 036 068 072 019 067 003
063 012 087 083 101 052 119 103 114 068 072
018 002 103 020 027 045 094 009 104 103 043 031
111 061 020 106 089 101 048 032 087 083 119
112 035 103 007 061 094 013 114 043 094 109 022 034 108

(102 Zeichen) (Transkription Proof)
113Oliver Kuhlemann, Kryptografie.deEin kleines Rätsel! Zu wenig Zeichen?
Andere haben auch eine Karte! Suchen Sie sie.
LG
096 036 101 113
083 114 062 120 034
095 001 107 083 113 106 057 061 061 034 094 103 022 061 119 034
048 034 069 068 072 061 069 106 116 047 072 083 114 062 113
110 036 019 114 034 031 110 036 019 063 034 113 013
095 001 107 083 113 106 116
074 084 044 064 009 002 030
049 061 076 097 031 044 102 083 114 101 102 061 094
009 088 044 029 036 013 108 038

(88 Zeichen) (Transkription Proof)
715NextGen HackersEin kleines Rätsel für euch! Liebe Grüße! 011 094 112 073 103 116 110 035 032 036 083
091 114 012 067 044 090 079 002 019 080 055 042 044 088 103
107 015 094 062 113 050 101 016 063 061 094 013 114 019 114 043 116 009 020 012 031 106
026 109 105 112 098 013 064 109 009 080 055 042 019 067 012 087 013 036 086 033 044 087 095 113
059 063 097 098 003 020 103 010 083 048 083 114 103 098 103 115 045 116 083 036 101 113 061 064 055
021 083 072 005 064 061 022 038 114 003
014 091 114 083 067 101 048 013 097 017
024 006 031 061 002 109 039 071 094 013 048 044 090
018 114 101 031 043 064 079 061 034 108

(140 Zeichen) (Transkription Proof)
827Florian Dalwigk, IT-Sicherheitsforscher und YoutuberKleine Challenge für dich und deine Community!
LG
018 020 112 002 017 031 034
007 061 094 013 113 091 114 110 113 006 084 009 042 083 020 061 031 001 077 066 063 003 101
055 029 051 119 103 063 012 089 110 114 038 020 061 102 092 098 070 107 013 109 091 113 106 116
011 036 056 063 009 035 091 087 019 031 092 084 011 117 013 095 086 014 062
036 019 048 086 067 050 035 097 094 032 113 001 022 103 106 063
081 067 013 114 013 114 041 119 061 082 008 107
093 036 013 010 103 020 061 063 013 087 043 048 008 002
030 119 061 116 065 089 101 089 009 101 003 101
062 036 051 035 097 094 061 020 096 014 037
073 097 031 097 035 110 036 019 113 106 116

(149 Zeichen) (Transkription Proof)
630Prof. Dr. Hans P. Reiser, Universität Reykjavík, Island (Fakultät für Informatik), ehemaliger Prof. Universität PassauEine kleine Kryptochallenge! Viel Glück 058 020 110 067 043 120 002 013 113 055 084 062 101
074 029 066 010 112 031 055 102 103 010 071 119 034 090
018 029 008 002 091 114 032 054 038 010 086 031 110 036 019 063 103 108
093 087 038 094 028 111 086 036 083 090 041 020 112 035 110 014 062 120 044
035 049 031 055 031 083 036 009 102 061 094 038 100 003
014 050 048 055 067 013 002 032 087 085
029 008 098 044 029 013
072 044 080 013 087 091 007 083 116 070 107 103
102 079 069 044 108 017

(112 Zeichen) (Transkription Proof)
352Klaus Schmeh, cryptovisionJust a small challenge!
Good Luck!
017 078 061 029 091 114 019 114
092 042 009 116 009 113 068 072 003 080 032 087 083 119
001 020 038 020 066 067 044 107 061 105 055 064 009 002 066 090
009 036 085 002 115 109 119 061 063 068 072 079 088 040 036 091 116 103
002 079 119 103 031 032 116 061 002
032 120 013 102 103 032 114 091 113 062 080 008 107
112 035 103 027 009 063 055 063 013 111 061 094 013 114
068 072 095 083 067 019 113 003 013 116 097 035
074 033 055 029 043 067 044 113
047 073 006 063 091 014 106

(119 Zeichen) (Transkription Proof)
454Dr. Jürgen Hermes, Uni Köln (Institut für Digital Humanities)Mein Versuch das Voynich Manuskript zu kopieren 081 113 001 022 055 116 013 113 055
020 097 060 013 063 103 029 044 087 101 031 055
107 015 116 083 101 016 036 083 031 034 102 017 114 068 036 110 064 034 090
018 010 061 116 013 020 006 020 001 094 044 054 012 064 049 022 092 095 034 111 013 108
112 035 093 036 065 107 083 036 091 031 103 020 049 042 019 029
055 033 019 094 008 098 103 025 049
010 061 102 038 114 112 035 009 036 101 020 061 064
017 104 061 022 092 036 091 031 003
006 002 009 035 055 063 013 113
032 054 083 114 092 073 038 072 013 117 066 106

(129 Zeichen) (Transkription Proof)
256Klaus Schmeh, Cipherbrain BlogGroßer Fan von Ihrem Blog!
Mein Versuch das Voynich Manuskript zu kopieren!
Viel Erfolg beim lösen!
005 101 055 048
074 031 114 038 105 103 067 044 114
008 107 083 087 049 031 001 022 103 046 006 111 055 036 091 072 075
014 061 105 103 101 012 029 019 067 012 067 044 048 008 002 019 087 086 119 072 075
014 050 099 086 072 097 035 013 048 055 063 013 118 013 073 038 031 110 036 019 113 004
099 112 044 114 011 042 068 113 013 113 003
020 112 035 103 007 009 020 012 087 086 063 001 031 009 035 034
025 079 002 019 114 055 042 044 088 103
020 090 116 044 114 093 072 013 063 013 048 003
101 012 029 102 092 042 050 002
055 063 013 036 083 111 097 035 013 048 055 116 013 118 031 068 116 013 010 061 031 106

(152 Zeichen) (Transkription Proof)

Gerne könnt ihr die jeweiligen Grafiken unter Transkription Proof mit der entsprechenden Original-Karte vergleichen und eventuelle Fehler melden. Wie gehabt an ARG [at] Cool-Web.de.

Symboltabelle der Symbole auf den ersten acht Postkarten

Als Referenz für zukünftige Transkriptionen soll uns diese Übersetzungstabelle dienen:



Erste Analyse zur Häufigkeitsverteilung

Klassischerweise beginnt man eine Kryptoanalyse damit, sich einen erste Überblick über die Häufigkeit der einzelnen Symbole zu verschaffen.

Kämen bei deutschen Texte die normalen Buchstaben zum Einsatz und wären in der Chiffre einfach nur vertauscht, hätten wir es also mit einer einfachen monoalphabetischen Substitution zu tun, dann wäre die Analyse der Häufigkeitsverteilung ein vielversprechender Weg, den man zuerst einschlagen würde und der wahrscheinlich recht schnell zum Erfolg führen würde.

Für eine einfache monoalphabetischen Substitution bräuchte man aber auch nur 26 Geheimzeichen, keine 120 oder mehr. Nichtsdestotrotz ist davon auszugehen, dass hinter dem Gewirr von Geheimsymbolen ein deutscher oder englischer Klartext steht. Sogar eher ein deutscher, weil die Zusatztexte auch deutsch sind, die Karten aus Deutschland abgesandt wurde und die Empfänger allesamt in Deutschland residieren.

Die statistischen Erkenntnisse aus der Häufigkeitsverteilung, etwa, dass das E mit 17.41% der häufigste Buchstabe ist, wird uns aber trotzdem nützlich sein, denn er bezieht sich auf unsere Zielsprache, deutsch.

Auch wir wollen mit einer Analyse der Häufigkeit der Symbole beginnen und Zählen erst einmal stur alle Symbole durch und sortieren die Summen dann nach Vorkommen absteigend.

Häufigkeitsverteilung Einzelsymbole

Die Tabelle ist zeilenweise zu lesen, jeweils: [Symbolnr.]: [Anzahl]
013: 40 061: 32 114: 31 103: 29 036: 27 083: 26 113: 26 031: 25 055: 23 044: 22 020: 21 063: 20 002: 19 101: 19 116: 19 009: 18 019: 18 094: 18 035: 17 034: 15 067: 15 091: 15 029: 14 048: 14 072: 14 087: 14 110: 13 086: 12 097: 12 003: 11 012: 11 038: 11 106: 11 107: 11 112: 11 119: 11 032: 10 062: 10 068: 10 102: 10 001: 9 010: 9 014: 9 022: 9 042: 9 064: 9 006: 8 008: 8 043: 7 090: 7 092: 7 095: 7 108: 7 111: 7 017: 6 049: 6 079: 6 098: 6 109: 6 007: 5 018: 5 050: 5 066: 5 073: 5 074: 5 080: 5 089: 5 011: 4 033: 4 084: 4 088: 4 093: 4 105: 4 120: 4 025: 3 045: 3 054: 3 069: 3 005: 2 015: 2 016: 2 027: 2 028: 2 030: 2 041: 2 046: 2 047: 2 051: 2 065: 2 070: 2 071: 2 075: 2 081: 2 085: 2 096: 2 099: 2 104: 2 115: 2 117: 2 118: 2 004: 1 021: 1 023: 1 024: 1 026: 1 037: 1 039: 1 040: 1 052: 1 053: 1 056: 1 057: 1 058: 1 059: 1 060: 1 076: 1 077: 1 078: 1 082: 1 100: 1
Das häufigste Zeichen ist also das Symbol 013, das aussieht wie eine 8. Das kommt immerhin 40 mal vor. Bei 991 Zeichen sind das 4%. Zwar weit entfernt von den 17.41% für E, dem häufigsten Buchstaben des deutschen Alphabets, aber trotzdem nicht unerheblich und wesentlich öfter als die 20 letztgenannten in der Tabelle mit nur einem Vorkommen.

Eventuell haben wir es ja mit einer homophonen Chiffre zu tun und für das E werden vier oder fünf Buchstaben verwendet, jeweils mit einem Einzelvorkommen von 3-4%?

Die vielen, mämlich zwanzig, immerhin ein sechstel des Symbolvorrates, vorkommenden Symbole, die nur ein einziges mal vorkommen, könnten auf zusätzlich eingestreute Blender hindeuten. Natürlich können wir uns da nicht sicher sein, aber vielleicht später einen Versuch wagen, Symbole mit einem, oder nur einem oder zwei Vorkommen zu ignorieren, wenn wir später an die Auswertung von Bigrammen und Trigrammen gehen. Eventuell sollen diese Blender ja diese Bi- und Trigramme zerschneiden, um sie zu verschleiern?

Grafische Häufigkeitsanalyse

Wenn es um die ganz seltenen Vorkommen um Blender handeln sollte, dann wäre es wahrscheinlich, dass diese nachträglich zu dem vorhandenen Zeichensatz für die Umsetzung von Klartext in "echte" Geheimsymbole dazugekommen sind. Bequeme Verschlüssler könnten jetzt die Neigung dazu haben, besonders kompliziert aussehende Symbole zu verwenden, um ja kein echtes Symbol zu erwischen und es damit ungültig zu machen. Vielleicht gab es ja auch eine Order nach dem Motto: "Achja, und fügt dazwischen immer wieder irgendwelche komische, selbsterdachte Symbole ein, einfach nur zur Verwirrung".

Um diese Theorie zu überprüfen, hier das Häufigkeits-Ranking nach Symbolen (Symbol, Symbol-Nr, Anzahl Vorkommen):


013
40x

061
32x

114
31x

103
29x

036
27x

083
26x

113
26x

031
25x

055
23x

044
22x

020
21x

063
20x

002
19x

101
19x

116
19x

009
18x

019
18x

094
18x

035
17x

034
15x

067
15x

091
15x

029
14x

048
14x

072
14x

087
14x

110
13x

086
12x

097
12x

003
11x

012
11x

038
11x

106
11x

107
11x

112
11x

119
11x

032
10x

062
10x

068
10x

102
10x

001
9x

010
9x

014
9x

022
9x

042
9x

064
9x

006
8x

008
8x

043
7x

090
7x

092
7x

095
7x

108
7x

111
7x

017
6x

049
6x

079
6x

098
6x

109
6x

007
5x

018
5x

050
5x

066
5x

073
5x

074
5x

080
5x

089
5x

011
4x

033
4x

084
4x

088
4x

093
4x

105
4x

120
4x

025
3x

045
3x

054
3x

069
3x

005
2x

015
2x

016
2x

027
2x

028
2x

030
2x

041
2x

046
2x

047
2x

051
2x

065
2x

070
2x

071
2x

075
2x

081
2x

085
2x

096
2x

099
2x

104
2x

115
2x

117
2x

118
2x

004
1x

021
1x

023
1x

024
1x

026
1x

037
1x

039
1x

040
1x

052
1x

053
1x

056
1x

057
1x

058
1x

059
1x

060
1x

076
1x

077
1x

078
1x

082
1x

100
1x

Für die "Kompliziert = Blender"-Theorie spricht, dass unter den 1x-Symbolen doch alle recht komplex sind, evtl. außer 037 (Pfeil nach unten), 052 (Doppeldreieck), 078 (Kreis mit Strich), 082 (!) und 100 (Y).

Allerdings ist das mit 25x recht häufig vorkommende Zeihen 031 (gespickte Kastanie) oder das 22x vorkommende Symbol 044 ([xyz]) doch recht komplex zu schreiben, aber dennoch häufig.

Dennoch glaube ich, ein gewisses Gefälle beobachten zu können: je weiter hinten ein Symbol in der Tabelle steht (je selten es vorkommt), desto komplexer ist sein Aussehen und desto aufwändiger ist es zu schreiben.

Brainstormen und Spekulieren

Ich glaube wir sind an einem Punkt angekommen, an dem eine zeitnahere Kommunikation unter den Interessierten sinnvoll wird. Ich werde mich mal umschauen, was es da für Möglichkeiten gibt und dann hier posten, was es geworden ist. Ein Discord-Channel, ein Reddit oder dergleichen. Text-Chat und Bild-Posting sollte auf jeden Fall möglich sein. Superübersichtlich muss es nicht sein, Hauptsache man kommt ins Gespräch. Die Quintessenz der Gespräche auf der noch zu findenen Plattform werde ich dann sowieso bloggen.

Wenn ich was adäquates aufgetan habe, werde ich hier den Link posten. Dann können wir zusammen spekulieren. Auch interessant mich zum Beispiel, was die Schriftexperten meinen, wieviele Personen an den bisher eingegangenen Karten gearbeitet haben (gleiches Symbol und unterschiedliche Schreibweise).

Discord Server online

Ich habe mich für einen Discord-Server entschieden, weil dort zum Beispiel auch Voice-Chats möglich sind. Eine Runde fachsimplen per Echtsprache könnte witzig und hilfreich sein.

Zum Chat Via Discord geht es hier lang

Der Chat funktioniert mit jedem Web-Browser. Es gibt aber auch Apps, die vielleicht noch komfortabler sind, besonders fürs Smartphone.

Update

Ich habe weitere statistische Auswertungen gefahren, insbesondere N-Gramme. Die Ergebnisse dazu stehen im neuen Blog online.