Statistische Auswertung der Geheimsymbole auf den bisherigen Postkarten
Blog vom 2023-08-18: Statistische Auswertung der Geheimsymbole auf den bisherigen Postkarten | |
---|---|
Kategorie: | ARG (Alternate Reality Game), Kryptografie, Kryptoanalyse |
Stichworte: | ARG, Alternate Reality Game, Rätsel, 3D, Wackelbild, Postkarte, Geheimschrift, verschlüsselt, Kryptografie, authentic Cards, mbmSystems, anonym, Dino, Rhino, Voynich, Kryptoanalyse |
Was bisher passiert ist
- 2023-07-20: Im ersten Teil berichte ich über eine seltsame, anonyme Postkarte mit Geheimschrift, die ich erhalten habe
- 2023-07-22: Es tauchen zwei weitere 3D-Postkarten auf; ein erstes Transkriptions-Alphabet
- 2023-08-03: Eine weitere 3D-Postkarte und eine e-mail von Puppetmaster Rhino Dino
- 2023-08-07: Weitere 3D-Postkarten mit Geheimschrift sind aufgetaucht (nun acht)
- 2023-08-16: Alle Geheimsymbole von den bisherigen acht Postkarten erfasst und Postkarten transkribiert
Statistische Auswertung der Geheimsymbole auf den bisherigen Postkarten
Bezüglich des vermeintlichen Alternate Reality Games um die geheimnisvollen 3D-Wackelbild-Postkarten mit Motiven von authentic Cards / mbm Systems gibt es Neuigkeiten. Zum Einlesen empfehle ich die obere Übersicht, am besten am Anfang beginnen.Hier noch einmal ein kurzer Abriss zur Erinnerung: 58 Adressaten bekamen jeweils eine seltsame 3D-Postkarte mit Geheimschrift und einer kurzer Klartextbotschaft in einem anonymen Fensterbriefumschlag. Auf der Empfängerliste befinden sich Kryptologen, Informatik-Professoren und Firmen rund um das Thema IT-Sicherheit. Aber auch die Geheimdienste (BND, VerfSch, MAD) und weitere Behörden wie das BSI, das BKA und das Zentrum für Cyber-Sicherheit der Bundeswehr sollen eine Postkarte bekommen haben. Dazu gesellen sich noch ein paar Presse-Verlage auf der mir vom Veranstalter zugespielten Adress-Liste.
Durch diesen Blog und die sozialen Medien haben wir hier inzwischen Fotos von acht Postkarten mit ihrem Geheimtext sammeln können.
Wir brauchen aber noch mehr Postkarten, um den - wie sich herausstellt, schwierigen Code, dazu gleich mehr - knacken zu können. Darum nochmals der
Aufruf: Sendet eure Postkarten
Wenn Du eine solche Postkarte zugeschickt bekommen hast und deshalb hier gelandet bist: Schicke ein Foto der Postkarte bitte per e-mail an ARG at Cool-Web.de . Ich werde Sie dann hier veröffentlichen, damit alle daran miträtseln können. Willst du deinen Echtnamen nicht aufgeführt sehen, sag das bitte bzw. dein Pseudonym dazu.Wenn wir nicht genügend Postkarten zusammen bekommen, werden wir dieses Rätsel nicht lösen können.
120 Geheimsymbole auf acht Postkarten
Nochmals vielen Dank an alle, die ihre Postkarte schon eingesandt haben. Es fehlt aber noch die Großzahl. Es ist höchst zweifelhaft, ob wir mir den bisherigen acht Postkarten irgendetwas reißen können. Die Datenbasis ist für die Komplexität der Chiffre einfach zu gering.Trotzdem haben sich Wuselmann und ich an das Auseinanderdröseln der Symbole gemacht und jedem Symbol eine eigene Nummer verpasst, damit man sie überhaupt vernünftig ansprechen kann und "Zeichen 047" statt "das Tic Tac Toe Kreuz mit den drei Kreisen schräg von unten links über die Mitte nach oben rechts".
Erste Erkenntnis:
Die acht Postkarten haben zusammen 991 Zeichen und darauf befinden sich 120 unterschiedliche Zeichen.Ja, richtig gelesen: 120 Zeichen und keines weniger und noch ist nur ein kleiner Bruchteil der Postkarten eingegangen und ausgewertet - siehe weiter unten. Runde wir auf 1000 Zeichen auf, haben wir 120 verschiedene Zeichen darin, in deutschen Texte wäre das nur 30, ein Viertel davon, schließt man Umlaute ein und vernachlässigt man Groß-/Kleinschreibung.
Das verschärft natürlich die Entropie (nach Shannon) bzw. den Koinzidenzindex Kappa (nach Friedman), sprich die Höhe der Ungleichmässigkeit in der Verteilung und erhöht damit die Kombinatorische Komplexität und die Unizitätslänge. Das ist die Länge eines Geheimtextes, die benötigt wird, um diesen überhaupt eindeutig in einer Klartext dekodieren zu können.
Wem jetzt der Kopf schwirrt vor lauter Links folgen und Einlesen in die Materie oder ein "TLTR / Too Long To Read" in den Raum ruft, nochmal kurz in verständlichem Deutsch: Diese Chiffre verschlüsselt den Klartext mit besonders vielen Geheimzeichen, so dass ein Entschlüsseln sehr schwierig sein wird und mit der vorliegenden Zahl von Postkarten wahrscheinlich unmöglich.
Aber irgendwie muss - falls es hier wirklich um ein ARG geht - das ja zu lösen sein, sonst hätte der Puppetmaster sein Ziel verfehlt. Unmöglich zu erreichende Ziele zu definieren ist kinderleicht. Schwieriger ist es, den Schwierigkeitsgrad der Aufgabe so zu setzen, dass sie nicht zu einfach ist, eine Herausforderung stellt, einen aber nicht zum Verzweifeln bringt. Aber diese Intention gilt natürlich nur für ein Alternative Reality Game, ein ARG. Dazu hatte ich ja schon einiges geschrieben. Hier ein weiterer Fun Fact zu ARGs: Getreu dem Motto "This is not a game!" weigern sich ARGs, zuzugeben, ein ARG zu sein - wo bliebe denn auch sonst die Spannung, der Thrill, der Spaß?
Bei den vielen Geheimzeichen verliert man natürlich total den Überblick, noch dazu, wenn diese teils unsauber geschrieben sind und man sich fragen muss:
Ist das jetzt dieses schon bekannte Symbol, nur etwas undeutlich geschrieben, oder ist das ein neues? Es gibt ja soviele Symbole, die sich ähnlich sehen.Und um dem Chaos Herr zu werden, bekommt jedes Geheimsymbol normalerweise einen Großbuchstaben zugewiesen. Und wenn dieser Vorrat von 26 Zeichen aufgebraucht ist, kann man noch die Umlaute dazu nehmen. Und die Ziffern. Und wenn es dann noch nicht reiht, Groß- und Kleinschreibung unterscheiden. Damit kommt man dann auf 26 + 4 + 10 + 26 + 3 Symbole, also 69 insgesamt. Das reicht normalerweise immer. Nur hier nicht. Darum müssen wir hier leider den Weg mit dreistelligen Nummern gehen. Buchstaben wären einprägsamen, aber was nicht geht, geht halt nicht.
Nachdem die Symbole festgezurrt waren, haben sich Wuselmann und ich in den letzten zwei Tagen damit beschäftigt, jedes Symbol auf jeder Postkarte in der 120 Zeichen umfassenden Tabelle zu suchen und zu notieren, sprich die Karten zu transkribieren, damit man überhaupt irgendwie mit moderner Datenverarbeitung damit umgehen kann.
Die Transkriptionen sehen im Ergebnis dann so aus:
Bisher eingereichte Postkarten und Transkriptionen
Rhflg. Eingang | Nr. oben links | Empfänger | Abbildung | lesbarer Text | Transkription |
---|---|---|---|---|---|
5 | 12 | Prof. Dr. Joachim Posegga, Universität Passau (Lehrstuhl für Informatik mit Schwerpunkt IT-Sicherheit) | Viel Glück, Erfolg und Spaß beim lösen! |
053 033 086 113 110 048 068 086 029 034 046 006 111 006 007 086 089 055 095 012 114 110 108 074 067 044 023 086 042 091 029 028 002 103 010 083 002 045 014 044 113 062 025 013 094 097 022 062 036 068 072 019 067 003 063 012 087 083 101 052 119 103 114 068 072 018 002 103 020 027 045 094 009 104 103 043 031 111 061 020 106 089 101 048 032 087 083 119 112 035 103 007 061 094 013 114 043 094 109 022 034 108 (102 Zeichen) (Transkription Proof) | |
1 | 13 | Oliver Kuhlemann, Kryptografie.de | Ein kleines Rätsel! Zu wenig Zeichen? Andere haben auch eine Karte! Suchen Sie sie. LG |
096 036 101 113 083 114 062 120 034 095 001 107 083 113 106 057 061 061 034 094 103 022 061 119 034 048 034 069 068 072 061 069 106 116 047 072 083 114 062 113 110 036 019 114 034 031 110 036 019 063 034 113 013 095 001 107 083 113 106 116 074 084 044 064 009 002 030 049 061 076 097 031 044 102 083 114 101 102 061 094 009 088 044 029 036 013 108 038 (88 Zeichen) (Transkription Proof) | |
7 | 15 | NextGen Hackers | Ein kleines Rätsel für euch! Liebe Grüße! |
011 094 112 073 103 116 110 035 032 036 083 091 114 012 067 044 090 079 002 019 080 055 042 044 088 103 107 015 094 062 113 050 101 016 063 061 094 013 114 019 114 043 116 009 020 012 031 106 026 109 105 112 098 013 064 109 009 080 055 042 019 067 012 087 013 036 086 033 044 087 095 113 059 063 097 098 003 020 103 010 083 048 083 114 103 098 103 115 045 116 083 036 101 113 061 064 055 021 083 072 005 064 061 022 038 114 003 014 091 114 083 067 101 048 013 097 017 024 006 031 061 002 109 039 071 094 013 048 044 090 018 114 101 031 043 064 079 061 034 108 (140 Zeichen) (Transkription Proof) | |
8 | 27 | Florian Dalwigk, IT-Sicherheitsforscher und Youtuber | Kleine Challenge für dich und deine Community! LG |
018 020 112 002 017 031 034 007 061 094 013 113 091 114 110 113 006 084 009 042 083 020 061 031 001 077 066 063 003 101 055 029 051 119 103 063 012 089 110 114 038 020 061 102 092 098 070 107 013 109 091 113 106 116 011 036 056 063 009 035 091 087 019 031 092 084 011 117 013 095 086 014 062 036 019 048 086 067 050 035 097 094 032 113 001 022 103 106 063 081 067 013 114 013 114 041 119 061 082 008 107 093 036 013 010 103 020 061 063 013 087 043 048 008 002 030 119 061 116 065 089 101 089 009 101 003 101 062 036 051 035 097 094 061 020 096 014 037 073 097 031 097 035 110 036 019 113 106 116 (149 Zeichen) (Transkription Proof) | |
6 | 30 | Prof. Dr. Hans P. Reiser, Universität Reykjavík, Island (Fakultät für Informatik), ehemaliger Prof. Universität Passau | Eine kleine Kryptochallenge! Viel Glück |
058 020 110 067 043 120 002 013 113 055 084 062 101 074 029 066 010 112 031 055 102 103 010 071 119 034 090 018 029 008 002 091 114 032 054 038 010 086 031 110 036 019 063 103 108 093 087 038 094 028 111 086 036 083 090 041 020 112 035 110 014 062 120 044 035 049 031 055 031 083 036 009 102 061 094 038 100 003 014 050 048 055 067 013 002 032 087 085 029 008 098 044 029 013 072 044 080 013 087 091 007 083 116 070 107 103 102 079 069 044 108 017 (112 Zeichen) (Transkription Proof) | |
3 | 52 | Klaus Schmeh, cryptovision | Just a small challenge! Good Luck! |
017 078 061 029 091 114 019 114 092 042 009 116 009 113 068 072 003 080 032 087 083 119 001 020 038 020 066 067 044 107 061 105 055 064 009 002 066 090 009 036 085 002 115 109 119 061 063 068 072 079 088 040 036 091 116 103 002 079 119 103 031 032 116 061 002 032 120 013 102 103 032 114 091 113 062 080 008 107 112 035 103 027 009 063 055 063 013 111 061 094 013 114 068 072 095 083 067 019 113 003 013 116 097 035 074 033 055 029 043 067 044 113 047 073 006 063 091 014 106 (119 Zeichen) (Transkription Proof) | |
4 | 54 | Dr. Jürgen Hermes, Uni Köln (Institut für Digital Humanities) | Mein Versuch das Voynich Manuskript zu kopieren |
081 113 001 022 055 116 013 113 055 020 097 060 013 063 103 029 044 087 101 031 055 107 015 116 083 101 016 036 083 031 034 102 017 114 068 036 110 064 034 090 018 010 061 116 013 020 006 020 001 094 044 054 012 064 049 022 092 095 034 111 013 108 112 035 093 036 065 107 083 036 091 031 103 020 049 042 019 029 055 033 019 094 008 098 103 025 049 010 061 102 038 114 112 035 009 036 101 020 061 064 017 104 061 022 092 036 091 031 003 006 002 009 035 055 063 013 113 032 054 083 114 092 073 038 072 013 117 066 106 (129 Zeichen) (Transkription Proof) | |
2 | 56 | Klaus Schmeh, Cipherbrain Blog | Großer Fan von Ihrem Blog! Mein Versuch das Voynich Manuskript zu kopieren! Viel Erfolg beim lösen! |
005 101 055 048 074 031 114 038 105 103 067 044 114 008 107 083 087 049 031 001 022 103 046 006 111 055 036 091 072 075 014 061 105 103 101 012 029 019 067 012 067 044 048 008 002 019 087 086 119 072 075 014 050 099 086 072 097 035 013 048 055 063 013 118 013 073 038 031 110 036 019 113 004 099 112 044 114 011 042 068 113 013 113 003 020 112 035 103 007 009 020 012 087 086 063 001 031 009 035 034 025 079 002 019 114 055 042 044 088 103 020 090 116 044 114 093 072 013 063 013 048 003 101 012 029 102 092 042 050 002 055 063 013 036 083 111 097 035 013 048 055 116 013 118 031 068 116 013 010 061 031 106 (152 Zeichen) (Transkription Proof) |
Gerne könnt ihr die jeweiligen Grafiken unter Transkription Proof mit der entsprechenden Original-Karte vergleichen und eventuelle Fehler melden. Wie gehabt an ARG [at] Cool-Web.de.
Symboltabelle der Symbole auf den ersten acht Postkarten
Als Referenz für zukünftige Transkriptionen soll uns diese Übersetzungstabelle dienen:Erste Analyse zur Häufigkeitsverteilung
Klassischerweise beginnt man eine Kryptoanalyse damit, sich einen erste Überblick über die Häufigkeit der einzelnen Symbole zu verschaffen.Kämen bei deutschen Texte die normalen Buchstaben zum Einsatz und wären in der Chiffre einfach nur vertauscht, hätten wir es also mit einer einfachen monoalphabetischen Substitution zu tun, dann wäre die Analyse der Häufigkeitsverteilung ein vielversprechender Weg, den man zuerst einschlagen würde und der wahrscheinlich recht schnell zum Erfolg führen würde.
Für eine einfache monoalphabetischen Substitution bräuchte man aber auch nur 26 Geheimzeichen, keine 120 oder mehr. Nichtsdestotrotz ist davon auszugehen, dass hinter dem Gewirr von Geheimsymbolen ein deutscher oder englischer Klartext steht. Sogar eher ein deutscher, weil die Zusatztexte auch deutsch sind, die Karten aus Deutschland abgesandt wurde und die Empfänger allesamt in Deutschland residieren.
Die statistischen Erkenntnisse aus der Häufigkeitsverteilung, etwa, dass das E mit 17.41% der häufigste Buchstabe ist, wird uns aber trotzdem nützlich sein, denn er bezieht sich auf unsere Zielsprache, deutsch.
Auch wir wollen mit einer Analyse der Häufigkeit der Symbole beginnen und Zählen erst einmal stur alle Symbole durch und sortieren die Summen dann nach Vorkommen absteigend.
Häufigkeitsverteilung Einzelsymbole
Die Tabelle ist zeilenweise zu lesen, jeweils: [Symbolnr.]: [Anzahl]013: 40 061: 32 114: 31 103: 29 036: 27
083: 26 113: 26 031: 25 055: 23 044: 22
020: 21 063: 20 002: 19 101: 19 116: 19
009: 18 019: 18 094: 18 035: 17 034: 15
067: 15 091: 15 029: 14 048: 14 072: 14
087: 14 110: 13 086: 12 097: 12 003: 11
012: 11 038: 11 106: 11 107: 11 112: 11
119: 11 032: 10 062: 10 068: 10 102: 10
001: 9 010: 9 014: 9 022: 9 042: 9
064: 9 006: 8 008: 8 043: 7 090: 7
092: 7 095: 7 108: 7 111: 7 017: 6
049: 6 079: 6 098: 6 109: 6 007: 5
018: 5 050: 5 066: 5 073: 5 074: 5
080: 5 089: 5 011: 4 033: 4 084: 4
088: 4 093: 4 105: 4 120: 4 025: 3
045: 3 054: 3 069: 3 005: 2 015: 2
016: 2 027: 2 028: 2 030: 2 041: 2
046: 2 047: 2 051: 2 065: 2 070: 2
071: 2 075: 2 081: 2 085: 2 096: 2
099: 2 104: 2 115: 2 117: 2 118: 2
004: 1 021: 1 023: 1 024: 1 026: 1
037: 1 039: 1 040: 1 052: 1 053: 1
056: 1 057: 1 058: 1 059: 1 060: 1
076: 1 077: 1 078: 1 082: 1 100: 1
Eventuell haben wir es ja mit einer homophonen Chiffre zu tun und für das E werden vier oder fünf Buchstaben verwendet, jeweils mit einem Einzelvorkommen von 3-4%?
Die vielen, mämlich zwanzig, immerhin ein sechstel des Symbolvorrates, vorkommenden Symbole, die nur ein einziges mal vorkommen, könnten auf zusätzlich eingestreute Blender hindeuten. Natürlich können wir uns da nicht sicher sein, aber vielleicht später einen Versuch wagen, Symbole mit einem, oder nur einem oder zwei Vorkommen zu ignorieren, wenn wir später an die Auswertung von Bigrammen und Trigrammen gehen. Eventuell sollen diese Blender ja diese Bi- und Trigramme zerschneiden, um sie zu verschleiern?
Grafische Häufigkeitsanalyse
Wenn es um die ganz seltenen Vorkommen um Blender handeln sollte, dann wäre es wahrscheinlich, dass diese nachträglich zu dem vorhandenen Zeichensatz für die Umsetzung von Klartext in "echte" Geheimsymbole dazugekommen sind. Bequeme Verschlüssler könnten jetzt die Neigung dazu haben, besonders kompliziert aussehende Symbole zu verwenden, um ja kein echtes Symbol zu erwischen und es damit ungültig zu machen. Vielleicht gab es ja auch eine Order nach dem Motto: "Achja, und fügt dazwischen immer wieder irgendwelche komische, selbsterdachte Symbole ein, einfach nur zur Verwirrung".Um diese Theorie zu überprüfen, hier das Häufigkeits-Ranking nach Symbolen (Symbol, Symbol-Nr, Anzahl Vorkommen):
013 40x | 061 32x | 114 31x | 103 29x | 036 27x | 083 26x | 113 26x | 031 25x | 055 23x | 044 22x | 020 21x | 063 20x |
002 19x | 101 19x | 116 19x | 009 18x | 019 18x | 094 18x | 035 17x | 034 15x | 067 15x | 091 15x | 029 14x | 048 14x |
072 14x | 087 14x | 110 13x | 086 12x | 097 12x | 003 11x | 012 11x | 038 11x | 106 11x | 107 11x | 112 11x | 119 11x |
032 10x | 062 10x | 068 10x | 102 10x | 001 9x | 010 9x | 014 9x | 022 9x | 042 9x | 064 9x | 006 8x | 008 8x |
043 7x | 090 7x | 092 7x | 095 7x | 108 7x | 111 7x | 017 6x | 049 6x | 079 6x | 098 6x | 109 6x | 007 5x |
018 5x | 050 5x | 066 5x | 073 5x | 074 5x | 080 5x | 089 5x | 011 4x | 033 4x | 084 4x | 088 4x | 093 4x |
105 4x | 120 4x | 025 3x | 045 3x | 054 3x | 069 3x | 005 2x | 015 2x | 016 2x | 027 2x | 028 2x | 030 2x |
041 2x | 046 2x | 047 2x | 051 2x | 065 2x | 070 2x | 071 2x | 075 2x | 081 2x | 085 2x | 096 2x | 099 2x |
104 2x | 115 2x | 117 2x | 118 2x | 004 1x | 021 1x | 023 1x | 024 1x | 026 1x | 037 1x | 039 1x | 040 1x |
052 1x | 053 1x | 056 1x | 057 1x | 058 1x | 059 1x | 060 1x | 076 1x | 077 1x | 078 1x | 082 1x | 100 1x |
Für die "Kompliziert = Blender"-Theorie spricht, dass unter den 1x-Symbolen doch alle recht komplex sind, evtl. außer 037 (Pfeil nach unten), 052 (Doppeldreieck), 078 (Kreis mit Strich), 082 (!) und 100 (Y).
Allerdings ist das mit 25x recht häufig vorkommende Zeihen 031 (gespickte Kastanie) oder das 22x vorkommende Symbol 044 ([xyz]) doch recht komplex zu schreiben, aber dennoch häufig.
Dennoch glaube ich, ein gewisses Gefälle beobachten zu können: je weiter hinten ein Symbol in der Tabelle steht (je selten es vorkommt), desto komplexer ist sein Aussehen und desto aufwändiger ist es zu schreiben.
Brainstormen und Spekulieren
Ich glaube wir sind an einem Punkt angekommen, an dem eine zeitnahere Kommunikation unter den Interessierten sinnvoll wird. Ich werde mich mal umschauen, was es da für Möglichkeiten gibt und dann hier posten, was es geworden ist. Ein Discord-Channel, ein Reddit oder dergleichen. Text-Chat und Bild-Posting sollte auf jeden Fall möglich sein. Superübersichtlich muss es nicht sein, Hauptsache man kommt ins Gespräch. Die Quintessenz der Gespräche auf der noch zu findenen Plattform werde ich dann sowieso bloggen.Wenn ich was adäquates aufgetan habe, werde ich hier den Link posten. Dann können wir zusammen spekulieren. Auch interessant mich zum Beispiel, was die Schriftexperten meinen, wieviele Personen an den bisher eingegangenen Karten gearbeitet haben (gleiches Symbol und unterschiedliche Schreibweise).
Discord Server online
Ich habe mich für einen Discord-Server entschieden, weil dort zum Beispiel auch Voice-Chats möglich sind. Eine Runde fachsimplen per Echtsprache könnte witzig und hilfreich sein.Zum Chat Via Discord geht es hier lang
Der Chat funktioniert mit jedem Web-Browser. Es gibt aber auch Apps, die vielleicht noch komfortabler sind, besonders fürs Smartphone.