../icons/Logo.pngPraktische Elektronik

Wie funktioniert MP3?

Eine Erklärung der Verfahren hinter MP3

  • die bei den Grundprinzipien beginnt
  • die nicht oberflächlich technischen Schnick-Schnack bejubelt,
  • die auf Mathematik verzichtet und
  • die dennoch das Prinzip des zugrundeliegenden mathematischen Verfahrens vermittelt

Wussten Sie

  • dass bei MP3 die wesentliche Reduktion der Daten nicht auf deren Kompression beruht?
  • dass der Aufzeichnung von Musik auf CD und MP3 völlig andere Prinzipien zugrunde liegen?
  • dass Noten eine Spektraldarstellung von Musik sind?
  • dass eine Drehorgel ein mechanischer MP3-Player ist?
  • dass Sie, ja Sie persönlich, Musik aufzeichnen können - ohne Technik?
  • dass man MP3 langsamer abspielen kann, ohne dass sich der Klang stark ändert?
  • dass MP3 Kopfarbeit maschinisiert: automatisiert?
Attention sticker

Bitte um Unterstützung

Diese Beschreibung des MP3-Verfahrens wendet sich an alle, die mit Mathematik und Technik nicht viel anfangen können oder wollen.

Es ist der Versuch, MP3 ohne Mathematik zu erklären.

Das ist kein simples Unterfangen, sonst gäbe es sie längst bei Wikipedia.

Die folgende Darstellung lässt sich sicherlich verbessern.

Der Autor bittet Sie, ihm Anregungen und Kritik per C_mail hkuhlmann@dr-k.de mitzuteilen.

Musik aufzeichnen und wiedergeben

Jeder von uns wendet es an: Musik, die als Aufzeichnung aus dem Internet übertragen wird.

Manche von uns wissen, dass die Qualität der Wiedergabe an die von CDs heranreicht, aber nur etwa ein Zehntel der Datenmenge benötigt wird.

Hinter diesem Verfahren steht die Erfahrung und Praxis vieler Musiker. Drin steckt auch viel Mathematik. Mathematik, die oft als Selbstzweck verstanden wird, und damit die zugrundeliegenden Verfahren verschleiert.

Hier wird versucht, auf Mathematik, Formeln, Rechnen usw. zu verzichten, aber dennoch ein Verständnis des Vorgehens zu vermitteln.

Auf der anderen Seite ist dieses Verfahren ein gutes Beispiel, wie Techniken, die wir alle beherrschen, automatisiert werden.

Wir gehen von unseren Fähigkeiten, Musik zu "aufzuzeichnen", aus und betrachten, wie wir Menschen im Laufe der Zeit neue Verfahren entwickelt haben.

Musik memorieren

Schon damals, als die Menschen noch keine Schrift kannten, waren sie in der Lage, Musik zu memorieren. Dieses Verfahren beherrschen wir alle. Wir hören ein Musikstück und speichern es in unserem Gedächtnis. Einige der Stücke können wir mit unserer Stimme oder mithilfe von Instrumenten wiedergeben.

Natürlich sind nur wenige von uns in der Lage, umfangreiche Musikstücke mit Stimme und Instrumenten aus dem Gedächtnis wiederzugeben. Einige Virtuosen bewundern und verehren wir ob ihrer Fähigkeiten.

Interessant ist in unserem Zusammenhang, dass wir ohne weiteres erkennen, ob ein Musikstück auf einem anderen Instrument oder von einem anderen Interpreten wiedergegeben wird. Für uns ist es selbstverständlich, dass jede Wiedergabe anders klingt und in Nuancen abweicht. Ein Musikstück wird interpretiert.

Musik aufschreiben

Wir kennen ein weiteres Verfahren, Musik aufzuzeichnen. Es ist etliche Jahrhunderte alt. Musik wird in Noten beschrieben. Einige von uns sind in der Lage, in Noten aufgezeichnete Musik zu spielen. Of wird dieses von mehreren Menschen gleichzeitig durchgeführt. Es ist für uns nichts besonderes.

Nur wenige von uns sind in der Lage, ein gehörtes Musikstück in Noten zu übersetzen. So schnell kann niemand schreiben. Diejenigen, die es beherrschen, schalten einen Speicher dazwischen, ihr Gehirn. Sie memorieren ein Musikstück und schreiben es danach nieder.

Attention pin

Mozarts Diebstahl

Das Miserere von Gregorio Allegri durfte bis 1770 nur zu Ostern in der Sixtinischen Kapelle aufgeführt werden. Das Abschreiben der Noten war von Pabst bei Strafe verboten.

Der vierzehnjährige Mozart hörte das Stück nur einmal und schrieb es danach aus dem Gedächtnis auf.

Technologie der Noten

Wir betrachten die Notation von Musik aus einer technischen Perspektive und beschreiben sie mit deren Begriffen.

Spektraldarstellung

Manche von uns haben den Begriff Spektrum oder Spektraldarstellung gehört. Die meisten können damit wenig anfangen.

Nun ja, Noten sind die Spektraldarstellung von Musik.

Es gibt auch die Zeitdarstellung von Musik.

Die Zeitdarstellung von Musik ist ein hochtrabender Begriff für etwas triviales, nämlich Musik, die gespielt wird, die wir hören. Die Musik läuft über die Zeit ab.

Jemand, der ein Musikstück nach Noten spielt, transformiert die Spektraldarstellung eines Musikstücks in die Zeitdarstellung.

Transformation

Betrachten wir den Vorgang der Transformation von Noten in die Zeitdarstellung etwas näher.

Noten haben eine bestimmte Tonhöhe (Linie) und eine Dauer (ganze, halbe ...) Der Musiker spielt die Note entsprechend.

Meistens sind mehrere Noten gleichzeitig zu spielen (Akkorde auf dem Instrument).

Es ist auch angegeben, wie laut zu spielen ist.

Das ist noch nicht alles. Es wird angegeben, auf welchem Instrument das Musikstück zu spielen ist. Oft sind mehrere oder gar viele Instrumente beteiligt.

Fassen wir das Ganze einmal systematisch zusammen. In den Noten haben wir notiert:

  • die Tonhöhe (Frequenz)
  • die Dauer
  • die Lautstärke, Dynamik (Amplitude)
  • Einen Satz von Instrumenten (Klängen)

Aus diesem kann das notierte Musikstück rekonstruiert, d.h. gespielt werden.

Musik im Zeitbereich

Klar, wir alle kennen Musik im Zeitbereich, wir hören Musik. An dieser Stelle gehen wir dem etwas mehr auf den Grund.

Moderne Media-Player liefern Bilder, die die aktuelle Musik widerspiegeln. Sie sehen manchmal

Huellkurve.png
Bild 1: Audio-Darstellung

so oder

Schwingungen.png
Bild 2: Alternative Audio-Darstellung

so ähnlich aus. Meistens zappeln sie im Rhythmus der Musik. Sie geben die Schwingungen der Musik wieder. Wir hören die Schwingungen der Luft. Wummernde Bässe fühlen wir gar.

Diese Schwingungen sind kompliziert und für uns nicht nachvollziehbar. Um eine Ahnung von dem Ganzen zu bekommen, sehen wir uns ein einfaches Instrument an, die Blockflöte. Sie hat einen klaren Klang. Die Schwingungen, die mit einer Blockflöte erzeugt werden, sind einfach.

Die Schwingungen einer Blockflöte sehen in etwa

sin880.png
Bild 3: Schwingungen einer Blockflöte

Die Flöte spielt a¹

so oder eine Oktave tiefer

sin440.png
Bild 3: Blockflöte eine Oktave tiefer

Die Flöte spielt a

so aus. Relativ einfach.

Noten

Wir haben Noten auf eine Weise betrachtet, die der üblichen Verwendung teilweise widerspricht. Meistens wird Musik komponiert und dann nach Noten wiedergegeben.

Es wird nicht nur die Folge der Noten erstellt, sondern auch welche Instrumente und Töne (Tasten, Saiten) gleichzeitig zu spielen sind.

Musik mechanisieren

Klänge konstruieren

Vor einigen Jahrhunderten kamen pfiffige Musiker auf die Idee, ein Instrument zu bauen, das die Klänge aller - vieler - Instrumente erzeugen können sollte.

Es waren riesige Maschinen, die wir noch heute bewundern und hören können - Orgeln. Eine Orgel besteht aus einer Unmenge von Pfeifen. Jede einzelne Pfeife klingt ziemlich simpel. Sie erzeugt einen Ton, der dem einer Blockflöte entspricht. Eine Orgel erhält ihren Klang, indem für jeden gespielten Ton eine ganze Reihe von Orgelpfeifen gleichzeitig erklingen.

Ein bestimmter Klang wird synthetisch durch das gemeinsame Erklingen von Pfeifen erzeugt. Die Zusammenstellung der Pfeifen erfolgt in Registern.

Musik automatisch wiedergeben

Wir kennen kleine Musikautomaten - Spieluhren. Ein Federwerk treibt eine Walze auf der kleine Stifte angeordnet sind. Jeder Stift stößt eine Zunge an, die in einer bestimmten Tonhöhe erklingt.

Jede Zunge entspricht einer Tonhöhe, einer Linie auf dem Notenblatt. Jeder Stift entspricht einer Note auf dieser Linie.

Derartige Musikautomaten wurden um 1900 in vielen Formen entwickelt. Beliebt sind immer noch Glockenspiele.

Aus unserem technischen Blickwinkel wird das Spektrum von Musik nicht mehr in Noten dargestellt, sondern mechanisch. Die Automaten unterscheiden sich durch den Klang der zugrundeliegenden Tonerzeugung, Zungen oder Glocken.

Drehorgeln fassen die mechanische Darstellung des Spektrums eines Musikstücks mit der Synthese von Klängen zusammen. Etwas komplexer sind Jahrmarkt-Orgeln.

Musik aufzeichnen

Wir betrachten an dieser Stelle, wie Musik aufgezeichnet und wiedergegeben werden kann.

Menschen memorieren Musik und spielen sie.

Aber wir können wir das automatisieren?

Musik im Spektralbereich aufzeichnen

Die Technik der Konstruktion und automatischen Wiedergabe von Musik ist ziemlich vollständig. Mit der Drehorgel konnte beides mechanisiert werden. Ein wesentlicher Schritt zur vollständigen automatischen Aufzeichnung und Wiedergabe von Musik fehlt allerdings. Die Transformation aus dem Zeitbereich in den Spektralbereich. Um es klar zu sagen, es fehlt ein Apparat, der die Stifte auf der Walze der Orgel generiert.

Dieses ist Menschen vorbehalten.

Musik im Zeitbereich aufzeichnen

Die zuvor beschriebene automatische Wiedergabe von Musik beruht auf dem Abspielen von Noten. Sie beruht technisch gesprochen auf der Transformation aus dem Spektralbereich in den Zeitbereich. Sie hat den Nachteil, dass sie nur einen begrenzten Bereich von Klängen erzeugen kann. Die Klänge sind durch die zugrundeliegende Tonerzeugung vorgegeben.

Wir wenden uns jetzt der Wiedergabe von Musik zu, die nur im Zeitbereich liegt und die Klänge nicht beschränkt.

Das kling hoch technisch, aber wir kennen diese Technik. Wir werden uns mit Schallplatten beschäftigen.

Wir haben uns unter "Musik im Zeitbereich" mit den zugrundeliegenden Schwingungen beschäftigt. Anfang des 20. Jahrhunderts ist es gelungen, diese Schwingungen mechanisch aufzuzeichnen und wiederzugeben. Bis 1980 war die Aufzeichnung im Zeitbereich die Technologie. Inzwischen werden die mechanischen Schwingungen in elektrische gewandelt und per Lautsprecher wieder in mechanische. Es wurde nicht nur auf Schallplatten mechanisch, sondern auch auf Tonbändern magnetisch aufgezeichnet.

Musik im Zeitbereich digital aufzeichnen

Aber dann begann das digitale Zeitalter mit der CD.

Die CD ist unter dem Aspekt der Technologie eine Aufzeichnung im Zeitbereich. Die Ausschläge der Schwingungen werden in eine Folge digitaler Werte gewandelt, auf die CD gebrannt und mit dem CD-Player per Lautsprecher wieder in Schwingungen gewandelt. Keine Transformation in oder aus dem Spektralbereich. Der technische Fortschritt lag darin, dass sehr schnelle und sehr genaue Wander verfügbar waren, die die "analogen" Schwingung in eine Folge digitaler Werte wandeln konnten. Und natürlich die CD als digitaler Speicher.

Auf dem Computer gibt es Dateien, die Musik im Zeitbereich in digitaler Form abspeichern. Es sind Dateien im WAV-Format.

Die Daten einer WAV-Datei können mit mathematischen Tricks komprimiert werden. Damit kann eine WAV-Datei auf etwa die Hälfte reduziert werden. MP3 bringt es auf ein Zehntel.

Die CD ist eine riesige Verschwendung von Ressourcen. Für ein Konzert von einer Stunde wird eine CD benötigt. Wie viele Noten umfangreicher Sinfonien können wir dagegen auf einer CD abspeichern?

Um Musik aufzuzeichnen, ist die Menge der Daten für den Zeitbereich wesentlich größer als die Menge der Daten aus dem Spektralbereich also per Noten.

Musik transformieren

Wir haben bemerkt, dass für die Aufzeichnung von Musik im Spektralbereich weniger Daten benötigt werden. Andererseits ist die automatische Transformation aus dem Spektralbereich in den Zeitbereich zwar möglich aber nur unzureichend, weil der Bereich der Klänge ziemlich eingeschränkt ist.

Wie die automatische Transformation aus dem Zeitbereich in den Spektralbereich erfolgen kann, können wir uns nicht einmal vorstellen.

Wir konzentrieren uns zunächst auf die Wandlung vom Spektralbereich in den Zeitbereich.

Wir benötigen

  • die Tonhöhe (Frequenz)
  • die Dauer
  • die Lautstärke, Dynamik (Amplitude)
  • Einen Satz von Instrumenten (Klängen)

Das größte Problem sind die Instrumente. Jedes Instrument hat seinen eigenen charakteristischen Klang. Wir können unmöglich alle denkbaren Instrumente vorsehen.

Die Orgelbauer haben uns den Weg gezeigt. Wir brauchen nur Pfeifen, die wir für jeden Klang entsprechend kombinieren. Jede wird mit der passenden Lautstärke und Dauer angespielt. Mit einem Computer könnte uns das gelingen.

Jetzt stehen wir allerdings vor dem ungemein höheren Problem, die Noten für die Pfeifen zu finden. Wir müssen die Musik aus dem Zeitbereich in den Spektralbereich transformieren und da haben wir bisher außer dem Hinweis auf Genies wie Mozart keinen Fingerzeig bekommen.

Aber es gibt Mathematiker. Der französische Mathematiker Fourier hat um 1820 ein Verfahren entwickelt, mit dem eine Transformation aus dem Zeitbereich in den Spektralbereich und wieder zurück möglich ist. Der Satz der zugrundeliegenden Instrumente waren Pfeifen.

Na ja, ganz so war es nicht. Er verwendete relativ einfache mathematische Funktionen, die den Schwingungen von Pfeifen entsprechen. Für diejenigen, die mit Fachbegriffen angeben wollen: es sind Sinus- und Kosinus-Funktionen.

Zu Ehren Fouriers werden diese Transformationen Fourier-Transformationen genannt.

Leider sind die Fourier-Transformationen mathematisch derartig aufwendig, dass Fourier in seinem ganzen Leben kaum ein einfaches Liedchen in den Spektralbereich hätte transformieren können.

Noten- und Fourier-Spektrum

An dieser Stelle betrachten wir, wie die Spektraldarstellung durch Noten und Fourier aussehen. Schließlich werden wir den Zusammenhang von Spektral- und Zeitdarstellung betrachten.

Noten-einfach.png
Bild 4: Übliche Darstellung mit Noten

Die Notenschreibweise ist für die Darstellung eines Fourier-Spektrum zu kompliziert. Durch Vorzeichen werden z.B, Notenlinien Halbtöne zugeordnet. Aber die Klaviatur eines Klaviers ist eine gute Darstellung, um Halbtöne einordnen zu können.

KlaviaturMitNoten_s.png
Bild 5: Notation des Klaviers

Urheber von Bild 5: Phillip Kuhrt (Original by Sergey Pushkin) Wikipedia

Bild 5 zeigt, dass ein Klavier mehrere Oktaven umfasst. Eine Oktave umfasst acht Töne. Aber die Musiker schummeln: das Klavier hat zwölf Töne in einer Oktave, nämlich zusätzlich vier Halbtöne. Ein Klavier hat auch zwölf Saiten pro Oktave.

Technisch gesehen, müssen mehrere Oktaven mit zwölf Tonhöhen für das Spektrum dargestellt werden.

Oktave.png
Bild 6: Drei Oktaven mit je zwölf Tönen

Das Spektrum wird nicht wie Noten mit Tönen, die zur gleichen Zeit gespielt werden, untereinander dargestellt, sondern nebeneinander. In Bild 6 sind drei Oktaven mit je zwölf Tönen dargestellt.

Spektrum.png
Bild 7: Drei Spektren

Das obere Spektrum in Bild 7 enthält nur einen Ton. Das mittlere drei Töne, die jeweils eine Oktave höher liegen. Die Länge des Strichs gibt an, wie laut der Ton zu spielen ist. Im unteren Spektrum sind die Töne der oberen Oktaven leiser.

Betrachten wir die zugehörigen Zeitdarstellungen.

sin440.png
Bild 8: Zeitdarstellung des oberen Spektrums

Eine Flöte spielt a

Mit dem oberen Spektrum wird nur ein Ton mit dem Klang einer Blockflöte erzeugt.

sin440_3okt.png
Bild 9: Zeitdarstellung des mittleren Spektrums

Drei Flöten spielen a, a¹ und a²

Der erklingende Ton des mittleren Spektrums klingt nicht wie eine Blockflöte, vielmehr wie drei Blockflöten, die jeweils eine Oktave höher gespielt werden.

sin440_3okt_drei.png
Bild 10: Zeitdarstellung des unteren Spektrums

Drei Flöten spielen a, a¹ und a² jeweils leiser

Das untere Spektrum klingt wiederum anders. Es ist allerdings schwierig, die Blockflöten jeweils leiser zu spielen.

Diese drei Spektren zeigen, wie mit den Tönen von Flöten Klänge erschaffen werden können. Sie werden von uns als schön empfunden: harmonische Töne.

Betrachten wir Klänge, die weniger harmonisch sind.

sin440_kons.png
Bild 11: konsonanter Klang

Konsonanter Klang

Die Zeitdarstellung dieser Töne sieht kompliziert aus.

Konsonantes_Spektrum.png
Bild 12: Spektrum eines konsonanten Klangs

Das Spektrum besteht nur aus zwei Tönen, die allerdings in der gleichen Oktave liegen.

Eine Dissonanz besteht auch nur aus zwei Tönen, die aber zu nahe beieinander liegen.

Dissonantes_Spektrum.png
Bild 13: Spektrum eines dissonaten Klangs

In der Zeitdarstellung

sin440_diss.png
Bild 14: Zeitdarstellung eines dissonanten Klangs

Die Zeitdarstellung dieses dissonanten Klangs sieht besser aus als die des konsonanten in Bild 11. Wir sehen eine Schwingung der Schwingungen. Techniker nennen es Schwebung.

Dissonanter Klang

Aber Hören mögen wir dieses Wimmern gar nicht.

Die Beispiele zeigen, dass mit einfachen Spektren komplexe Töne im Zeitbereich beschrieben werden können.

Fourier-Transformation von Musik

Heute haben wir leistungsfähige Rechenknechte, die Computer, die eine Fourier-Transformation mit Links durchführen. Sie benötigen die zu transformierende Musik allerdings in digitaler Form. Die liegt uns seit dem Zeitalter der CD vor. In diesem Zusammenhang ist interessant, dass die Transformation aus dem Zeitbereich in den Spektralbereich wesentlich aufwändiger ist als zurück in den Zeitbereich. Ein dicker Computer erledigt die Wandlung in den Spektralbereich, das Ergebnis wird gespeichert und vielfach kopiert. Einfache Maschinen erledigen das Abspielen - unsere Player.

Transformation moderner Musik und Sprache

Leider ist die Menge der Daten im Spektralbereich nicht immer geringer als im Zeitbereich. Vor allem Sprache und Geräusche bereiten Probleme.

  • Im Prinzip stellt sich die Frage: Wie können wir Sprache und Geräusche mit Noten beschreiben?

Transformation von Sprache in den Spektralbereich.

Einigen von uns schwant, das ist etwas, das wir alle beherrschen.

Natürlich, die Wandlung von Sprache in den Spektralbereich ist Schreiben und zurück in den Zeitbereich Lesen.

Die Automatisierung von Vorlesen und Hören wird über eine Zwischentransformation bewältigt.

Die technologische Darstellung des Spektrums sind nicht etwa Buchstaben, sondern Phoneme. Die automatische Erkennung und Erzeugung von Sprache beruht auf Phonemen.

Wir kennen die Noten der Sprache: Buchstaben. Damit ist die Aussprache nur ungenügend beschrieben. Besser ist die Lautschrift: [ˈlaʊ̯tʃrɪft]. Das sind im Prinzip die Phoneme.

Ein Text wird in eine Folge von Phonemen gewandelt und diese "gesprochen".

Beim Hören werden Phoneme erkannt und in Text gewandelt.

Der schwierigste Teil ist allerdings, die Bedeutung des Textes zu erkennen. Das überlassen wir künstlicher Intelligenz oder Dummheit.

Bei Sprache, aber auch bei moderner Musik kommen Klänge mit komplexen Spektren vor.

Rausch_Spektrum.png
Bild 15: Spektrum von Rauschen

Das eigenartige Spektrum in Bild 15 enthält nicht nur alle Töne der drei Oktaven, sondern auch alle möglichen zwischen diesen. Der graue Balken ist das Spektrum. Es ist das Spektrum von Rauschen, dem Sch der Sprache.

rauschen.png
Bild 16: Zeitdarstellung von Rauschen

Rauschen

Die Zeitdarstellung des Rauschens ist schlimmer als Chaos.

In der Musik haben wir es oft mit einem Gemisch von Tönen (nach Noten) aber auch mit Geräuschen zu tun. Ein Becken wird geschlagen oder eine Raschel betätigt. Wir betrachten hier stellvertretend Töne in einem Rauschen.

Rausch_Toene_Spektrum.png
Bild 17: Spektrum mit Tönen und Rauschen

Das Spektrum von Rauschen sind nicht mehr einzelne Linien (Noten), sondern das Spektrum ist über alle Töne (Frequenzen) verteilt.

sin440_3okt_drei_rausch.png
Bild 18: Rauschen und Töne

Rauschen und Töne

Wenn vor dem Rauschen noch Töne gespielt werden, überlagern sich die Spektren. In der Zeitdarstellung ist es ähnlich.

  • Das Spektrum von Musik mit Rauschen umfasst nicht nur wenige Noten sondern ist genauso umfangreich und komplex wie die Musik in der Zeitdarstellung.
  • Der Vorteil, mit wenigen Daten komplexe Klänge darstellen zu können, ist für Rauschen hinfällig:

Das Spektrum umfasst genauso viele Daten wie die Zeitdarstellung.

Das Rauschen in den Griff bekommen

Ab 1982 beschäftigten sich Forscher am Fraunhofer-Institut in Erlangen mit diesem Problem.

Zunächst wird eine Fourier-Transformation durchgeführt. Das Ergebnis ist z.B. ein Spektrum in der Art von Bild 17.

Der Bereich um jede Note wird einfach der Note (Notenline) zugeordnet, in ihr zusammengefasst, verdichtet.

Rausch_Toene_Spektrum_verdichtet.png
Bild 19: Spektrum mit Tönen und verdichtetem Rauschen

Bild 19 ist das verdichtete Spektrum von Bild 17. Für das Rauschen wurden in der Nähe liegende Töne eingesetzt (blau). An den Stellen wo ein Ton im Spektrum von Bild 17 lag, wurde das Rauschen ignoriert.

Wir können es uns so vorstellen, als würden auf einem Klavier alle Tasten gleichzeitig angeschlagen und auf einem zweiten drei Töne lauter. Das ist natürlich kein perfektes Rauschen, kommt dem aber sehr nahe.

Das nächste Hörbeispiel besteht den zwölf Tönen einer Oktave. Es klingt fürchterlich aber Rauschen ist erkennbar.

Rauschen mit den zwölf Tönen einer Oktave

Wenn wir mehr Oktaven nehmen, kommen wir dem Rauschen schon sehr nahe.

Rauschen mit den sechzig Tönen von fünf Oktaven

Menschen hören ungenau

Die Forscher in Erlangen nutzen aus, dass wir Menschen nicht beliebig genau hören können.

  • Welche Töne können wir noch unterscheiden?
  • Wie laut muss ein Ton sein, damit wir ihn noch wahrnehmen?
  • Welche Tonhöhen können wir hören?

Es stellt sich heraus, dass wir in einer Oktave wesentlich mehr Töne unterscheiden können, als die zwölf Noten-Töne einer Oktave. Aber mehr als 50 Töne einer Oktave können wir nicht unterscheiden, oft sind es weniger.

Bei MP3 werden zwischen den normalen Noten noch zusätzliche Töne für das Rauschen eingestreut. Der von MP3 betrachte Bereich der Töne umfasst etwa zehn Oktaven. Das sind 120 verschiedene Noten. MP3 unterscheidet 576 Töne. Tatsächlich werden Noten zugeordneten Töne nicht gesondert betrachtet.

Unsere Fähigkeiten bzw. Unfähikeiten des Wahrnehmens von Musik, Sprache und Geräuschen wird durch ein psychoakustisches Modell beschrieben. Insbesondere die Unfähigkeiten werden verwendet, um nicht Wahrnehmbares zu vernachlässigen.

Audio-Tricks

Vor der Wandlung digitaler Audio-Daten (z.B. von der CD) können diese Daten noch bearbeitet werden, um sie für die nachfolgende Fourier-Transformation vorzubereiten. Dadurch wird einerseits eine gewisse Reduktion der Daten bewirkt und andererseits Verzerrungen verringert.

Witzigerweise werden diese Tricks von einigen als der große Unterschied bei verschiedenen Kodierverfahren dargestellt. Diese Tricks werden im Zeitbereich angewandt. Die wesentlichen Tricks werden jedoch im Spektralbereich vorgenommen: Welche Noten ignorieren wir?

Mathematische Tricks

Ein Übriges leisten mathematische Tricks, die z.B. darauf beruhen, zu vermerken, dass einige Zahlen häufiger vorkommen (Jetzt folgt 12 mal 176448).

Ein weiterer Trick ist eigentlich ein alter Hut. Bereits seit 1865 gibt es den Morse-Code. ( Siehe https://de.wikipedia.org/wiki/Morsezeichen#Standard-Codetabelle ).

   da da   da da da   di da di   di

In dem Code werden Buchstaben ein Folge von kurz-lang Zeichen zugeordnet. Die Anzahl der Zeichen pro Buchstaben variiert von 1 bis 4. Dem sehr häufig benutzten Buchstaben E wird nur ein Zeichen di zugeordnet, T ist da. Das Y ist da-di-da-da. Dadurch wird Zeit/Platz gespart. Auf diesem Verfahren beruhen die bekannten Programme zum komprimieren von Daten, die sogenannten Zipper.

Durch ähnliche Codes kann die Menge der Daten für eine Musik-Datei weiter reduziert werden.

Würden diese Verfahren im Zeitbereich angewandt, könnten die Daten auf etwa die Hälfte reduziert werden. MP3 bringt es aufgrund der Fourier-Transformation auf ein Zehntel!

Die mathematischen Tricks werden bei MP3 auf die Daten im Spektralbereich angewandt. Bei MP3 wird im Prinzip die Lautstärke jedes der 576 möglichen Töne / Noten gezippt.

All dieses setzt leistungsfähige Computer voraus - bei der Transformation in den Spektralbereich. Die Transformation aus dem Spektral- in den Zeitbereich ist dagegen relativ einfach. Die MP3-Player sind klein und handlich.

Unzulänglichkeiten von MP3

Bei der Zusammenfassung von ähnlichen Tönen ist man bei den ersten MP3-Verfahren relativ rigoros vorgegangen. Die meisten von uns bemerken nichts. Manche Musiker mit geschultem Gehör können diese Abweichungen bemerken. Die meisten Probleme bereitet die Wiedergabe von Sprache und Geräuschen. Inzwischen gibt es Verfahren, die wesentlich bessere Ergebnisse liefern. Sie unterscheiden sich hauptsächlich darin, wie und welche Daten aus dem Spektrum der 576 Töne/Noten ignoriert werden.

Musik langsam abspielen

Für einen Musiker ist es kein Problem, ein Musikstück langsamer abzuspielen. Jede Note erklingt länger. Das Musikstück klingt für den Zuhörer gleich, nur langsamer.

Wenn allerdings ein Musikstück, das im Zeitbereich aufgezeichnet wurde, langsamer abgespielt wird, ändert sich nicht nur die Dauer der einzelnen Tonsequenzen, sondern auch der Klang. Alle Töne klingen tiefer. Die Musik erklingt in Zeitlupe.

Bei MP3 handelt es sich wie beim Spielen nach Noten um eine Transformation aus dem Spektralbereich in den Zeitbereich. Der Klang eines Musikstücks ändert sich nicht (sehr), wenn es langsamer abgespielt wird.

Attention pin

Time-Stretching

Moderne Player sind in der Lage, auch WAV-Dateien und CDs langsam abzuspielen ohne den Klang bzw. die Tonhöhe wesentlich zu verändern.

Das Verfahren beruht auf Fouriertransformation und nennt sich Time-Stretching.

Zunächst wird aus dem Zeitbereich in den Spektralbereich transformiert. Bei der nachfolgenden Transformation aus dem Spektralbereich in den Zeitbereich werden einfach alle Töne/Noten länger gespielt.

Im folgenden wird ein Ausschnitt zunächst mit normaler Geschwindigkeit und dann halb so schnell wiedergegeben.

Wow im Original

Wow mit 1/2 im Zeitbereich

Wow mit 1/2 im Spektralbereich (Time-Stretching)

Zusammenfassung

  • Wir haben uns zunächst vielen von uns geläufigen Verfahren, Musik aufzuzeichnen, zugewandt und die zugrunde liegenden Prinzipien kennen gelernt.
  • Begriffe wie Spektral- und Zeitdarstellung wurden anhand von Beispielen erläutert.
  • Noten als Spektraldarstellung
  • Musik spielen als Zeitdarstellung
  • Ausgehend von der gängigen Spektraldarstellung von Musik, Noten, haben wir die technische, mathematische Darstellung betrachtet.
  • Die Spektraldarstellung von Musik ist meistens viel kompakter als die Zeitdarstellung.
  • Problematisch sind Sprache und Geräusche.
  • Bei MP3 werden ähnliche Bereiche des Spektrums zu einem Wert (Note) zusammengefasst.
  • Die historische Entwicklung der Aufzeichnung von Musik und die Intuition vieler Menschen wurden im MP3-Verfahren zusammengefasst.
  • Das MP3-Verfahren automatisiert die Kopfarbeit von Musikern und Mathematikern - modern: digitalisiert.