../icons/Logo.pngPraktische Elektronik


Ohne Mathematik und viel Technik wird MP3 erklärt.


list.png

Wie funktioniert MP3?


Wie funktioniert MP3?

  • Hier wird MP3 einfach, aber nicht simpel erklärt.
Attention idea

MP3

  • MP3 ist ein Verfahren zur komprimierten Speicherung von Audiosignalen.
  • Die Audiosignale werden sozusagen in Notenschrift übersetzt.
  • Für den Menschen unhörbare Töne werden in MP3 zusammengefasst oder weggelassen.
Attention >

Schlagworte

Im Internet werden zur Erklärung von MP3 immer wieder Schlagworte anstelle einer grundlegenden Erklärung verwendet z.B.

  • psychoakustische Effekte
  • Quantisierung
  • Huffman-Codierung

Diese Verfahren können jedoch erst nach Durchführung des grundlegenden Verfahrens, der Fourier-Transformation, angewandt werden.

Die Fourier-Transformation beruht auf Prinzipien, die wir alle kennen: Noten.

Im Folgenden wird die Fourier-Transformation einfach, nicht simpel, beschrieben.

Eine Erklärung der Methoden hinter MP3,

  • die bei den Grundlagen beginnt,
  • die ohne Mathematik auskommt, aber
  • dennoch das Prinzip der zugrunde liegenden mathematischen Verfahren vermittelt.
Attention question

Wussten Sie:

  • Dass die Aufzeichnung von Musik auf CD und MP3 auf unterschiedlichen Prinzipien beruht?
  • Dass Musik auf einer CD wie auf einer digitalen Schallplatte gespeichert wird?
  • Dass MP3 die Daten nicht durch Zippen reduziert?
  • Dass MP3-Daten sozusagen Musiknoten sind?
  • Dass eine Drehorgel ein mechanischer MP3-Player ist?
  • Dass MP3 Kopfarbeit maschinisiert: automatisiert (modern: digitalisiert)?

Musik aufzeichnen und wiedergeben

Jeder nutzt sie, die Musik aus dem Internet.

Die Qualität ist fast so gut wie bei CDs, aber es wird nur etwa ein Zehntel der Datenmenge benötigt.

Dahinter steckt die Erfahrung vieler Musiker und eine Menge Mathematik.

Hier wird erklärt, wie das Verfahren funktioniert, ohne dass man sich mit Mathematik, Formeln oder Berechnungen auseinandersetzen muss.

Das Verfahren zeigt, wie Techniken, die wir alle kennen, automatisiert werden.

Wir schauen uns an, wie wir im Laufe der Zeit neue Methoden entwickelt haben, um Musik "aufzuzeichnen".

Musik memorieren

Schon als die Menschen noch keine Schrift kannten, konnten sie sich Musik merken. Das können wir alle. Wir hören ein Musikstück und speichern es in unserem Gedächtnis. Manche Stücke können wir mit unserer Stimme oder mit Instrumenten wiedergeben.

Nur wenige von uns können lange Musikstücke auswendig spielen. Manche Virtuosen bewundern und verehren wir für ihr Können.

Wenn wir Musik hören, erkennen wir sofort, wenn sie auf einem anderen Instrument oder von jemand anderem gespielt wird. Wir wissen, dass jede Interpretation anders klingt.

Attention sticker

Musikkonserven

Heutzutage hören wir meistens Musik aus der Konserve. Bis auf den letzten Ton klingt alles gleich. Andererseits schätzen wir Live-Konzerte, weil die Musik dort interpretiert wird.

Musik aufschreiben

Wir kennen eine andere Art, Musik aufzuzeichnen. Sie ist Jahrhunderte alt. Man schreibt Musik in Noten auf. Manche von uns können Musik nach Noten spielen. Oft spielen mehrere gleichzeitig.

Niemand kann ein gespieltes Musikstück sofort aufschreiben. Diejenigen, die es können, merken sich ein Musikstück und schreiben es dann auf.

Attention pin

Mozarts Diebstahl

Das Miserere von Gregorio Allegri durfte bis 1770 nur zu Ostern in der Sixtinischen Kapelle aufgeführt werden. Das Abschreiben der Noten wurde vom Papst bei Strafe verboten.

Der vierzehnjährige Mozart hörte das Stück nur einmal. Danach schrieb er es aus dem Gedächtnis nieder.

Technologie der Noten

Wir betrachten die Notation von Musik aus technischer Sicht und beschreiben sie mit ihren Begriffen.

Spektraldarstellung

Einige von uns haben schon einmal den Begriff Spektrum oder Spektraldarstellung gehört. Die meisten können damit aber nichts anfangen.

Nun, Noten sind eine Art Spektraldarstellung von Musik.

Es gibt auch die Zeitdarstellung von Musik. Es geht einfach darum, dass Musik gespielt wird und wir sie hören. Die Musik läuft mit der Zeit ab.

Wenn jemand ein Musikstück nach Noten spielt, wandelt er die Spektraldarstellung in eine Zeitdarstellung um.

Transformation

Betrachten wir den Vorgang der Transformation von Noten in die Zeitdarstellung etwas genauer.

Noten haben eine bestimmte Tonhöhe (Linie) und eine bestimmte Dauer (ganze, halbe ...). Der Musiker spielt eine Note entsprechend.

Meistens müssen mehrere Noten gleichzeitig gespielt werden (Akkorde auf dem Instrument).

Es ist auch angegeben, wie laut man spielen soll.

Aber das ist noch nicht alles. Es wird angegeben, auf welchen Instrumenten das Musikstück gespielt werden soll.

Fassen wir das Ganze einmal systematisch zusammen. In den Noten steht:

  • die Tonhöhe (Frequenz)
  • die Dauer
  • die Lautstärke, die Dynamik (Amplitude)
  • den Satz von Instrumenten (Klängen)

Aus diesen Angaben kann das notierte Musikstück rekonstruiert, d.h. gespielt werden.

Musik im Zeitbereich

Natürlich kennen wir alle Musik im Zeitbereich, wir hören Musik. Jetzt gehen wie eir wenig ins Detail.

Moderne Mediaplayer zeigen Bilder, die die aktuelle Musik widerspiegeln. Manchmal sieht das so

Huellkurve.png
Bild 1: Audiodarstellung

oder so ähnlich

Schwingungen.png
Bild 2: Alternative Audiodarstellung

aus.

Sie geben die Schwingungen der Musik wieder. Die Bilder bewegen sich im Rhythmus der Musik. Sie zeigen, wie die Musik schwingt. Diese Schwingungen sind für uns kompliziert und unverständlich. Deshalb schauen wir uns ein einfaches Instrument an, die Blockflöte. Sie hat einen klaren Klang. Die Schwingungen, die eine Blockflöte erzeugt, sind einfach.

So sehen die Schwingungen einer Blockflöte aus:

sin880.png
Bild 3: Schwingungen einer Blockflöte

Die Flöte spielt a¹

Eine Oktave tiefer:

sin440.png
Bild 3: Blockflöte eine Oktave tiefer

Die Flöte spielt a

Relativ einfach.

Noten

Wir haben Noten in einer Art und Weise betrachtet, im Widerspruch zum üblichen Gebrauch steht. Normalerweise wird Musik zuerst komponiert und dann nach Noten gespielt.

Es wird festgelegt, welche Noten wann mit welchen Instrumenten gespielt werden sollen.

Musik mechanisieren

Klänge konstruieren

Vor einigen Jahrhunderten kamen kluge Musiker auf die Idee, ein Instrument zu bauen, das die Klänge vieler Instrumente erzeugen konnte.

Es waren riesige Maschinen, die wir heute noch bewundern und hören können - Orgeln. Eine Orgel hat viele Pfeifen. Jede Pfeife hat einen ganz bestimmten Klang. Manche Pfeifen klingen wie Blockflöten. Andere Pfeifen klingen wie Streicher, Trompeten, Posaunen oder Klarinetten. Eine Orgel erzeugt Klänge, indem sie für jeden gespielten Ton eine ganze Reihe von Orgelpfeifen gleichzeitig zum Klingen bringt. Kombinationen von Pfeifen werden zu Registern zusammengefasst. Diese Register können wiederum miteinander kombiniert werden

Ein bestimmter Klang wird synthetisch erzeugt, indem Pfeifen gemeinsam zum Klingen gebracht werden.

Musik automatisch wiedergeben

Wir kennen kleine Musikautomaten - Spieluhren. Ein Federwerk treibt eine Walze an, auf der sich kleine Stifte befinden. Jeder Stift stößt eine Zunge an, die in einer bestimmten Tonhöhe klingt.

Jede Zunge entspricht einer Tonhöhe, einer Linie auf dem Notenblatt. Jeder Stift entspricht einer Note auf dieser Linie.

Solche Musikautomaten wurden um 1900 in verschiedenen Formen entwickelt. Beliebt sind auch heute noch Glockenspiele.

Technisch gesehen wird die Musik nicht mehr in Noten, sondern mechanisch dargestellt. Die Automaten unterscheiden sich durch den Klang des zugrunde liegenden Tonerzeugers, der Zungen oder Glocken.

Drehorgeln verbinden die mechanische Darstellung des Spektrums der Musik mit der Synthese von Klängen.

Attention >

Die Drehorgel

Eine Drehorgel ist die mechanische Variante eines MP3-Players.

Das Spektrum eines Musikstücks wird mechanisch mit einer Walze und Stiften dargestellt. Eine Reihe von Tönen (Pfeifen) wird gleichzeitig zum Klingen gebracht. Auf diese Weise werden Tonfolgen und Klänge erzeugt.

In der Drehorgel wird die Transformation von Musik aus dem Spektralbereich in den Zeitbereich mechanisiert.

Musik aufnehmen

Wir betrachten nun, wie Musik aufgenommen und wiedergegeben wird.

Menschen merken sich Musik und spielen sie ab.

Aber kann man das automatisieren?

Musik im Spektralbereich aufnehmen

Die Technik, Musik aufzunehmen und automatisch wiederzugeben, ist ziemlich ausgereift. Mit der Drehorgel wurde beides mechanisiert. Ein wesentlicher Schritt zur vollautomatischen Aufnahme und Wiedergabe von Musik fehlt jedoch noch. Die Transformation vom Zeit- in den Spektralbereich. Im Klartext: Es fehlt ein Gerät, das die Stifte der Orgelwalze erzeugt.

Aufnahme von Musik im Zeitbereich

Die zuvor beschriebene automatische Musikwiedergabe basiert auf der Wiedergabe von Noten. Technisch gesehen beruht sie auf einer Transformation vom Spektralbereich in den Zeitbereich. Sie hat den Nachteil, dass sie nur einen begrenzten Bereich von Klängen erzeugen kann. Die Klänge sind durch die zugrunde liegende Tonerzeugung vorgegeben.

Wir wenden uns nun der Musikwiedergabe zu, die sich nur im Zeitbereich bewegt und die Klänge nicht einschränkt.

Das klingt sehr technisch, aber wir kennen diese Technik. Wir werden uns mit Schallplatten beschäftigen.

Unter "Musik im Zeitbereich" haben wir uns mit den zugrunde liegenden Schwingungen beschäftigt. Zu Beginn des 20. Jahrhunderts gelang es, diese Schwingungen mechanisch aufzuzeichnen und wiederzugeben. Heute werden mechanische Schwingungen in elektrische Schwingungen und über Lautsprecher wieder zurück in mechanische Schwingungen umgewandelt.

Musik im Zeitbereich digital aufzeichnen

Die CD hat das digitale Zeitalter der Musik eingeläutet.

Technisch gesehen ist die CD eine Aufzeichnung im Zeitbereich. Die Schwingungen werden in eine Folge digitaler Werte umgewandelt, auf die CD gebrannt und mit dem CD-Player über Lautsprecher wieder in Schwingungen zurückverwandelt. Eine Transformation in den oder aus dem Spektralbereich findet nicht statt.

Der technische Fortschritt bestand darin, dass schnelle und sehr genaue Wandler zur Verfügung standen, die "analoge" Schwingungen in eine Folge digitaler Werte umwandeln konnten. Und natürlich die CD als digitales Speichermedium.

Auf dem Computer gibt es Dateien, die Musik im Zeitbereich in digitaler Form speichern. Das sind Dateien im WAV-Format.

Die Daten einer WAV-Datei können mit mathematischen Tricks komprimiert werden. Eine WAV-Datei kann durch Zippen auf etwa die Hälfte ihrer Größe reduziert werden. MP3 komprimiert auf ein Zehntel.

Die CD ist eine enorme Verschwendung von Ressourcen. Für ein einstündiges Konzert braucht man eine CD. Aber wie viele Sinfonien passen als Noten auf eine CD?

Um Musik aufzuzeichnen, ist die Datenmenge im Zeitbereich viel größer als die Datenmenge im Spektralbereich mit Noten.

Musik transformieren

Wir haben festgestellt, dass für die Aufnahme von Musik im Spektralbereich weniger Daten benötigt werden. Andererseits ist die automatische Transformation vom Spektralbereich in den Zeitbereich zwar möglich, aber nur unzureichend, da der Bereich der Klänge sehr begrenzt ist.

Wir können uns nicht einmal vorstellen, wie die automatische Transformation vom Zeitbereich in den Spektralbereich erfolgen soll.

Wir konzentrieren uns zunächst auf die Transformation vom Spektralbereich in den Zeitbereich.

Wir benötigen

  • die Tonhöhe (Frequenz),
  • die Dauer,
  • die Lautstärke, Dynamik (Amplitude) und
  • einen Satz von Instrumenten (Klängen).

Die Instrumente sind das größte Problem. Jedes Instrument hat seinen eigenen Klang. Es ist unmöglich, alle denkbaren Instrumente vorzusehen.

Die Orgelbauer haben es gezeigt. Alles, was wir brauchen, sind Pfeifen, die wir für jeden Klang entsprechend kombinieren.

Wenn es uns gelänge, jede Pfeife in der richtigen Lautstärke zu spielen, könnten wir fast jeden Klang erzeugen.

Das schaffen wir mit Computern. Das Ergebnis sind moderne elektronische Orgeln, Keyboards.

Aber jetzt stehen wir vor dem viel größeren Problem, die Noten für die Pfeifen zu finden. Wir müssen die Musik aus dem Zeitbereich in den Spektralbereich transformieren, und da haben wir bisher außer dem Verweis auf Genies wie Mozart noch nichts gefunden.

Der französische Mathematiker Fourier hat um 1820 ein Verfahren entwickelt, mit dem eine Transformation vom Zeitbereich in den Spektralbereich und umgekehrt möglich ist. Fouriers Transformation basiert auf einem Satz von Pfeifen.

Er benutzte relativ einfache mathematische Funktionen, die den Schwingungen der Pfeifen entsprechen. Es sind Sinus- und Kosinus-Funktionen.

Zu Ehren von Fourier werden diese Transformationen Fourier-Transformationen genannt.

Leider sind die Fourier-Transformationen mathematisch so kompliziert, dass Fourier es in seinem ganzen Leben nicht geschafft hätte, ein einfaches Lied in den Spektralbereich zu transformieren.

Attention pin

Fourier-Transformation

Die Fourier-Transformation ist ein mathematisches Verfahren, das auf Prinzipien beruht, die wir aus der Musik kennen:

  • Wir spielen Musik im Zeitbereich.
  • Noten sind das Spektrum der Musik.
  • Noten spielen ist
  • die Transformation vom Spektralbereich in den Zeitbereich.
  • Noten aufschreiben ist
  • die Transformation vom Zeitbereich in den Spektralbereich.

Noten- und Fourier-Spektrum

In diesem Abschnitt betrachten wir die Spektraldarstellung durch Noten und Fourier. Anschließend gehen wir auf den Zusammenhang zwischen Spektralbereich und Zeitdarstellung ein.

Noten-einfach.png
Bild 4: Übliche Darstellung mit Noten

Für die Darstellung eines Fourier-Spektrums ist die Notenschrift zu kompliziert. So werden z.B. den Notenlinien Halbtöne mit Vorzeichen zugeordnet. Die Tastatur eines Klaviers ist jedoch eine gute Darstellung, um Halbtöne zuordnen zu können.

KlaviaturMitNoten_s.png
Bild 5: Notation eines Klaviers

Urheber von Bild 5: Phillip Kuhrt (Original by Sergey Pushkin) Wikipedia

Bild 5 zeigt, dass ein Klavier mehrere Oktaven hat. Eine Oktave besteht aus acht Tönen. Aber die Musiker schummeln: Das Klavier hat zwölf Töne in einer Oktave, nämlich zusätzlich vier Halbtöne. Ein Klavier hat zwölf Saiten pro Oktave.

Technisch gesehen müssen für das Spektrum mehrere Oktaven mit zwölf Tonhöhen dargestellt werden.

Oktave.png
Bild 6: Drei Oktaven mit je zwölf Tönen

Das Spektrum wird nicht wie Noten mit gleichzeitig gespielten Tönen untereinander, sondern nebeneinander dargestellt. Bild 6 zeigt drei Oktaven mit je zwölf Tönen.

Spektrum.png
Bild 7: Drei Spektren

Das obere Spektrum in Bild 7 enthält nur einen Ton. Das mittlere enthält drei Töne, die jeweils eine Oktave höher liegen. Die Strichlänge gibt an, wie laut der Ton gespielt werden soll. Im unteren Spektrum sind die Töne in den höheren Oktaven leiser.

Sehen wir uns die entsprechenden Zeitdarstellungen an.

sin440.png
Bild 8: Zeitdarstellung des oberen Spektrums

Eine Flöte spielt a

Das obere Spektrum erzeugt nur einen Ton mit dem Klang einer Blockflöte.

sin440_3okt.png
Bild 9: Zeitdarstellung des mittleren Spektrums

Drei Flöten spielen a, a¹ und a²

Der Ton des mittleren Spektrums klingt nicht wie eine Blockflöte, sondern wie drei Blockflöten, die jeweils eine Oktave höher gespielt werden.

sin440_3okt_drei.png
Bild 10: Zeitdarstellung des unteren Spektrums

Drei Flöten spielen a, a¹ und a² jeweils leiser

Das untere Spektrum klingt wieder anders. Allerdings ist es schwierig, die Flöten jeweils leiser zu spielen.

Diese drei Spektren zeigen, wie wir mit den Tönen von Flöten Klänge erzeugen können. Wir empfinden sie als schön: harmonische Töne.

Schauen wir uns Klänge an, die weniger harmonisch sind.

sin440_kons.png
Bild 11: Konsonanter Klang

Konsonanter Klang

Die Zeitdarstellung dieser Töne sieht kompliziert aus.

Konsonantes_Spektrum.png
Bild 12: Spektrum eines konsonanten Klangs

Das Spektrum besteht nur aus zwei Tönen, die aber in derselben Oktave liegen.

Eine Dissonanz besteht aus zwei Tönen, die aber zu nahe beieinander liegen.

Dissonantes_Spektrum.png
Bild 13: Spektrum eines dissonanten Klangs

In der Zeitdarstellung:

sin440_diss.png
Bild 14: Zeitdarstellung eines dissonanten Klangs

Die Zeitdarstellung dieses dissonanten Klangs sieht besser aus als die des konsonanten Klangs in Bild 11. Wir sehen eine Schwingung von Schwingungen. Die Techniker nennen das Schwebung.

Dissonanter Klang

Wir mögen dieses Wimmern nicht.

Die Beispiele zeigen, dass man mit einfachen Spektren komplexe Klänge im Zeitbereich beschreiben kann.

Fourier-Transformation von Musik

Heute haben wir leistungsfähige Rechenknechte, die Computer, die eine Fourier-Transformation mit Leichtigkeit durchführen. Aber sie brauchen die zu transformierende Musik in digitaler Form. Diese steht uns seit dem Zeitalter der CD zur Verfügung. Interessant ist in diesem Zusammenhang, dass die Transformation vom Zeitbereich in den Spektralbereich wesentlich aufwendiger ist als zurück in den Zeitbereich. Die Transformation in den Spektralbereich übernimmt ein Computer, das Ergebnis wird gespeichert und mehrfach kopiert. Das Abspielen übernehmen einfache Maschinen - unsere Player.

Ein schönes Beispiel stammt aus der Wikipedia:

Yesterday_spectral_uncompressed_s.png
Bild 15: Die Spektraldarstellung des Liedes Yesterday (Urheber: Havelbaude)

Das Spektrum wird nicht wie bisher dargestellt, sondern die Frequenzen (Tonhöhen) werden vertikal (nach oben) dargestellt. Die Farbe kennzeichnet die Lautstärke: Gelb ist sehr laut, Violett sehr leise. In der Horizontalen wird das Spektrum des Liedes in der Zeit (h:mm:ss) dargestellt, d.h. wie das Lied abläuft.

Im Spektrum sind horizontale Linien zu sehen. Das sind die "Noten" des Liedes.

Spectroid.png

Die App Spectroid zeigt das Spektrum der aktuellen Geräuschkulisse auf dem Smartphone an. Spectroid gibt es z.B. bei Google Play.

Im oberen Teil wird das aktuelle Spektrum gelb dargestellt. Die lautesten Stellen sind rot dargestellt.

Im unteren Teil wird das Spektrum als Wasserfall über der Zeit dargestellt. Der Wasserfall entspricht der Spektraldarstellung in Bild 15, ist aber um 90° nach rechts gedreht. Die Zahlen links neben dem Wasserfall sind keine Zeitangaben, sondern beschreiben die Farben.

Im Wasserfall sind die "Noten" eines Klavierstücks gut zu erkennen. Gleichzeitig angeschlagene Töne sind erkennbar.

Im gelben Spektrum ist gut zu erkennen, dass reale Spektren nicht wie oben beschrieben aussehen, sondern verschmiert sind und Rauschen enthalten. Die Spitzen des Spektrums sind die Linien in unserer Darstellung.

Wir können die Wirkung leicht untersuchen:

Einen Ton pfeifen. Das ergibt eine Spitze im Spektrum und eine Linie im Wasserfall.
Einen Ton singen. Das ergibt mehrere Spitzen im Spektrum und mehrere Linien im Wasserfall. Das sind die harmonischen Linien der Stimme.
Zischen. Es gibt keine klaren Linien, sondern ein verschwommenes Spektrum, ein Rauschen.

Transformation moderner Musik und Sprache

Leider ist die Datenmenge im Spektralbereich nicht immer geringer als im Zeitbereich. Besonders problematisch sind Sprache und Geräusche.

  • Grundsätzlich stellt sich die Frage: Wie können wir Sprache und Geräusche mit Noten beschreiben?

Transformation von Sprache in den Spektralbereich.

Einige von uns ahnen, dass dieses etwas ist, das wir alle beherrschen.

Natürlich: Die Transformation von Sprache in den Spektralbereich ist das Schreiben und zurück in den Zeitbereich ist das Lesen.

Die Automatisierung des Lesens und Hörens wird durch eine Zwischentransformation erreicht.

Die technologische Darstellung des Spektrums sind nicht Buchstaben, sondern Phoneme. Die automatische Erkennung und Erzeugung von Sprache basiert auf Phonemen.

Wir kennen die Noten der Sprache: Buchstaben. Die Aussprache ist damit nur unzureichend beschrieben. Besser ist die Lautschrift: [ˈlaʊ̯tʃrɪft]. Dieses sind im Prinzip die Phoneme.

Ein Text wird in eine Folge von Phonemen umgewandelt und diese werden "gesprochen".

Beim Hören werden die Phoneme erkannt und in Text umgewandelt.

In der Sprache und in der modernen Musik treten Klänge mit komplexen Spektren auf.

Rausch_Spektrum.png
Bild 16: Spektrum des Rauschens

Das merkwürdige Spektrum in Bild 16 enthält nicht nur alle Töne der drei Oktaven, sondern auch alle möglichen Töne dazwischen. Der graue Balken ist das Spektrum des Rauschens, des sch der Sprache. Es besteht nicht mehr aus einzelnen Linien (Noten), sondern ist über alle Töne (Frequenzen) verteilt.

rauschen.png
Bild 17: Zeitdarstellung des Rauschens

Rauschen

Die Zeitdarstellung des Rauschens ist schlimmer als Chaos.

In der Musik haben wir es oft mit einer Mischung von Tönen und Geräuschen zu tun. Ein Becken wird geschlagen oder eine Rassel betätigt. Wir betrachten hier beispielhaft Töne im Rauschen.

Rausch_Toene_Spektrum.png
Bild 18: Spektrum mit Tönen und Rauschen

Werden Töne gleichzeitig mit dem Rauschen abgespielt, so überlagern sich die Spektren.

sin440_3okt_drei_rausch.png
Bild 19: Rauschen und Töne

Bild 19 zeigt Zeitdarstellung eines Tons mit Rauschen. Mit etwas gutem Willen kann man Kurve aus Bild 8 erkennen.

Rauschen und Töne

Das Spektrum von Musik mit Rauschen umfasst nicht nur wenige Noten, sondern ist ebenso umfangreich und komplex wie Musik in der Zeitdarstellung.

  • Der Vorteil, komplexe Klänge mit wenigen Daten darstellen zu können, gilt nicht für Rauschen:

Das Spektrum umfasst ebenso viele Daten wie die Zeitdarstellung.

Das Rauschen in den Griff bekommen

Seit 1982 beschäftigen sich Forscher am Fraunhofer-Institut in Erlangen mit diesem Problem.

Zunächst wird eine Fourier-Transformation durchgeführt. Das Ergebnis ist z.B. ein Spektrum wie in Bild 18.

Der Bereich um jede Note wird einfach dieser Note (Notenlinie) zugeordnet, in ihr zusammengefasst, komprimiert.

Rausch_Toene_Spektrum_verdichtet.png
Bild 20: Spektrum mit Tönen und komprimiertem Rauschen

Bild 20 zeigt das komprimierte Spektrum aus Bild 18, wobei das Rauschen durch dicht beieinander liegende Töne (blau) ersetzt wurde. An den Stellen, an denen im Spektrum in Bild 18 ein Ton auftrat, wurde das Rauschen ignoriert. Genauer gesagt wird einem Bereich von Tönen, d.h. einem Frequenzbereich, ein Wert zugeordnet.

Wir können es uns so vorstellen, dass auf einem Klavier alle Tasten gleichzeitig angeschlagen werden und auf einem zweiten Klavier drei Töne lauter. Das ist natürlich kein perfektes Rauschen, aber es kommt dem sehr nahe.

Das nächste Hörbeispiel besteht aus den zwölf Tönen einer Oktave. Es klingt schrecklich, aber das Rauschen ist erkennbar.

Rauschen mit den zwölf Tönen einer Oktave

Wenn wir mehr Oktaven nehmen, kommen wir dem Rauschen schon sehr nahe.

Rauschen mit den sechzig Tönen von fünf Oktaven

Menschen hören ungenau

Dass wir Menschen nicht beliebig genau hören können, haben sich die Erlanger Forscher zunutze gemacht.

  • Welche Töne können wir noch unterscheiden?
  • Wie laut muss ein Ton sein, damit wir ihn noch wahrnehmen?
  • Welche Tonhöhen hören wir?

Es zeigt sich, dass wir pro Oktave deutlich mehr Töne unterscheiden können als die zwölf Noten-Töne einer Oktave. Mehr als 50 Töne einer Oktave können wir nicht unterscheiden, oft sogar weniger.

Bei MP3 werden zwischen die normalen Noten-Töne zusätzliche Töne für das Rauschen eingefügt. Der Tonumfang von MP3 umfasst etwa zehn Oktaven. Das sind 120 verschiedene Noten. MP3 unterscheidet 576 Töne. Tatsächlich werden die Töne, die den Noten zugeordnet sind, nicht getrennt wahrgenommen.

Unsere Fähigkeit, Musik, Sprache und Geräusche wahrzunehmen, wird durch ein psychoakustisches Modell beschrieben. Dieses Modell dient unter anderem dazu, nicht Wahrnehmbares zu vernachlässigen.

Attention pin

Rauschen in der Musik

Wir betrachten das Rauschen aus der Sicht von Musikern, von Musikern, die Rauschen händisch erzeugen.

Im folgenden Stück hören wir zu Beginn, wie alle zusammen durch Klatschen ein Rauschen erzeugen.

Richard Strauss hat in seiner Alpensinfonie, im ersten Abschnitt - Nacht - die Dunkelheit durch einen undurchsichtigen Klangschleier dargestellt, der im Hintergrund rauscht. Die Streicher spielen alle durcheinander.

Das ist ein technisch interessanter Teil:

Strauss hat das Spektrum der rauschenden Streicher mit Lücken versehen, in die das Spektrum der Bläser passt.

Und nach drei Minuten geht die Sonne auf :-)

Musik aus dem Zeitbereich in MP3 transformieren

Bild 20 zeigt, dass den Tönen und Geräuschen, die in einem Frequenzbereich liegen, Werte zugeordnet werden.

Wenn der gesamte Bereich der hörbaren Töne in genügend Frequenzbereiche unterteilt wäre, wären die einzelnen Werte unsere MP3-Daten.

Wir müssten nur noch die Werte berechnen. Dazu brauchen wir 576 Frequenzbereiche. Das ist technisch sehr aufwendig.

Bei MP3 geht man einen Kompromiss ein.

Der gesamte Frequenzbereich wird in 32 Frequenzbereiche, sogenannte Subbänder, aufgeteilt. Diese Subbänder liegen im Zeitbereich, können also unmittelbar angehört werden.

Jedes Subband wird dann mit einer speziellen Fourier-Transformation, der MDCT, vom Zeitbereich in den Spektralbereich transformiert. In jedem Subband haben wir nun ein Spektrum, das einem Ausschnitt aus Bild 18 entspricht. Das Subband wird mithilfe der MDCT in 18 Teilbereiche unterteilt. Wir haben damit unsere 32 * 18 = 576 Frequenzbereiche.

Jedem Teilbereich wird ein Wert zugeordnet. Eine Fourier-Transformation ist mehr nötig, da das Subband bereits mit MDCT transformiert wurde. Aus diesen Daten werden z.B für das menschliche Gehör nicht wahrnehmbare Signalanteile entfernt.

Das hört sich kompliziert an, ist aber mit moderner Digitaltechnik leicht zu bewerkstelligen.

Die Musik, die Audiodaten liegt im Zeitbereich digital vor z.B. auf der CD.

Die 32 Subbänder werden daraus digital mit einer polyphasen Filterbank berechnet.

MDCT (Modified Discrete Cosine Transform) ist ein Verfahren, mit dem digitale Daten aus dem Zeitbereich in digitale Daten im Spektralbereich umgewandelt werden können.

Letztendlich können wir mit genügend technischem Know-how die Wandlung von Audiodaten in Digitaltechnik realisieren. Heute ist dieses auf einem Smartphone problemlos möglich.

Mathematische Tricks

Ein mathematischer Trick beruht auf der Beobachtung, dass bestimmte Zahlen in den aufgezeichneten Daten häufiger vorkommen (jetzt 12-mal 176448).

Ein anderer Trick ist eigentlich ein alter Hut. Seit 1865 gibt es den Morse-Code. (Siehe https://de.wikipedia.org/wiki/Morsezeichen#Standard-Codetabelle).

   da da   da da da   di da di   di

Der Code ordnet den Buchstaben eine Folge von kurzen und langen Zeichen zu. Die Anzahl der Zeichen pro Buchstabe variiert zwischen 1 und 4. Dem sehr häufig verwendeten Buchstaben E ist nur ein Zeichen di zugeordnet, T ist da. Das Y ist da-di-da-da. Das spart Zeit und Platz.

Auf diesem Verfahren basieren die bekannten Programme zur Datenkompression, die sogenannten Zipper. Während beim Morsen den Zeichen ein fester Code zugeordnet wird, wird beim Zippen ein Wörterbuch erstellt und den Wörtern ein Code zugeordnet. Wörterbuch und Code werden ständig an den aktuellen Text angepasst.

Durch ähnliche Codes kann die Datenmenge einer Musikdatei weiter reduziert werden.

  • Das verwendete Verfahren heißt Huffman-Codierung.

Würde man diese mathematischen Verfahren nur im Zeitbereich anwenden, könnte man die Datenmenge auf etwa die Hälfte reduzieren. MP3 schafft es mit der Fourier-Transformation auf ein Zehntel!

  • Beim Zippen gehen keine Informationen verloren. Bei gezippten und wieder entpackten Musikdateien (WAV) ändert sich der Klang nicht.
  • MP3 verändert den Klang - aber nur geringfügig.

Bei MP3 werden derartige mathematischen Tricks auf die Daten im Spektralbereich angewandt. Im Prinzip wird bei MP3 die Lautstärke der 576 möglichen Töne/Noten gezippt.

Für die Transformation in den Spektralbereich werden leistungsfähige Computer benötigt. Nun, ein Smartphone kann das heute mit Leichtigkeit. Die Transformation vom Spektralbereich in den Zeitbereich ist dagegen relativ einfach. MP3-Player sind klein und handlich.

Unzulänglichkeiten von MP3

Das Zusammenfassen ähnlicher Töne wurde bei den ersten MP3-Verfahren relativ rigoros gehandhabt. Die meisten Menschen bemerken das nicht. Einige Musiker mit geschultem Gehör können diese Unterschiede wahrnehmen. Am problematischsten ist die Wiedergabe von Sprache und Geräuschen. Inzwischen gibt es Verfahren, die wesentlich bessere Ergebnisse liefern. Sie unterscheiden sich hauptsächlich darin, welche Daten aus dem Spektrum der 576 Töne/Noten ignoriert werden.

Musik langsamer spielen

Für einen Musiker ist es kein Problem, ein Musikstück langsamer zu spielen. Jeder Ton erklingt länger. Für den Zuhörer klingt das Musikstück gleich, nur langsamer.

Wenn ein Musikstück, das im Zeitbereich aufgenommen wurde, langsamer abgespielt wird, ändert sich nicht nur die Dauer der einzelnen Töne, sondern auch der Klang. Alle Töne klingen tiefer. Die Musik erklingt in Zeitlupe.

MP3 ist wie das Spielen nach Noten eine Transformation vom Spektralbereich in den Zeitbereich. Der Klang eines Musikstücks ändert sich nicht wesentlich, wenn es langsamer abgespielt wird.

Attention pin

Time-Stretching

Moderne Player können WAV-Dateien und CDs langsam abspielen, ohne dass sich der Klang oder die Tonhöhe wesentlich verändern.

Das Verfahren basiert auf der Fourier-Transformation und wird als Time-Stretching bezeichnet.

Zunächst findet eine Transformation vom Zeitbereich in den Spektralbereich statt. Bei der anschließenden Transformation vom Spektralbereich in den Zeitbereich werden alle Töne/Noten einfach länger gespielt.

Im Folgenden wird ein Ausschnitt zuerst mit normaler Geschwindigkeit und dann mit halber Geschwindigkeit abgespielt.

Wow im Original

Wow mit 1/2 im Zeitbereich

Wow mit 1/2 im Spektralbereich (Time-Stretching)

Zusammenfassung

  • Zunächst haben wir uns mit vielen bekannten Methoden der Musikaufnahme beschäftigt und die zugrunde liegenden Prinzipien kennengelernt.
  • Begriffe wie Spektraldarstellung und Zeitdarstellung wurden anhand von Beispielen erklärt.
  • Noten als Spektraldarstellung
  • Das Spielen von Musik als Zeitdarstellung
  • Ausgehend von der üblichen Spektraldarstellung von Musik, den Noten, wurde die technische, mathematische Darstellung betrachtet.
  • Die Spektraldarstellung von Musik ist in der Regel viel kompakter als die Zeitdarstellung.
  • Ein Problem stellen Sprache und Geräusche dar.
  • Bei MP3 werden ähnliche Bereiche des Spektrums zu einem Wert (Note) zusammengefasst.
  • Die historische Entwicklung der Musikaufzeichnung und die Intuition vieler Menschen wurden im MP3-Verfahren vereint.
  • In diesem Sinne kann das MP3-Verfahren als ein gutes Beispiel für die "Maschinisierung von Kopfarbeit" angesehen werden.
  • Das MP3-Verfahren automatisiert die Kopfarbeit von Musikern und Mathematikern
    - modern: digitalisiert.