MUSIQUE Numérisée OU Dématérialisation,
QUELS FORMATS DE COMPRESSION ?


I/ Introduction


Aujourd’hui, informatique et internet font partie de notre quotidien. Ceci rapproche deux mondes que tout opposait hier encore. Pour obtenir de la musique dématérialisée, il faut utiliser un programme afin de copier (ripper) un CD ou de télécharger sur un disque dur des fichiers audio via internet (Qobuz, linnrecords, The avant-garde project, Samples HD tracks, Satri reference recordings, Lessloss, …). C’est un codec (codeur-décodeur). Il transforme le signal en fichier et ensuite le fichier en signal qui est converti en un signal analogique par un convertisseur numérique/analogique (cna en français mais peu utilisé) ou Dac (digital to analogic en anglais) car les amplificateurs audiophiles n’amplifient que de l’analogique.

Les fichiers numériques sont désormais facilement accessibles. Ils permettent de créer une bibliothèque numérique à la hauteur des exigences des mélomanes les plus pointilleux. Mais de nombreux formats existent. Essayons de comprendre ce dont il s’agit. Les anglais parlent de Computer Audio, nous de dématérialisation. Bien que ce vocable commence à être communément utilisé, il revêt pour beaucoup des notions assez mystérieuses et une explication s’impose.

La dématérialisation de la musique entraine l’abandon de l’utilisation de supports physiques ainsi que l’accès à une qualité audio qui évolue entre médiocrité et qualité égale à celle obtenue dans le studio d’enregistrement (on parle alors de studio master). La majorité des encodages audio avec perte sont pscycho-acoustiques, ils réduisent la quantité d’informations transmise en limitant la description du signal à la perception auditive humaine maximum. Certains détectent les redondances et ne restituent que la partie imprévisible du signal, d’autres appliquent un masque fréquentiel et temporel en retirant les deux octaves supérieures. Enfin, les plus élaborés s’attachent à ne transmettre que les informations nécessaires à l’obtention de la même perception auditive. Quoiqu’il en soit, les encodages qui offrent pour un même décodeur, les meilleurs résultats imposent un long processus de calculs en tenant compte du segment audio en entier et en nécessitant plusieurs passes.

Afin de bénéficier d’une qualité de restitution sonore supérieure à celle obtenue à partir d’une source traditionnelle, il faut en dématérialisant sa musique choisir chacun des éléments de sa « nouvelle chaine » (voir les autres chapitres).

Ainsi, un DAC (ou convertisseur) dont le prix d’achat avoisine celui d’un lecteur de cd offre à l’écoute des subtilités supérieures à celle d’un lecteur de cd. Car un cd comporte, malgré les efforts de son fabricant, une multitude de petits défauts qui imperceptiblement altère sa qualité de restitution : micro rayures, erreurs de gravures, minimes différences d’épaisseur du vernis …. En revanche un fichier numérique copié de façon optimum (voir notre dossier sur ce sujet) ne possède plus aucune erreur et sa lecture s’effectue d’une façon plus fluide.

La musique dématérialisée peut être stockée et donc extraite de différents supports : ordinateur, disque dur, disque dur multimédia, ou l’interface internet (box), … Le principe, une fois le réseau créé, consiste à « récupérer » à l’aide de différents protocoles et liaisons le ou les fichiers sélectionnés. Ainsi, chaque élément est important et la lecture de la suite de ce document vous permettra de faire le meilleur choix entre les différents formats de compression et les différents protocoles de transfert.

Avant, voici la définition de trois acronymes communément utilisés :

UPNP : Universal plug and play est un protocole de commandes qui est au-dessus des standards de communication de l’internet. Edicté et publié par l’UPnP Forum ce protocole permet à des périphériques ou/et un ordinateur de se connecter facilement entre eux de façon à aisément partager les fichiers présents sur un réseau domestique. Ainsi l’UPnP permet d’établir des communications entre les unités visibles sur un réseau local via le CPL (courant porteur en ligne), l’Ethernet ou le FireWire. Les dernières normes permettent également une mise en réseau d’appareils sans fil basée sur les protocoles TCP/IP (Transmission control protocol/ Internet protocol qui est l’ensemble des protocoles utilisés pour transférer les données sur internet) et HTTP (Hyper text transfer protocol qui est le protocole de communication client/serveur développé pour le World wide web). C’est donc via le Wi-Fi ou le Bluetooth que les connexions UPnP peuvent dorénavant s’établir sans aucun pilote spécifique.

Pour profiter de vos fichiers numériques sans avoir à allumer systématiquement votre ordinateur, il faut obligatoirement choisir un disque dur multimédia équipé de ce protocole.

DLNA : La Digital living network alliance est un standard d’interactivité qui permet la lecture, le partage et le contrôle d’appareils multimédia. En 1994, un certain nombre d’entreprises se sont regroupées pour édicter la première norme de connexion. Depuis 2004, ce sont environ 250 sociétés (dont Awox, Broadcom, Intel, Microsoft, Nokia, Samsung, Sony et Technicolor qui forment le Conseil d’administration ou AT&T, Helwet Packard, Cisco, Logitech, Dell, Motorola, Acer, … ) opérant dans le domaine de l’informatique et électronique qui se sont regroupées pour faire évoluer les normes de ce protocole. Les recommandations permettent donc de créer des réseaux protégés en connectant plus de 20 000 sortes d’appareils différents. Aujourd’hui, plus d’1 milliard d’appareils vendus chaque année en sont équipés : ordinateurs, consoles de jeu, téléviseurs, disques durs, téléphone, tablettes,…. . Le DLNA s’appuie sur des standards existants et permet à tout périphérique certifié DLNA d’accéder à distance via une application logicielle spécifique préinstallée par le fabricant, à des fichiers contenus par exemple dans un disque dur lui aussi certifié DLNA. Les dernières normes permettent depuis 2012, à des enceintes sans fil compatible DLNA de recevoir un flux audio sans pilote spécifique.

Pour profiter de vos fichiers numériques sans avoir à allumer systématiquement votre ordinateur, il est préférable de choisir un disque dur multimédia équipé de ce protocole.

LAN : Local area network ou réseau local en français, désigne un réseau informatique qui comprend différents appareils reliés dans une zone limitée, dans notre cas : une habitation. Ces appareils sont connectés sans utiliser d’accès à internet. Le premier réseau Ethernet a été conçu par Xerox dans les années 1970, puis IBM a mis au point son réseau vers 1990. Aujourd’hui les normes permettent un débit de 1 Gbps en utilisant le protocole IP.

II/ LES SUPPORTS ANALOGIQUES


Les disques noirs

En 1877, Thomas Edison met au point une technique d’enregistrement sur rouleau de cire et le phonographe qui permet la restitution sonore de ces enregistrements. En 1887, Emile Berliner améliore ce procédé en choisissant comme support des disques plats qui peuvent être lus sur des gramophones. Le disque fait vibrer la membrane qui produit le son. En 1893, La Deutsche Grammophon d’Emile Berliner commercialise les premiers 78 tours. Ces galettes noires de 30 cm en gomme-laque ou shellac cassantes sont lourdes et épaisses car il faut des sillons profonds et espacés qui forme une spirale qui démarre à l’extérieur et s’achève à l’intérieur. Elles tournent à la vitesse de 78 tours par minute et contiennent sur une face à peine 5 minutes de musique. En 1900, les premiers 78 tours de 17 centimètres sont commercialisés en France. En 1904, Odéon propose des disques de 25 et 30 cm de diamètre enregistrés sur les 2 faces.

En 1920, Lionel Guest et Horace Merriman mettent au point l’amplificateur avec triode. Ils augmentent l’énergie acoustique. Leur amplificateur est plus performant et surtout le son est dorénavant obtenu en transformant le mouvement de l’aiguille en courant électrique. Après la seconde guerre mondiale l’industrie chimique fait de gros progrès et les 78 tours s’allègent en adoptant le polychlorure de vinyle comme matière. En 1944, René Snepvangers prototype les premiers 33 tours que la Columbia Records commercialise en 1946. Ils ne sont utilisables qu’avec des amplificateurs électriques. Les campagnes publicitaires vantent ces vinyles de 30 ou 48 cm de diamètre (ce dernier format est très rapidement abandonné) sous le nom de « microgroove » : microsillons en français en opposition aux larges sillons des 78 tours. La vitesse de rotation est donc de 33 tours par minute. C’est un disque thermoformable, plat, léger et pratiquement incassable. Une matrice est gravée sous la forme d’une galette lisse constituée d’un disque d’aluminium recouvert d’acétate de vinyle. Un burin en diamant installé sur un stylet chauffant couplé à un système électromagnétique grave un sillon hélicoïdal en vibrant. Le plan de coupe est
légèrement incliné. Ce disque peut être lu (gravure directe de Denon par exemple) ou utilisé pour exécuter une matrice de pressage. En général, 10 000 exemplaires sont produits, mais seuls les 1 000 premiers sont de très bonne qualité. Le temps de musique d’une face est de 20 minutes : long playing ou LP. Les sillons moins profonds et plus serrés que ceux des 78 tours sont lus par une tête de lecture plus légère munie d’un diamant. Les œuvres de Mendelssohn et Tchaïkovski sont enregistrées sur les premiers vinyles produits. En 1949, RCA records, propose un nouveau format : 17.78 centimètres de diamètre, 45 tours/mn. C’est un Single play ou SP quand il comprend 1 chanson par face, et un Extended play (EP) quand il y en a 2. Il a été inventé pour développer le marché des juke-boxes, c’est ce qui explique son gros trou central. Pathé-Marconi presse le premier vinyle français dans son usine de Chatou en 1951, l’année de l’apparition du premier 45 tours en France. Les 78 tours cessent d’être produits en 1957 aux Etats Unis et 1959 en France. En 1958, les premiers enregistrements stéréophoniques sont proposés. Le procédé consiste à ajouter à la modulation latérale du mono une modulation verticale gravée en profondeur de façon à représenter la différence entre les deux canaux. Le choc pétrolier de 1978, entraine une baisse de la qualité des vinyles et une pénurie de polychlorure de vinyle. En 1979, en France, face à la rareté de galettes 45 tours, Tom Moulton se sert d’une galette 33 tours pour graver un morceau en 45 tours. Il vient d’inventer le maxi 45 tours qui grâce à l’espacement plus grand entre les sillons et une vitesse supérieure, offre une meilleure qualité audiophile.

Différents formats ont existé : une face en 45 tours et une autre en 33 tours, une lecture qui s’effectue du centre vers l’extérieur. Il y a eu également vers 1957, une petite production de 16 tours mesurant 25 cm de diamètre généralement destinée à l’enregistrement de textes parlés qui offrent une durée de restitution supérieure à 70 minutes. Mais le corollaire est une réduction de la qualité du spectre sonore dans les aiguës. Columbia a proposé de 1956 à 1958 des 16 tours de 17 cm de diamètre avec une durée de 45 minutes par face utilisable avec son tourne-disque pour automobile : « Highway Hi-Fi phonograph » équipé d’une tête de lecture spécifique. Au milieu des années 1970, Magnetic disc recording (MDR) commercialise un 33 tours « Trimicron » qui contient 60 minutes par face. Ceci était possible en utilisant l’espace libre entre les sillons (1 sillon – 2 espaces – 1 sillon) pour y graver 2 sillons afin de tripler sa durée. Ces disques rares sont très fragiles et offre une dynamique de signal très médiocre. Enfin, durant la même période, il a existé des 33 tours quadriphoniques qui reproduisaient de la musique surtout classique sur 4 canaux : 2 enceintes à l’avant et 2 à l’arrière. Ces disques utilisables et stéréo ou en mono étaient parfois gravés à demi-vitesse pour un meilleur rendu. Plus chers à produire, ils n’ont jamais réussi à trouver leur place.

A partir du début des années 1980, l’apparition d’un nouveau support (le cd – voir plus loin) entraine progressivement la diminution des ventes des galettes noires. Dès 1988, les ventes des vinyles passent en-dessous de celles des cd et en 1991, les derniers 33 tours sont produits. En 1994, c’est au tour des 45 tours de quitter définitivement la scène.
Aujourd’hui, nous assistons au retour du vinyle. Depuis 2008, des artistes contemporains comme Zaz, Pharell Williams, Artic Monkeys, Léonard Cohen, Neil Young, … proposent leur album en format 33 tours et les majors rééditent une partie de leur catalogue dans ce format analogique. Aux Etats Unis, les ventes de vinyles croissent de 52% en 2014, pour dépasser le niveau de 1991. En France, les ventes augmentent et atteignent 471 000 unités en 2010 ce qui représente 1.6 % du chiffre d’affaire de la vente de musique (cd, streaming et téléchargement). Cette tendance s’affirme en France en 2014, ce qui fait dire à David Godevais, directeur du Club action des labels indépendants français (Calif) et organisateur du Disquaire Day : « Le vinyle représentait à peine 30 % du chiffre d’affaire des disquaires en 2009, aujourd’hui le pourcentage tourne entre 70 % et 80 % ! ». La production du dernier fabricant français : Moulage plastique de l’ouest (MPO) augment et passe de 3.7 millions d’unités en 2010 à 5.1 millions en 2013. En Grande Bretagne, la barre du million d’exemplaires vendus a été atteinte, c’est un nouveau record depuis 1996. L’album le plus vendu en 2014, est celui des Artic monkey.
Phénomène de mode ou prise de conscience de la supériorité audiophile de ce support ?


Les bandes magnétiques

La bande magnétique ou ruban magnétique est un support qui permet l’enregistrement et la lecture d’informations analogiques grâce à l’utilisation de magnétophones (Magnetophon est une marque déposée par AEG (Telefunken) et IG Farben) ou de magnétoscopes.

En 1939, après 9 années de travail, AEG utilise l’oxyde de fer brun Fe203 pour ses bandes magnétiques et fixe la vitesse de défilement à 76.2 cm/s. En 1941, la restitution sonore est enfin qualitative grâce à la découverte quasiment par hasard de la prémagnétisation à haute fréquence. En 1942, les premiers enregistrements stéréophoniques sont effectués. En 1947, le premier magnétophone grand public est vendu par Brush : le Soundmirror.

Le principe consiste à polariser grâce à un électroaimant (une tête magnétique) les particules métalliques magnétiques et à lire les informations en mesurant cette polarisation. Les longueurs des bandes sont de 732, 129, 91 ou 61 mètres pour 1.27 cm de large. Les premiers enregistrements s’effectuent sur 7 pistes (6 de données et une pour la parité) puis sur 9 (8 et 1). Les informations sont lues dans les 2 sens. La durée de vie des données stockées est estimée à 30 ans.

Philips enferme ses bandes en les enroulant entre deux bobines dans des cassettes en 1962. C’est l’apparition de la cassette audio, minicassette, musicassette ou compact cassette ou tout simplement k7. Elle nécessite pour l’écouter et enregistrer de la musique un magnéto-cassette. L’utilisation en 1970 du dioxyde de chrome (CrO2) améliore leur performance, puis apparait la technique double couche (oxyde de fer et dioxyde de chrome) ou ferrichrome et enfin vers 1980 la cassette métal est mise sur le marché. Malheureusement chacune de ces technologies oblige à utiliser des lecteurs spécifiques. Le principe consiste à enregistrer 2 pistes sur chaque côté de la bande et de la lire grâce à une tête de lecture située entre les deux bobines de la cassette. Une fois la bande totalement déroulée il faut retourner la cassette afin de faire défiler l’autre moitié de la bande. La vitesse standard de défilement de ces cassettes est de 4,7625 cm/s. Leur durée d’enregistrement ou lecture varie entre 46 minutes (C46) et 180 minutes (C180).

Sony (et Tascam dans une moindre mesure) ont commercialisé des cassettes défilant à 9.5 cm/s : Sony avec son Elcaset et Tascam-Teac avec le Portastudio. Ce fut un échec malgré une qualité supérieure dans le cas de Sony. Philips en 1967 et Olympus en 1969 proposent des micro-cassettes permettant l’enregistrement « de poche ».

Les ventes de ce support s’accroissent rapidement, en 1983, elles dépassent celle des vinyles grâce au walkman de Sony commercialisé en 1979 qui permet d’emporter sa musique partout. Mais en 2000, surpassées par le cd on ne trouve plus sur le marché que des cassettes vierges à acheter. Comme pour le vinyle, un regain d’intérêt semble être suscité par ce support mais il est très léger. Par exemple, des groupes comme Archive ou Daft Punk (Random Access Memory) ont également diffusé leur dernier album sur k7

III/ LES SUPPORTS NUMERIQUES


Le CD

En 1978, le cd (Compact disc en anglais ou disque compact en français) est inventé par Sony, Philips et Hitachi qui se sont unis pour proposer un standard de numérisation de données analogiques. Le premier lecteur doté d’une optique laser sans contact mécanique est commercialisé le 1er octobre 1982 au Japon. Rapidement, il détrône le disque vinyle. Les deux premiers cd produits sont : Une symphonie alpestre de Richard Strauss dirigée par Herbert von Karajan avec l’Orchestre Philarmonique de Berlin et The visitors d’ABBA. Dans un premier temps ce support est réservé aux mélomanes « classiques » ; il faut attendre 1985 et la sortie du nouvel album de Dire Straits : Brothers in Arms vendu à plus d’1 million d’exemplaires (1er album entièrement numérique) pour que le cd se démocratise réellement. En 1986, le nombre de platines cd vendues dépasse celui des platines vinyles ; et en 1988, c’est au tour du cd de dépasser les ventes de vinyle. La musique est désormais numérique.

Le cd est un disque optique d’un diamètre de 12 cm, d’une capacité de stockage
sous forme numérique d’environ 680 Mo (Megaoctets : 106 octets – 1 octet est unregroupement de 8 bits). C’est parce que Herbert von Karajan demande que laversion de la 9e symphonie de Beethoven dirigée par Wilhem Furtwangler lors dufestival de Bayreult de 1951 puisse tenir sur ce nouveau support que la durée delecture théorique du cd est fixée à 74 minutes et 30 secondes.

Il s’agit de numériser de la musique en convertissant un signal analogique (un signal qui varie continûment dans le temps : courbe sinusoïdale) en signal numérique (un signal qui varie de façon discontinue dans le temps : succession de nombres binaires – base de l’informatique 0 et 1, appelés bits). On comprend aisément qu’il est plus facile de reproduire un signal numérique qu’un signal analogique car il n’y a dans ce dernier cas que deux niveaux d’amplitude à traiter. Une galette de polycarbonate de 12 cm de diamètre et de 1.2 mm d’épaisseur est pressée en une piste alvéolaire qui commence au centre du disque et qui comporte des creux et des pleins (pits) mesurant entre 500 nm (nm = 10-9 m) et 0.125 µm (µm =10-6 m) de largeur, et 833 nm à 3.56 µm de longueur. L’espace entre les sillons est de 1.59 µm. Le disque est ensuite métallisé avec une fine couche d’aluminium de 40 à 50 nm atomisée sous vide (les premiers cd et certaines éditions de prestige actuelles sont recouverts d’une couche d’or) puis une couche de vernis d’1 µm le protège. Un faisceau laser d’une longueur d’onde 780 nm (limite entre rouge et infrarouge) analyse les reliefs de la piste et, grâce à la réflexion du laser sur la pellicule argenté, interprète l’intensité de la lumière réfléchie. Un passage entre un creux et une bosse ou l’inverse indique un 1, un  0  est obtenu s’il n’y a pas de passage creux-bosse. Ces données passent ensuite par l’Eight-to-fourteen modulation (EFM) qui a servi au codage analogique/numérique afin d’obtenir des données analogiques exploitables par un amplificateur audiophile. Le CD a une dynamique effective d’environ 90 dB (décibel). Il démarre à 500tr/mn (tours par minute) et termine à 200tr/min soit une vitesse linéaire de 1.22 mètre par seconde. On estime la durée de vie d’un Cd audio pressé industriellement entre 50 à 200 ans, en revanche, celle d’un Cd enregistrable est largement inférieure.

Le résultat obtenu lors du transfert analogique/numérique et la restitution numérique/analogique doit s’effectuer en restituant le maximum des informations comprises dans l’original. Cet optimum est dicté par les performances de l’oreille humaine qui sont (dans les meilleurs cas) sensibles aux fréquences comprises entre 20 Hz (graves) et 20 kHz (aigus) – 1 hertz (Hz) équivaut à une variation de pression de l’air par seconde. C’est ici qu’intervient le théorème de Nyquist-Shannon qui stipule que « la fréquence d’échantillonnage d’un signal doit être égale ou supérieure au double de la fréquence maximale contenue dans ce signal ». Il faut donc au
minimum enregistrer les sons à une fréquence de 40 kHz (2 x 20 kHz). Ainsi, la norme retenue pour les CD audio (le Red Book) échantillonne à 44.1 kHz (2 x 22.05 kHz). On parle de sampling ou d’échantillonnage. Il est également nécessaire de tenir compte de l’amplitude sonore. Il s’agit d’attribuer une valeur numérique à chaque échantillon prélevé. On parle alors de quantification ou de résolution. La norme des CD audio fixe cette quantification à 16 bits (binary digit qui est la plus petite unité d’un système de numération, dans notre cas, il est binaire : 0 ou 1). Une échelle de 16 bits permet un codage de 216 niveaux différents, 65 536 valeurs possibles.

Ainsi, le format des données d’un cd audio est une piste stéréo encodée en Pulse code modulation (PCM) à une résolution de 16 bits avec une fréquence d’échantillonnage de 44.1 kHz. On parle couramment de 16 bits/44 k. Cela signifie que le son est analysé 44 100 fois par seconde sur une échelle de 16 bits. On calcule son débit (kbps) de la façon suivante : fréquence d’échantillonnage (Hz) x quantification (bit) x nombre de canaux = 44 100 Hz x 16 bits x 2 = 1 411 kbps. Nous retrouverons souvent cette unité de mesure, prenons un peu de temps. Le débit binaire s’exprime en byte (en anglais) ou octet en français. 1 octet équivaut à 8 bits par seconde. Ainsi, kbit/s ou kbps (nous adopterons ce second vocable) correspond à la quantité de données numériques transmises par unité de temps. Ce sont donc des kilobits par seconde, 1000 bits sont traités par seconde.

Certains Cd Audio ont des capacités différentes : une vitesse linéaire de 1.1975m/s et un espace entre les pistes de 1.497 µm offre 737 Mo de données, ou l’ajout de 2 minutes en écrivant dans le préambule ou la fin du disque. D’autres ont des spécificités différentes : Le DSD-CD dont le master réalisé en DSD (Direct stream digital – voir SACD ci-dessous) avant d’être inscrit en PCM propose une meilleure définition. C’est un CD uniquement lisible sur un lecteur CD spécifique.

Sony lance le Blu-spec CD fin 2008. Il bénéficie de la technologie du Blu-ray. Un laser bleu crée les encoches numériques de la matrice mère, grâce à sa finesse, ces encoches sont plus précises et fines (largeur minimale de 125 nm) ce qui entraine une diminution des erreurs de lecture numérique. Il peut être lu par un lecteur CD standard.

Le SHM CD (Super high matériel compact disc) mis au point en 2008 par JVC et Universal Japan est proposé en France en 2009. Sa galette en polycarbonate translucide offre une meilleure qualité de la restitution sonore et une diminution de la distorsion. Ce nouveau support est moins fragile, il résiste mieux aux rayures, incrustations de poussières et aux variations de température. Et enfin le plus connu le HDCD (High definition compatible digital) mis au point par Pacific Microsonics en 1995. Son principe réside en un codage sur 20 bits tout en conservant un échantillonnage à 44.1 kHz. Ceci entraine une dynamique améliorée de 6 db (codé sur 1 des bits supplémentaire). Sa capacité est de700 Mo et est lisible par une diode 780 nm. Les avantages sont audibles : gain dynamique mais également gain sur les signaux de bas niveau. Mais comme le codage utilise un seul bit et qu’il est calculé pour un lissage avec les 15 restants (dither), il est indispensable de lire ce HDCD sur un appareil spécifique. Microsoft rachète Pacific Microsonics et sa technologie en Septembre 2000. Depuis 2005, Microsoft ne cesse de réduire son catalogue. Aujourd’hui on peut dire que le HDCD est mort.

Depuis 2002, la vente de Cd diminue chaque année. En 2012, c’est encore unediminution de 3 % pour atteindre en volume le niveau de 2009.


Le SACD

Sony et Philips veulent surpasser le format Red Book du CD en augmentant la qualité sonore et en ajoutant une spatialisation multicanale : jusqu’à 6 canaux (5.1 : 5 voies et un caisson de basse). Ils proposent un nouveau format en 1994 : le SACD (SA-CD ou Super Audio CD). Sony conçoit le codage et le décodage des données ainsi que l’électronique s’y rattachant et Philips le support ainsi que la diode laser d’une longueur d’onde 650 nm (légèrement orangé) en reprenant le standard DVD (Digital versatile disc). Pour dépasser le PCM du Cd, le DSD (Direct stream digital) est mis au point. Un flux quantifié est positionné sur un bit unique ce qui simplifie le processus de conversion, sans altération du signal originel. Pour augmenter les chances de réussite de ce nouveau support, ces deux concepteurs décident qu’il sera hybride : le SACD est lisible en qualité haute densité (piste en DSD moins profonde) sur un lecteur compatible et en qualité standard sur un lecteur CD (couche plus profonde, signal codé en LPCM (Linear pulse coded modulation). La galette SACD de 12cm de diamètre, en polycarbonate a une épaisseur d’1.5 mm. La face gravée est couverte d’une fine pellicule d’aluminium pulvérisée en spray puis laquée. La lecture s’effectue du centre vers l’extérieur, elle démarre à 600tr/mn et termine à 300 tr/mn, soit une vitesse linéaire de 3.49 mètre par seconde. Sa capacité maximum de stockage est de 7.95 Go. Sa durée de lecture selon un mode stéréo ou multicanal varie de 74 mn à 290 mn.

En 1999, le format Scarlet Book (livre écarlate) est annoncé. Le SACD, comme le Cd, est un disque optique mais il est en lecture seule. La largeur et la longueur minimale des encoches numériques gravées sont de 0.4 µm chacune, l’écart entre les pistes est de 0.74 µm. Le débit de lecture des données est de 16 9344 kbps, le nombre de bits par seconde sur un canal du SACD est le double de celui des 2 canaux réunis d’un CD. La fréquence d’échantillonnage est de 2 822.4 kHz.

En mai 1999, il est possible d’acquérir un lecteur de SACD. Cependant ce lecteur ainsi que les premiers SACD proposés ne seront multicanal qu’après 2001. Le 1er SACD multicanal est une interprétation de Gaudeamus (Réjouissons-nous) dirigée par Paul Halley. C’est un chant du XVIIIe siècle qui est devenu l’hymne international des étudiants. Quelques jours après, le premier lecteur SACD multicanal est proposé en avril 2001 par Philips : le SACD-1000. Il coutait 1 999 $ (quand le 1er SACD non multicanal de 1999 valait 5 000 $)
Il a existé des SACD différents et lisibles seulement par des lecteurs SACD : SACD-HD simple couche HD avec un mixage stéréo et facultativement un mixage à 3, 4, 5 ou 6 canaux ou SACD-HD double couche HD avec deux faces haute densité. En 2010, Universal Japan et JVC créent le SHM SACD qui propose une meilleure qualité de restitution sonore grâce à l’utilisation d’un nouveau polycarbonate translucide qui diminue la distorsion. C’est un SACD stéréophonique en simple couche haute définition d’une durée avoisinant 2 heures moins sensible aux rayures.

La numérisation offre la possibilité d’agir sur la qualité du signal. Le ratio qualité/quantité est primordial. Ainsi l’amélioration du signal a pour corollaire la nécessité de posséder un important espace de stockage. Gagner en espace entraine trop souvent une perte de qualité irréversible car le fait de compresser le signal numérique entraine généralement la destruction de certaines informations.
Il y a 2 sortes de compression, celle avec perte ou lossy et celle sans perte, lossless.
Avant de débuter, expliquons ce qu’est le RIFF (Resource interchange file format). C’est une norme qui définit le format d’échange de fichiers ressources qui est utilisée par de nombreux formats audio. Son principe définit des conteneurs et des bouts identifiés par leurs 4 premiers octets. Ce sont des caractères ACSI lisibles lors de l’ouverture des fichiers avec un éditeur hexadécimal qui donnent les informations nécessaires au transfert et à la lecture du fichier. Les 4 octets suivants indiquent où se trouve la fin du conteneur (ce nombre d’octets limite la taille d’un fichier RIFF à 4 Go). Ainsi, un fichier RIFF commence par « RIFF » et sa longueur totale, puis on trouve l’identifiant du premier sous-conteneur, suivi de la longueur de ce bout qui se termine en annonçant le suivant puis sa longueur…

IV/  Les formats qui compressent avec une perte de qualité ou lossy

Durant les années 1990, le nomadisme est à la mode. Il faut avoir sa musique sur soi, Sony et Philips avec Matsushita proposent de numériser les données analogiques en proposant respectivement, le Digital audio tape (DAT) et le Digital compact cassette (DCC) qui ont connu un succès éphémère. Ces deux supports d’enregistrement et de lecture numérique de bande magnétique de 3.81 mm ont été créés pour remplacer la musicassette analogique.

Proposé en 1991, le DAT est davantage destiné aux professionnels à cause de son cout élevé. La cassette mesure 7,3 cm x 5.4 cm x 1,05 cm et propose des capacités allant de 4 à 160 Go avec des qualités d’enregistrement de 32 kHz en 24 bits, 32, 44.1 ou 48 kHz en 16 bits. La technologie proche de celle des magnétoscopes, utilise une tête rotative en diagonale pour enregistrer des données numériques en PCM non compressé.

Arrivée en 1992, la cassette DCC se présente sous la forme d’une cartouche du format d’une musicassette équipée d’une trappe en métal la protégeant. Elle est utilisable par un lecteur enregistreur spécifique mais compatible avec les musicassettes analogiques. Une tête fixe multiprise effectue un enregistrement linéaire sur 9 pistes (8 de données et 1 de synchronisation) de 45 minutes par face. Pour compresser le fichier, Philips met au point le PASC (Precision adaptive sub-band coding). En 1996 le DCC est abandonné.

Sony invente et commercialise le MiniDisc en 1992. Ce disque est inséré dans une enveloppe en plastique rigide de 7 centimètres de côté de façon à le protéger de la poussière et des éraflures. C’est un petit disque magnéto-optique dans lequel il faut faire tenir le contenu d’un cd. Il est donc impératif de réduire la taille du fichier originel et pour ce faire il faut en compresser les données et Sony met au point l’Adaptive transform acoustic coding (ATRAC) en 1992. La lecture du MiniDisc s’effectue comme celle d’un Cd, en revanche son enregistrement est différent. Le laser chauffe la surface du disque jusqu’au changement d’aimantation des particules magnétiques de façon à ce que la tête magnétique couplée à celle optique inscrive les données. Il a existé des lecteurs seuls et des appareils lecteurs-enregistreurs. Le MiniDisc adoptent plusieurs versions jusqu’en 2013 : tout d’abord, 145 Mo avec 60 puis 74 ou 80 minutes d’enregistrement et en 2002 les Long play proposent 320 minutes enfin en 2004 la Hi-MD (haute densité) permet d’atteindre une capacité d’1 Go en utilisant un lecteur-enregistreur compatible.

En informatique des algorithmes existent pour compresser les données. La Deutsche Luft und Raumfahrt avec l’aide de l’Union européenne (programme Eureka) développe le codage MPEG-1/2Audio – Layer 2 (Moving picture experts group) pour lancer la radio numérique : Digital audio broadcasting (DAB) en 1987

Les travaux sur une norme de compression d’informations numérique débutent à la fin des années 1980 et en 1991, deux formats sont proposés.

  •  MUSICAM : Masking pattern adapted universal subband coding and multiplexing conçu par Apple, Philips et l’IRT (l’Institut de recherche technologique) est développée pour la radiodiffusion numérique. MUSICAM est basé sur un codage psycho-acoustique et un filtrage adaptés aux sons percussifs. Cette méthode a été choisie par l’ISO MPEG Audio en raison de sa structuration modulaire en plusieurs couches de codage (layers), de sa simplicité de mise en œuvre et de sa tolérance aux erreurs de transmission.
  • ⦁ ASPEC : Adaptive spectral perceptual entropy coding, prévue pour des transmissions point à point. ASPEC est basé sur la technologie de codage entropique qui est une méthode de codage de source sans pertes pour une transmission sur un canal de communication.

En 1990, Hans-Georg Mussman, le directeur d’ISO MPEG audio met en place un groupe de travail autour de Philips, TDF-CCETT (Télédiffusion de France – Centre commun d’études de télévision et télécommunications) et Fraunhofer-Gesellschaft (institut allemand spécialisé dans la recherche en sciences appliquées). Ces chercheurs s’inspirent des deux précédents formats en y ajoutant de nouveaux outils pour créer une nouvelle norme a trois niveaux (layer) de complexité et de performance croissante. La couche 3 est adaptée à des applications nécessitant des débits réduits ce qui a fait le succès immédiat de ce format de compression. C’est sur la chanson de Suzanne Vega Tom’s Diner que les diverses couches de l’algorithme ont été finalisées. ISO-MPEG audio en fera une norme internationale en 1992.

Ils créent le MP3 (MPEG-1/2 Audio – Layer 3) dont le taux de compression ou ratio est de 1 pour 7.35, à 192 kbps ; c’est-à-dire que le fichier MP3 à 192 kbps occupe 7.35 fois moins d’espace que le fichier original d’un CD à environ 1 411 kbps tout en offrant une qualité « comparable ». La qualité optimum est obtenu à 320 kbps (le taux de réduction de débit est dans ce cas de 1 : 4.4). Pour 8 kbps il est de 1 : 8.8). En compressant les données, l’algorithme mathématique supprime les hautes fréquences, a priori inaudibles pour l’homme et impose un masque qui retire un son faible sensé être couvert par un plus fort. Malgré l’augmentation de la qualité du MP3, grâce aux progrès des encodeurs, ces fichiers offrent une restitution sonore plate avec un manque flagrant de présence. La qualité maximum du CBR (voir en-dessous) est à 320 kbps. Celles intermédiaires sont à 256 et 192 kbps. A partir de 128 kbps, on perd vraiment en qualité, le son est plat, l’image « holographique » inexistante. A 32 kbps qui est le taux d’échantillonnage « acceptable » le plus bas, la restitution sonore est dramatiquement endommagée, il n’y a plus ni dynamique ni présence.

La norme MP3 spécifie uniquement les opérations de décodage, afin de deux types de bit rates ou débit linéaire: permettre la lecture des fichiers sur tous les appareils. Selon l’algorithme de compression on obtient

  • Constant bitrate ou bit rate (CBR) ou taux d’échantillonnage fixe qui signifie que la piste audio utilise le même montant d’espace disque pour chaque seconde peu importe sa position dans le temps. Le CBR est adapté au streaming en réseau. L’espace disque nécessaire pour un fichier MP3 de 3 minutes encodé en CBR à 128 kbps = 180 (3 minutes) x 128 (kbps) x 1 024 (1 kilo octets) / 8 (bits) = 2 949 12 octets = 2.95 Mo (Mégaoctet). Pour être exact, il faut ajouter la taille des métadonnées mais c’est une quantité minime.
  • Variable bitrate ou bit rate (VBR) que l’on désigne également sous le vocable Average bit rate (ABR) ou taux d’échantillonnage variable qui consiste à adapter le nombre d’échantillons prélevés sur le signal à sa complexité locale (ou instantanée). Ceci permet d’obtenir un meilleur compromis entre la qualité de restitution, la taille du fichier et le débit nécessaire à sa diffusion sur un réseau. Le nombre de données prélevées sera supérieur dans le cas d’un son plus complexe et inférieur quand le son sera plus simple. Il n’est donc pas possible d’effectuer un calcul de l’espace disque nécessaire. Le VBR est adapté aux lecteurs MP3 et aux émissions satellite. Le gain dépend du type de morceau, il sera de 5 à 10 % en moyenne, avec un morceau de musique classique ou de jazz et avoisinera 0 pour du rock ou du rap.

 

MP3 n’est pas le meilleur encodeur, les fréquences aiguës sont quasiment inexistantes, mais comme il n’est soumis à aucune mesure technique de protection, il rencontre très rapidement le succès. Ce format est compatible avec l’ensemble des baladeurs audionumériques du marché, avec certains lecteurs de CD et DVD. Il a été adopté très rapidement par quasiment tous les sites de téléchargement gratuit ou « peer to peer » comme Napster, ou Spotify, Deezer, Dogmazic, MP3Sparks, eDonkey, … car pour des téléchargements via internet le taux de compression approche 10. Cela signifie que l’on supprime 90 % des données. Aujourd’hui le débit d’internet a considérablement augmenté, l’ADSL offre jusqu’à 25Mbits/s, et le taux de compression en MP3 proposé par les sites sérieux est de 320 kbps.

Il est inclus dans de nombreux logiciels servant à encoder comme WinAmp, MusicMatch ou JukeBox, … et dans de nombreux lecteur multimédia comme RealPlayer et VLC (VideoLanclient devenu VLC media player).

L’arrivée de formats concurrents et plus efficaces comme le WMA ou l’AAC incitent les dépositaires du MP3 à faire évoluer leur format. En 2001, ils proposent MP3 Pro qui améliore le gros défaut du MP3 en conservant certaines des hautes fréquences. A un débit de 96 kbps, le MP3 Pro est un plus efficace que le MP3 à 128 kbps. Cela induit un gain de poids de 25 %. Ainsi, plus le débit est faible, plus le gain est élevé. En revanche, avec un débit supérieur ou égal à 192 kbps, la différence est quasi imperceptible par rapport à un fichier MP3. La qualité CD en MP3 Pro est obtenue à 96 kbps, soit 720 ko pour une minute. Mais comme il n’existe pas d’encodeur gratuit supportant le MP3 Pro, ce format intéressant n’a pas rencontré de succès même si les fichiers MP3 Pro peuvent en théorie être lus par des baladeurs compatibles MP3. Ajoutons que dans la pratique la qualité sonore obtenue n’est pas perçue comme supérieure à celle obtenue en MP3.

Le Windows Media Audio (WMA) est le format de compression mis au point en 1999 par Microsoft à partir des recommandations MPEG-4 (format à l’origine du DivX). Il est utilisé par le logiciel Windows Media Player. Il exploite plus efficacement les caractéristiques de l’oreille humaine en supprimant les fréquences jugées inutiles mais en conservant certaines hautes fréquences indispensables à l’obtention d’une qualité sonore intéressante. L’algorithme de compression, permet de conserver une qualité équivalente à celle d’un CD audio avec un débit de 128 kbps, soit 1 Mo pour une minute de chanson.

Le WMA est gratuit, il offre une gestion pointue des droits numériques ou droits d’auteur (Digital right management-DRM) qui permet de définir une durée de vie du fichier ou d’interdire la possibilité de le graver. Il a été adopté par le lecteur multimédia RealPlayer et certains sites de téléchargement comme VirginMega, GBox, e-compil.fr, fnacmusic, musicMe, … . De nombreux baladeurs audionumériques et des encodeurs comme WinAmp ou des lecteurs multimedia comme VLC supportent ce format.

Il a été considérablement amélioré, il est désormais comparable aux formats MP3, OGG et autres AAC (voir plus loin). Il existe plusieurs versions : Standard, Pro, Voice et lossless (voir chapitre suivant).

Le Musepack (MPC) est un format de compression open source (les codes sources sont publics et peuvent être adaptés et modifiés par tout le monde). Bien qu’étant spécialisé pour la musique et existant depuis 1997, il est peu connu. Il est considéré comme le meilleur format pour l’encodage de la musique de 160 à 220 kbps et il est le plus rapide à l’encodage. MPC est utilisable avec tous les systèmes d’exploitation connus, il est compatible avec VLC, foorbar2000, Winamp, Nero, Exact audio copy, CDex, …

Lancé en 2000, l’Ogg Vorbis, communément appelé Ogg est un format de compression également open source, légèrement meilleur que le MP3 surtout dans les bas débits inférieurs. A 124 kbps on obtient la même qualité que celle d’un cd audio, c’est à dire 1Mo pour 1 minute. Il a été développé par la fondation Xiph.org. Il se différencie des autres formats par son algorithme. Son principe consiste à segmenter le fichier audio en paquets puis à faire agir l’algorithme de compression sur chacun des paquets de façon indépendante.

Ceci n’entraine aucune faiblesse sur certaines fréquences et surtout permet de conserver la même qualité quel que soit le type de musique. En plus, il est multi canal, jusqu’à 255 canaux et sa structure en paquet est compatible avec une diffusion en continue sur internet : le streaming (voir fin de ce document) et la radio. Approprié au traitement de la parole codée à 12 kbps, l’Oog.Speex est un format ouvert qui existe depuis 2003. Il est supporté par le Flash Player 10 depuis octobre 2008.

Opus (à l’origine Harmony) est un format  de compression audio, libre de redevances, développé par l’Internet Engineering Task Force (IETF) qui comprend Xiph.org, Mozilla corporation, Skype technologies (Microsoft) et Broadcom afin d’être utilisé par des applications interactives sur Internet. Il a été validé le 10 septembre 2012 pour être le standard du nouvel Internet à large bande audio en cours de finition : WebRTC. Il est basé sur deux propositions standards proposées par la Fondation Xiph.org : le codec CELT, orienté vers la musique, à faible temps de latence et par Skype Technologies : le codec SILK, orienté vers la voix humaine, pour la communication à distance. Opus choisit l’algorithme le plus adapté en fonction de la bande passante et du son qu’il doit transmettre. Il peut même utiliser les deux de manière simultanée. Si Skype ne l’a pas encore adopté pour ses transferts de données, il équipe en revanche Firefoox, Thunderbird et SeaMonkey ; Google Chrome et Chromium ; Internet Explorer et bientôt Opera. Pour terminer c’est le format retenu par VLC et Foobar 2000.

L’Advanced Audio Coding (AAC) a l’ambition de remplacer le MP3. Intégré à la norme MPEG-4 (format à l’origine du DivX) en 1997, il a été optimisé plusieurs fois. Il n’a pas été développé par Apple mais par un consortium composé par l’institut Frauhofer, Sony et Dolby. L’AAC propose une meilleure compression tout en gardant une bonne qualité. Il offre un meilleur ratio qualité/débit binaire que le format MP3. On obtient l’équivalent d’une qualité CD audio avec un débit de seulement 96 kbps. Apple et iTunes l’ont adopté. Bien qu’il comprenne une fonction de gestion des droits d’auteur (DRM), Apple a développé son propre système de gestions des droits numériques : FairPlay. AAC est lisible sur MacOS et Windows avec le logiciel iTunes, il est intégré à WinAmp. L’AAC a été le seul format de compression à pertes plus performant que le MP3 supporté par les iPod ; cela a fortement contribué à son succès. Il offre en plus la possibilité de gérer des sons sur 48 canaux différents, option intéressante mais pas réellement exploitée. Il est supporté par RealPlayer.

Une version optimisée améliore encore la compression : HE-AAC (High Efficiency). Ce format utilise la technique Spectral Band Replication (SBR) qui élimine les hautes fréquences redondantes et obtient une compression de 64 kbps. On peut encore avec le profil HE-AAC v2 passer à 48 kbps en n’encodant qu’un seul des 2 canaux. La différence entre ces 2 canaux est gardée de façon très compressée. Cette dernière compression est utilisée en tant que piste audio d’une vidéo.
Le format AU appartient au monde Unix et Linux, c’est un format ouvert. La fréquence d’échantillonnage est comprise entre 1 kHz et 200 kHz. Mais les applications de rendu audio ne lisent principalement que trois fréquences d’échantillonnage : 8 kHz, 22 kHz et 44.1 kHz. Ce format accepte des résolutions 8, 16, 20, 24 et 32 bits.

L’ATRAC (Adaptive Transform Acoustic Coding) est une technique de compression audio psycho-acoustique développée par Sony en 1992 pour son MiniDisc. Ce format a évolué plusieurs fois : ATRAC3 en 1999, ATRAC3plus (ATRAC3+) en 2002 et ATRAC Advanced Lossless en 2006 qui offre une compression sans pertes permettant de réduire le fichier originel de 20 à 70 %. Installé dans les baladeurs et les consoles de jeux de ce fabricant, il permet de doubler (LP2) ou quadrupler (LP4) la capacité d’un MiniDisc et d’obtenir jusqu’à 32 minutes à 66 kbps. Les 3 premières versions sont en libre accès, mais l’ATRAC3 est resté un format propriétaire de Sony. En 2007 Sony annonce la fin du support de l’ATRAC et l’adoption des formats MP3, WMA et AAC pour ses nouveaux lecteurs audio.

Le format de compression TwinVQ (Transform-domain Weighted Interleave Vector Quantization) a été développé par NTT Cyber Space Laboratories et Yamaha. Il ressemble au MP3 en comprimant encore davantage et en obtenant une meilleure qualité. Mais, il est presque 10 fois plus lent à coder que le MP3. Ce format n’est pas ouvert, il est distribué sous une licence très restrictive et il est aujourd’hui quasiment abandonné.

Ainsi, tous les fichiers audio compressés avec perte affichent un indicateur de qualité et un débit binaire (Bit rate) médiocre car l’algorithme de compression supprime des données de façon irréversible. L’indice de qualité audiophile est détestable, nous vous recommandons de ne pas les utiliser.

Spécificités des formats de compression avec pertes à partir d’un fichier WAV de 34.6 Mo :

V/ Formats de compression sans perte

La compression Lossless permet la restitution intégrale du signal original, elle réduit les données audio sans les détruire. On obtient une qualité égale dans une capacité de stockage inférieure. C’est donc un fichier propre non retouché qui est obtenu après avoir éliminé des données sans toucher au flux audio. La compression sans pertes signifie que l’algorithme utilisé permet toujours de retrouver les données d’origine.

Le FLAC (Free lossless audio codec) est lancé en 2001, puis repris en 2003 par l’équipe qui a développé l’Ogg. C’est un projet open source qui se répand car il est supporté par de nombreux matériels et logiciels : tous les systèmes d’exploitation dont Android. Il est rapide à l’encodage et au décodage en proposant un taux de compression moyen. La lecture d’un fichier FLAC est immédiate. Le FLAC élimine des données sans toucher au flux originel, il n’y a eu ni ajout, ni suppression, ni transformation de données audio. Le fichier a été nettoyé afin qu’il soit le plus léger possible. Son principe est basé sur la prédiction linéaire qui convertit les échantillons en blocs d’environ 100 ms. Pour les blocs d’échantillon identiques (par exemple les passages blancs) un codage par plage permet une décompression à la volée durant la lecture. L’échantillonnage est à virgule fixe pour que le codage soit effectivement sans pertes. On obtient une réduction de la taille du fichier allant jusqu’à 70 %.

L’ALAC (Apple lossless audio codec) a été développé par Apple en 2004 pour compresser sans pertes des fichiers. Apple n’utilise jamais l’abréviation ALAC mais parle d’Apple lossless. Après avoir été un codage spécifique au monde Mac, il est depuis 2011, disponible sous une licence Apache. Il est supporté par le lecteur multimédia RealPlayer. Les fichiers PCM sont compressés avec un taux qui oscille entre 40 et 50 %. C’est une performance inférieure à celle de ses concurrents mais il est moins gourmand ce qui lui permet d’être utilisé par des appareils peu puissants et autonomes comme des baladeurs.

L’APE (Monkey’s audio) est un format légèrement plus lent que le FLAC à l’encodage et au décodage qui propose un meilleur taux de compression. En décompressant un fichier APE, il est possible de retrouver le fichier WAV original. Il est différent des autres formats lossless en ce qu’il n’ôte aucune information au flux audio. Mais il est moins bien supporté au niveau matériel et logiciel, par exemple, il n’est pas supporté nativement par le lecteur foobar2000.

Le WavPack se positionne entre le Flac et l’APE au niveau de la compression, il est meilleur que le Flac en terme de vitesse et moins bien supporté que ce dernier au niveau matériel. C’est un format ouvert qui permet d’encoder et décoder un flux PCM en cumulant la possibilité de le faire avec ou sans pertes. Cette caractéristique nommée Hybrid, consiste à proposer un mode de compression avec pertes qui peut être complété par un fichier de correction permettant de rétablir les informations perdues. En mode sans pertes le flux encodé est rigoureusement identique au fichier audio-numérique d’origine. WavPack est surtout connu pour son format lossless.

Il existe aussi l’OptimFROG qui offre un très gros taux de compression, mais qui est très lent et très peu répandu.

Spécificités des formats de compression sans pertes à partir d’un fichier de 52.3 Mo :

Les formats qui ne compressent pas

Le prix des mémoires ayant considérablement diminué, il est aujourd’hui possible d’utiliser des formats de fichier audio plus volumineux.

Le plus courant sous Windows est le WAV (Waveform audio format) développé par Microsoft et IBM. Son équivalent chez Apple est l’AIFF (Audio Interchange File Format).

Les fichiers WAV (ou WAVE) contiennent un flux audio au format PCM qui est le format utilisé sur les CD audio, c’est-à-dire 16bits/44,1kHz. Mais il peut avoir des fréquences d’échantillonnage et des résolutions inférieures. Il est basé sur le format de fichier RIFF, il peut être mono ou stéréo. Il gère les tags (métadonnées) qui sont des mots-clef via une étiquette, un marqueur ou un libellé virtuels de façon à décrire une caractéristique et de permettre un regroupement des informations contenant les mêmes mots-clef.

L’AIFF est un format de stockage de sons développé par Apple. C’est l’équivalent du format WAV. Il propose des résolutions allant de 8, 16, 20 24 et 32 bits (à virgule flottante). Une variante l’AIFF-C permet de compresser la taille jusqu’à 6x. Apple a également développé le CAF (Core audio format) afin de s’affranchir des limitations de conteneur audio plus ancien comme le AIFF ou le WAV. Il est compatible avec le système Mac OS X d’Apple depuis la version 10.3.
Le BWF (Broadcast Wave Format) est un format audio créé par l’European Broadcasting Union à partir du WAV pour un usage professionnel. Les Fichiers BWF incluent une référence standardisée Timestamp qui permet et facilite la synchronisation avec un élément vidéo. De ce fait, BWF est le format d’enregistrement utilisé par de nombreuses stations de travail audio professionnelles de la télévision et du cinéma comme par exemple Aaton et Fostex.

Aujourd’hui, avec la baisse du prix des mémoires, le son peut être numérisé en 24 bits sans avoir besoin de réduire la taille du fichier en éliminant des informations avec un format lossy. Rappelons qu’un même fichier en qualité Studio master de 24b/192 kHz occupe 1 182 Mo et 642.15 Mo en Flac, en qualité Studio master 24b/96 kHz : 576.68 Mo et 313.24 Mo en Flac, en qualité cd audio 16b/44 kHz il occupe 176,65 Mo et 64 Mo en Flac et enfin 16 Mo en MP3/128 KBps. Nous savons maintenant que la qualité plus que médiocre du MP3, du AAC ou du WMA n’est pas digne d’une audiothèque de mélomane. Rappelons qu’un fichier MP3 ne contient que 10 % des informations d’un Cd.

Avec des machines qui travaillent en 32 bits et même 64 bits, il ne persiste plus aucunes erreurs de calculs. Le fichier obtenu grâce à des algorithmes plus longs et plus complexes atteint voir surpasse la qualité du fichier analogique de nos vieux vinyles. Mais comment profiter de cette qualité haute définition ? Quel protocole de transfert utiliser ?

VI/ Streaming

Streaming, téléchargement légal, wi-Fi, bluetooth ou liaison filaire ?

Durant le milieu des années 2000, le téléchargement illégal est une pratique courante qui privilégie la quantité à la qualité via des sites « peer to peer ». Le Mp3 et son homologue chez Mac, le AAC sont « à la mode ». Les supports enregistrés (cd) représentent encore une part primordiale du marché de la musique enregistrée. Puis lentement, la répartition des chiffres d’affaires de ce marché évolue, et depuis 2010, une nouvelle tendance s’affirme. On observe en 2012 que le streaming et les abonnements à un service numérique progressent de presque 12 % en 1 an, pour atteindre un chiffre d’affaires de 52.5 millions d’euros. La France et la Scandinavie sont les endroits du monde où les revenus du streaming représentent le pourcentage des revenus issus du marché de la musique enregistrée le plus élevé. Entre 2013 et 2014, l’évolution mondiale se confirme : le streaming par abonnement augmente encore de 34 %, celui du streaming financé par la pub de 32.3 %, le téléchargement de singles diminue de 19 %, celui d’albums de 18.7 %, enfin le chiffre d’affaires induit par la vente de Cd baisse de 11.5%. La Fédération internationale de l’industrie phonographique (ifpi) annonce qu’en 2014 « les revenus de la musique enregistrée proviennent à parts égales des ventes numériques et des ventes de disques ». Les enregistrements numériques et les enregistrements sur supports physiques représentent respectivement 46 % de marché mondial, les 8% restant proviennent des droits de radiodiffusion, de publicités ou de films… La conclusion de la directrice de l’ifpi est sans appel «  Nous constatons que le streaming domine réellement le marché numérique et nous pouvons imaginer qu’un jour le numérique constituera la majorité des ventes de musique. »

Ainsi, depuis le début des années 2010, on assiste à une indéniable augmentation du streaming. En 2014, 41 millions de personne dans le monde sont abonnés à des services de streaming. Mais qu’est-ce que le streaming ? En anglais, stream : courant, flux. Il s’agit de la diffusion en flux ou de la lecture en continu de fichier numérique via une liaison internet, satellitaire ou via les réseaux de téléphonie mobile. Le résultat est une lecture au fur et à mesure de la diffusion. Ainsi, il s’agit d’un téléchargement avec échange de données stockées de façon provisoire dans la mémoire vive (RAM) d’un ordinateur ou smartphone de façon à être lues avant d’être remplacées par les suivantes.

Si le procédé d’échange de données existe depuis les années 1920, c’est à partir de 1990 avec l’élargissement de la bande passante que l’internet arrive dans les foyers. En 1995, RealAudio Player est l’un des tout premier logiciel de streaming proposé au grand public ; après différentes versions il devient RealPlayer et est aujourd’hui supporté par tous les Os du marché. La même année Microsoft commence le développement de ce qui deviendra Windows media player finalisé en 1999. Cette année-là, Apple ajoute à Quicktime4 une fonction streaming. En 2000, ce sont Youtube et Dailymotion qui popularisent définitivement le streaming. En plus des logiciels cités, il en existe beaucoup d’autres : gratuits, payants, spécialisés pour l’image ou les jeux vidéo… . Citons Mirilis, xsplit, Open broadcaster software. Leur mise en service ainsi que leur paramétrage sont plus ou moins compliqués.

Mais, pour obtenir une qualité optimum en streaming, il faut que le débit offert via internet permette le transfert de fichiers volumineux. Depuis 2007, ceci est possible même si la partie de la bande passante d’internet réservée au flux de données musicales est minime. Pourtant, la plupart des plateformes de streaming continuent à proposer des fichiers MP3 en basse définition. Quelques précurseurs offrent des fichiers en vraie qualité Cd. En France, Yves Riesel crée Qobuz avec Alexandre Leforestier en 2007 (réel démarrage en 2008) afin d’offrir du streaming en 16b/44.1 kHz et des fichiers studio master (jusqu’à 24b/192 kHz) en téléchargement (18 millions de titres disponibles en 2014 dont 12 000 albums en qualité studio master). Tidal, lancé fin 2014, par le groupe suédois Aspiro AB et qui vient d’être acheté pour 56 millions de dollars par Jay Z (mari de Beyoncé et rappeur) propose également grâce à un partenariat avec Linn, un accès au catalogue Tidal de 25 millions de titres disponibles en streaming en vraie qualité CD (débit de 1411 kbps). Tout récemment, Deezer vient d’annoncer un service équivalent en partenariat avec Sonos.

Il s’agit donc de faire un tri parmi les sites de streaming pour profiter au mieux de fichiers en haute définition et ensuite faire en sorte qu’ils atteignent votre amplificateur après les avoir convertis en signal analogique grâce à un convertisseur. Il est possible de le faire en filaire : USB, RJ45, Toslink ou SPDIF ou en utilisant des ondes : Wi-Fi ou Bluetooth.

Filaire :

Les progrès de la norme USB permettent aujourd’hui des débits conformes au transfert de fichiers volumineux. L’USB1 24/96 avait un débit de 1.5 Mbps en mode lent et jusqu’à 12 Mbps en mode rapide ; USB2 : 24/192 : 480 Mbps soit 60 Mo/s. L’USB3  est 10 fois plus rapide : 5 Gbps soit 600 Mo/s. Opter pour une liaison filaire USB entre un ordinateur qui contient les fichiers audio haute définition et un DAC (ou convertisseur) chargé de convertir le signal numérique en signal analogique est une solution pertinente. Mais utiliser pour ce faire le câble qui relie habituellement une imprimante à un ordinateur est regrettable. Nous vous recommandons de choisir un câble USB3 d’une qualité homogène à celle de votre chaîne. Tous les fournisseurs de câbles audiophiles en proposent. Il faudra peut-être en tester plusieurs pour sélectionner celui qui convient le mieux. Et oui, même les câbles « numériques » ont des spécificités sonores tout aussi décelables que celles des câbles analogiques.

RJ45 est un connecteur à 8 broches qui équipe les câbles utilisés pour des connexions Ethernet. RJ (Registred jack) et 45 (numéro du standard RJ) est à l’origine du vocable qui définit les protocoles de raccordement : assignation du brochage, spécifications électrique du câblage et des signaux. Ce connecteur 8P8C est mâle ou femelle, il possède un système de verrouillage placé sur le côté opposé aux 8 positions de contact. Pour un Ethernet dont le débit est compris entre 10 ou 100 Mbps, ce ne sont souvent que 2 contacts voire 4 qui sont utilisés. Pour un débit d’1 Gbps, les 4 paires de connecteurs sont nécessaires. La norme édictée en janvier 2008 (NF C 15-100) impose des prises 8P8C avec un câblage à 2 ou 4 paires torsadées. Il existe plusieurs catégories de câble RJ45 : 5,6, 6a ou 7. Cette dernière est édictée par la norme ISO/CEI 11801 :2002. Elle est compatible avec les catégories précédentes mais comme elle permet la transmission de données de débits jusqu’à 10 Gbps et des fréquences jusqu’à 600 MHz, nous vous recommandons de choisir votre câble RJ45 dans cette catégorie. Comme précédemment, il faudra apporter un soin particulier au choix de ce câble et en tester plusieurs parmi l’offre des fournisseurs de câbles audiophiles.

Optique ou Toslink : C’est Toshiba (d’où Toslink) qui en 1983 propose cette connectique dotée d’une fibre optique afin de relier ses lecteurs Cd à ses amplificateurs. Insensible aux perturbations électromagnétiques et peu couteux, ce câble est très rapidement adopté par les autres constructeurs. Le signal lumineux qui est créé par une diode électroluminescente (DEL) rouge et pas par un laser permet des temps de communication très courts. L’information numérique qui transite est simple : 1 = diode allumée et 0 = diode éteinte. Du côté femelle, une petite prise carrée est cachée derrière un volet, du côté mâle, la prise est spécifique et dotée d’un détrompeur. Il n’y a aucun protocole de communication spécifique. Malgré ce que l’on peut lire sur des forums plus ou moins sérieux, la qualité du câble optique ou Toslink est primordiale. Les fournisseurs de câbles audiophiles en proposent de plusieurs qualités. Un test s’impose. S’il existe une autre connexion, nous vous recommandons néanmoins de ne pas utiliser celle-ci, la scène sonore obtenue avec un Toslink manquant de relief.

Digital coaxial ou S/PDIF : Créé par Sony et Philips (d’où Sony/Philips digital interface) ce câble est doté d’une fiche identique à celle des câbles de modulation : cinch. Mais c’est un câble singleton d’une impédance de 75 Ω totalement insensible aux perturbations électromagnétiques. Il affiche des performances intéressantes : sa résolution va jusqu’aux formats les plus élevés 24 bits ce qui en fait notre préféré pour une connexion filaire. Comme pour les autres câbles, il est opportun d’attacher de l’importance à son choix.

Sans fils :

Wi-Fi : La certification Wi-Fi alliance (wireless ethernet compatibility alliance) édicte, depuis la fin des années 1990, les normes qui régissent les communications sans fil permettant de relier entre eux plusieurs appareils. A ses débuts, les appareils en question appartiennent plutôt au monde informatique ; aujourd’hui, le monde audiophile a totalement adopté ce protocole. C’est une société de communication qui invente le vocable Wi-Fi en 1999 pour le grand public en remplacement du nom de la norme IEEE802.11b direct sequence. Il est communément admis que c’est une référence à Hi-Fi (Hight Fidelity) qui a inspiré Wi-Fi (Wireless fidelity). Cette norme permet à une liaison sans fil d’utiliser des ondes électromagnétiques de n’importe quel protocole de transport basé sur l’IP des appareils équipés d’une carte Wi-Fi. Les bandes de fréquence utilisées sont de 2.4 GHz ou 5 GHz, le débit théorique atteint 300 Mbps, celui réel est de 100 Mbps dans un rayon maximum de 100 mètres. Aujourd’hui, la norme 802.11n sait combiner jusqu’à 8 canaux non superposés, ce qui donne une capacité théorique de presque 1 Gbps par canal dans la bande des 5 GHz (bande peu utilisée en France). La puissance émise par les équipements Wi-Fi est d’environ 30 mW, c’est 20 fois moins que celle des téléphones portables qui est d’environ 600 mW. Ainsi, nous recommandons cette liaison sans fil pour un échange optimum de fichiers audio en haute définition.

Bluetooth : C’est un standard de communication apparu au début des années 2010, qui permet un échange bidirectionnel de données à très courte distance en utilisant des ondes radio UHF (ultra haute fréquence). En fait, il existe 3 classes de module Bluetooth. La plus répandue est la seconde, elle a une puissance de 2.5 mW (4 dBm) et une portée de 10 à 20 mètres Les deux autres sont peu usitées : la première a une puissance de 100mW (20dBm) avec une portée de 100 mètres et la 3e a une puissance est de 1mW (odBm) avec une portée de quelques mètres. Depuis 1994, Ericsson travaille sur ce protocole, en 1998, IBM, Intel, Nokia, et Toshiba le rejoignent et en juillet 1999, la première spécification est présentée. 3Com, Lucent Technologies, Microsoft et Motorola rallient le groupe Bluetooth SID en décembre de la même année et en mars 2006, ils annoncent la seconde génération de la technique sans fils Bluetooth qui offre un débit 100 fois meilleur. Il est passé en 6 ans de 1 Mbps à 100 Mbps, soit 12.2 Mo/s. Depuis, les normes ont proposé des sécurisations, des évolutions matériel, une technique radio (ultra wideband – UWB)….
Le vocable Bluetooth provient du surnom anglais d’un roi danois (rappelons qu’Ericsson est à l’origine de ce groupe de travail) : Harald 1er dit Bluetooth qui vers 960 a unifié les tribus danoises et rassemblé le Danemark et la Norvège. Le logo est directement inspiré des initiales runiques du nom danois d’Harald Blatand : Hagall :     et Bjarkan :   .

Les bandes de fréquences utilisées par le système Bluetooth sont comprises entre 2.4 et 2.485 GHz : 79 canaux RF (radio fréquence) numérotés de 0 à 78 et séparés par 1 MHz en commençant à 2 402 MHz. Le codage de l’information se fait par sauts de fréquences (jusqu’à 1 600 sauts par seconde). Le principe du Bluetooth tient en deux couches qui prennent en charge le contrôle du saut de fréquences et la synchronisation des horloges. Le protocole institue une communication entre le maître qui détermine la fréquence de saut et un esclave. Lorsque la liaison s’effectue via un téléphone mobile, la liaison en RF est 360 kbps, il n’est donc pas possible de faire transiter un fichier en haute définition même en APTX.

Ainsi, la meilleure restitution sonore est obtenue avec des fichiers numériques au format lossless 16 bits ou encore mieux en Studio Master 24 bits qui transitent en Wi-Fi ou en câblé via un convertisseur sur un amplificateur hi-fi.



Hifi Vaudaine – Grenoble – Hifi – Audio – Rubrique dématérialisée – Musique numérisée ou dématérialisation