Formato de archivo de audio

Un formato de archivo de audio es un formato de datos que se utiliza en las computadoras para almacenar sonidos , incluida la música y la voz humana , en forma digital . La industria ha producido muchos formatos para producción o transmisión.

El elemento del programa que convierte el archivo de señal y la señal se llama códec , abreviatura de "códec" ( codificar-decodificar ).

Las telecomunicaciones y, en particular, la telefonía móvil utilizan códecs adaptados a la transmisión de voz.

La codificación de sonidos

Los formatos de codificación de audio se derivan de estudios psicoacústicos . Limitan la cantidad de información en la señal para reducir la tasa de bits (y por lo tanto el tamaño del archivo), teniendo en cuenta la percepción humana de los sonidos y la calidad de reproducción que toleran.

Toda conversión de sonido en señal de audio analógica o digital, se limita al espectro de frecuencias correspondiente al oído humano , o un poco más.
La mayoría se beneficia de la sensibilidad reducida del oído a frecuencias más bajas y más altas al mover estas frecuencias el ruido de fondo y el ruido de cuantificación .
Los códecs también pueden detectar redundancias en la señal de audio, de modo que solo se transmita la parte impredecible de la señal. Todo lo que marca la diferencia entre señal y ruido, ya sean frecuencias musicales o ritmos, se basa en repetir un fenómeno una y otra vez.
Para lograr un rendimiento más bajo, los códecs pueden aprovechar el enmascaramiento, la frecuencia y los efectos temporales de la audición humana, así como la baja discriminación de las alturas espectrales en las dos octavas superiores de la audición.
Los sistemas más sofisticados se basan en un modelo real de audición humana y tienen como objetivo transmitir solo la información necesaria para obtener la misma percepción auditiva que para la señal digitalizada en bruto .

Las codificaciones se encuentran en varios puntos de compromiso entre el costo de producción, la tasa de bits digital, las restricciones de transmisión y la calidad de percepción.

Al perseguir el objetivo de reducir la cantidad de información, puede ser necesario definir una calidad de reproducción admisible, que sea distinta de la mejor calidad posible. Cuando el uso del códec está dirigido a la transmisión de voz, los parámetros se ajustan para este uso menos exigente que la música.
La mayoría de codificaciones dan, para un mismo decodificador, mejores resultados con procesos de cálculo largos, o que tienen en cuenta, en varias pasadas, todo el segmento de audio; La calidad de escucha puede ser menor para las aplicaciones en tiempo real, que imponen un retardo bajo.

En principio, una codificación perceptiva avanzada que proporcione, para la misma grabación, un tamaño menor que el de una codificación para CD, podría tener una calidad subjetiva superior, siempre que su original común fuera una fuente grabada con una frecuencia de muestreo y una resolución superior. En la práctica, por un lado, a menudo se eligen compresiones que favorecen una mayor reducción del tamaño del archivo, por otro lado, la fuente antes de la compresión suele ser un archivo de CD.

Actualmente, el códec más utilizado es mp3 , seguido de wma y AAC .

Debe distinguir entre formato de archivo y códec . Muchos archivos utilizan el formato RIFF , que puede contener una variedad de elementos ( " fragmentos " ). Un encabezado que ocupa los primeros cuatro bytes indica el tipo RIFF, seguido de las indicaciones necesarias de la ubicación de los demás elementos, construidos recursivamente de la misma forma. Estos elementos pueden contener todo tipo de datos. Los de aquellos elementos que codifican el sonido indican el códec en su encabezado. La máquina ignora los elementos que no puede decodificar. Un archivo identificado como wavpuede contener elementos cuyo códec sea mp3.

Algunos sistemas y usuarios humanos pueden utilizar la extensión de nombre de archivo de datos , que se refiere convencionalmente al formato de archivo. Pero esta indicación, la mayoría de las veces, indica una lista de posibles codificaciones, y no la codificación en sí. Se trata más del sistema de clasificación de los archivos del disco duro que del formato en sí. Cambiar este nombre no afecta la forma en que la máquina decodifica el archivo, solo puede dificultar la búsqueda del programa más adecuado para hacerlo.

Características de las codificaciones de audio

Número de canales de sonido codificados: mono, estéreo, multicanal.
Tasa de muestreo : número de muestras por segundo que se utilizan para describir numéricamente la señal que representa la onda de sonido para cada canal. El ancho de banda depende en gran medida de esta característica.
Resolución de cada muestra en bits. La relación señal / ruido depende de esta característica si el ruido de cuantificación es mayor que el ruido inherente de la señal. El tramado aumenta ligeramente el ruido de fondo, para hacerlo independiente de la señal y moverlo a una región del espectro.
Bitrate digital: tamaño del archivo en relación con la duración del sonido.
compresión de datos o reducción de la tasa de bits en comparación con un archivo sin formato.
- con reconstrucción de la forma de onda inicial (codificación de entropía), o
- con reconstitución (más o menos precisa) de la impresión sonora (codificación psicoacústica).
Potencia de cálculo necesaria para la codificación.
Potencia de cálculo necesaria para decodificar.
Estructura que permite o no
- para comenzar a reproducir el archivo cuando aún no sabemos el final,
- reproducir un archivo desde el medio sin saber el principio,
- para saltar a una ubicación específica,
- para registrar datos auxiliares y auxiliares ( metadatos ),
- gestionar los derechos de reproducción digital ( DRM ),
- adaptar automáticamente el nivel a la sala de escucha.

Según el uso al que se destina el archivo, determinadas características son más importantes que otras.

Un formato destinado a reproductores de música:

Dos canales son suficientes.
El flujo debe reducirse para registrar tiempos suficientemente largos en las memorias de los reproductores portátiles.
La potencia de cálculo necesaria para la decodificación debe ser baja para permitir una buena autonomía de los lectores.
El ancho de banda debe ser bueno para escuchar música.
La relación señal / ruido no tiene por qué ser muy buena, porque el consumo no se realiza en salas silenciosas destinadas a la escucha.
La gestión de los derechos de reproducción es de interés para los productores.
La posibilidad de adaptación automática a la sala de escucha (elevando el nivel de pasajes débiles cuando el ambiente es ruidoso gracias a los datos auxiliares) es una ventaja.
La reconstrucción de la forma de onda es innecesaria.
La potencia informática necesaria para la codificación puede ser significativa.

Un formato destinado a la producción cinematográfica:

Se necesitan de dos a ocho canales.
El ancho de banda debe ser excelente, solo puede deteriorarse más tarde.
La relación de fase entre canales influye en la estereofonía.
La relación señal / ruido debe ser excelente y es preferible la reconstrucción de la forma de onda.
1. las señales están llamadas a ser retocadas, mezcladas, procesadas,
2. El consumo final se realiza en locales tranquilos destinados a la escucha.

Al tratarse de una actividad industrial:

La velocidad de bits y la potencia de cálculo necesarias tanto para la codificación como para la decodificación son casi irrelevantes.
La gestión de los derechos de reproducción y la adaptación automática a la sala de escucha carecen de interés en esta etapa.

En un formato dado, los archivos se pueden dividir en varias escalas de cuantificación (8, 16 o 24 bits) con diferentes frecuencias de muestreo (por ejemplo, 22,05 kHz , 44,1 kHz , 48 kHz , 88,2 kHz , 96 kHz , 176,4 kHz , 192 kHz). ,) aplicado a varios canales ( monofónico , estereofónico , envolvente 5.1 , etc. ). Los formatos que utilizan la reducción de la tasa de bits mediante codificación psicoacústica ofrecen varias calidades de reproducción, correspondientes a una reducción mayor o menor de la tasa de bits.

Los diferentes canales de sonido pueden ser reales y multiplexados , o mezclados discretamente con las señales principales, que todos los decodificadores reproducen, mientras que solo aquellos que utilizan algoritmos específicos ( surround ) decodifican y reproducen los demás. Cuando hay una reducción en el rendimiento, puede o no usar redundancia entre los canales.

Los códecs pueden utilizar dos estrategias, con sus respectivas ventajas y desventajas.

“ Velocidad de bits constante ” o CBR: La “velocidad de bits fija” da a cada cuadro del archivo, correspondiente a una duración elemental, del mismo tamaño.
" Velocidad de bits variable " o VBR: La "velocidad de bits variable" adapta la compresión a cada pasaje del archivo, para obtener una calidad homogénea. En general, se puede lograr una mejor calidad subjetiva general para el mismo tamaño de archivo, ya que el archivo puede tener más información para pasajes difíciles. Por otro lado, esta estrategia es difícil de implementar para la codificación en vivo; normalmente necesita al menos dos pasadas para la codificación. El primero identifica los pasajes que contienen más información, el segundo distribuye la compresión de acuerdo con los resultados del primero y el objetivo de tamaño general impuesto por el usuario. También es más difícil llegar a un punto identificado solo por el tiempo.

Usando formatos

Un formato se denomina "producción" cuando se utiliza para realizar un prototipo, "emisión" cuando se graba, el que sufrirá más cambios se copiará a un gran número de copias o se emitirá en un canal de comunicación de velocidad de datos limitada.

En un proceso de producción, el tamaño del archivo tiene menos importancia. Elegimos formatos que conservan al máximo la información registrada en los elementos sonoros, y que permiten un procesamiento de mejor calidad, incluso a costa de un gran consumo de recursos informáticos. La mayoría de las veces, se evita la compresión de datos e incluso se aumentan los tamaños de los archivos, por ejemplo, agregando metadatos encapsulados y convirtiendo el formato de datos digitales de números enteros a punto flotante . La mayoría de las veces, la señal se puede restaurar después de decodificar idéntica a la que era antes de la codificación.

En la transmisión de archivos de audio, el tamaño de los archivos es mucho más importante. La codificación tiene como objetivo restaurar la impresión sonora, sin garantizar que la señal se reproduzca de forma idéntica. La reducción en la velocidad de datos hace que la calidad del procesamiento posterior sea incierta.

La cuestión de la calidad

Al considerar la calidad de transmisión desde el punto de vista de la percepción humana, su evaluación solo puede realizarse con métodos psicoacústicos, ya sea mediante el estudio de la apreciación de muestras de oyentes, o con modelos de evaluación desarrollados a partir de estas encuestas. Este control de calidad de los métodos de codificación ha sido un campo de investigación desde 1990. La Unión Internacional de Telecomunicaciones ha definido "métodos de evaluación subjetiva de la calidad de la transmisión" , que dan como resultado una puntuación de opinión media. (MOS, " Puntuación de opinión media " ) que puede variar entre 0 (muy malo) y 5 (excelente, comparable a la versión original).

Para un formato de archivo sin reducción de la tasa de bits, la calidad de reproducción puede estimarse bastante bien por la tasa de bits digital, que es el producto de la frecuencia de muestreo y el número de bits. El CD, a 44,1 kHz y 16 bits, puede servir como punto de comparación en esta evaluación . Cuando reduce la tasa de bits, la calidad se deteriora rápidamente; cuando aumenta, mejora cada vez más marginalmente a medida que aumenta el flujo. Para la grabación en vivo, donde, a diferencia del CD terminado, no podemos controlar y anticipar el nivel, se aprecia una resolución más alta, especialmente porque generalmente no queremos comprimir la dinámica del sonido en esta etapa.

Con la ayuda de nuevos medios informáticos, el sonido se puede digitalizar en 24 bits. Esto logra una relación señal-ruido mayor que la del equipo de grabación de sonido. Para la mezcla y procesamiento de la señal, es preferible utilizar una resolución más alta, para evitar que la acumulación de redondeos en los muy numerosos cálculos que requieren los filtros y las mezclas deterioren la señal. En la codificación de coma flotante, 32 bits ( precisión simple IEEE 754 ) son suficientes para evitar esta acumulación. Algunas máquinas funcionan en 64 bits ( IEEE 754 de doble precisión), por lo que los errores se reducen al infinito, a costa de un enorme margen de cálculos innecesarios.

Asimismo, aumentar la frecuencia de muestreo al tomar un sonido le permite utilizar filtros anti-aliasing menos agresivos. Cuando los filtros tienen que pasar de “pasar” a “cortar” en una octava , como en el CD, transmiten un poco irregularmente la parte de la señal que debe pasar, y no pueden cortar completamente la parte que debe desaparecer. Los mejores filtros requieren mucho cálculo e imponen un retraso significativo en la señal. Es posible posponer esta operación hasta la fase final de producción (masterización en música). Los dispositivos modernos ofrecen frecuencias de muestreo dobles y cuádruples de CD: 88,2 kHz y 176,4 kHz y las de televisión: (48 kHz ), es decir, 96 kHz y 192 kHz .

El uso de formatos de mayor calidad es fundamental durante las fases de grabación y producción. La precisión adicional así obtenida permite cálculos más precisos durante el procesamiento digital en software de audio. Esto permite una mejora sutil de la calidad al aplicar efectos como la reverberación. Y el costo se distribuye entre las decenas de miles de consumidores del producto terminado.

El formato del CD obedece a otros criterios. Cada oyente debe adquirir el material para escuchar. Éste no debería ser demasiado caro. La grabación no está pensada para ser modificada: el nivel puede explotar la totalidad de la dinámica de los medios. El CD, con un rango dinámico efectivo de aproximadamente 92 dB, es adecuado para una dinámica de sonido de 70 dB , correspondiente a una mezcla de música clásica. Para otros géneros musicales, es más que suficiente, a juzgar por la evolución de las mezclas (ver Volume War ). También se corresponde con el estado del arte de la década de 1980, mejorado progresivamente por los avances en los filtros digitales y el dither .

Existen ofertas que prometen un sonido de calidad superior al CD: para los discos físicos, el DVD-Audio o el SuperAudio CD de Sony , que tiene la ventaja de existir en versión híbrida: es legible al mismo tiempo según el estándar de CD Audio clásico, en todos los reproductores y en SACD en un reproductor dedicado. Por un lado, estas afirmaciones han sido impugnadas, mientras que al mismo tiempo, se mejoró el sonido del CD, sin cambiar el formato, y por otro lado, la audiencia de audiófilos a la que se dirigen estos argumentos parece haber sido demasiado pequeña: para escuchar una posible diferencia, se necesita una instalación bastante grande. Pero la existencia de esta diferencia no se reconoce universalmente; por ejemplo, las salas de cine ofrecen sonido multicanal de alta calidad con alta dinámica, utilizando solo una codificación ligeramente superior a la de CD, 48 kHz y 16 bits.

La mayoría del público no solo se conforma con la calidad de CD, sino que recurre a formatos más portátiles, a veces en detrimento de la calidad de reproducción. Para las aplicaciones audiovisuales, no tiene otra opción.

Formatos de archivos de audio

RIFF

Debido a que muchos formatos de audio se basan en el intercambio de recursos de formato de archivo (RIFF estándar), un formato de intercambio de archivos de recursos, debe ser descrita por primera vez, a pesar de que es un estándar de propósito general.

El principio es definir contenedores y extremos ( chunks (en) ), ambos identificados por sus primeros cuatro bytes, que generalmente son caracteres ASCII , para que puedan ser leídos por los técnicos que abren el archivo con un editor hexadecimal, seguido de cuatro bytes. que indican dónde está el final del contenedor (este número de bytes limita el tamaño de un archivo RIFF a 4 GiB ).

Un archivo RIFF comienza con "RIFF" y la longitud completa; luego se encuentra el identificador del primer subcontenedor, por ejemplo “INFO” seguido de la longitud de este extremo, al final del cual comienza el siguiente, por ejemplo “WAVE” seguido de la longitud de este extremo.

WAV

El formato WAV (o WAVE), ( " Formato de archivo de audio de forma de onda " ) es un contenedor basado en el formato de archivo RIFF , en el que su identificador es "WAVE". Puede contener codificaciones de audio con o sin reducción de tasa de bits, mono, estéreo o multicanal, fue desarrollado por Microsoft e IBM . La información necesaria para la decodificación se puede encontrar al principio del archivo. El WAV se utiliza para almacenar metadatos en el archivo.

La mayoría de las veces, contiene audio sin reducción de datos, con diferentes frecuencias de muestreo y resoluciones.

El sufijo de los archivos creados es .wav.

BWF

La Unión Europea de Radiodifusión ha definido una extensión de radiodifusión del formato WAVE para uso profesional, el " Broadcast Wave Format " (BWF para abreviar). Este es un bloque ( fragmento ) de metadatos agregado al archivo .wav. En el formato RIFF, los programas que encuentran un fragmento que no pueden interpretar simplemente lo ignoran. Por lo tanto, los archivos BWF son compatibles con los reproductores WAVE clásicos. Su sufijo sigue siendo .wav. Es el formato de grabación estándar de muchas estaciones de trabajo de audio de películas y televisión profesionales.

El bloque de extensión de transmisión se identifica en el archivo WAV por el código bext( " extensión de transmisión " ). Incluye una referencia de marca de tiempo estandarizada que permite la sincronización con un píxel separado, así como información de medición e identificación de contenido para volumen, dinámica y nivel máximo.

Las grabadoras multipista de Sound Devices, Zaxcom, HHB USA, Fostex, Nagra y Aaton utilizan BWF.

Ogg

El formato Ogg es un formato libre , fruto de la fundación Xiph.org . Ogg es un contenedor que puede contener audio sin pérdidas ( FLAC ), codificado con el códec psicoacústico Vorbis , audio hablado ( Speex ) y video ( Theora ). Por tanto, un “archivo Ogg” puede contener una u otra (o una combinación) de pistas.

AIFF

El AIFF es el equivalente al formato WAV en las PC de Apple . Se aceptan resoluciones de 8, 16, 20, 24 y 32 bits (punto flotante).

El sufijo de los archivos creados es .aif.

Una variante del AIFF-C permite comprimir el tamaño hasta 6x.

coste y flete

El CAF ( formato de audio Core ) fue desarrollado por Apple para superar las limitaciones de la parte de audio más antigua como AIFF o WAV.

Es compatible con el sistema Mac OS X de Apple desde la versión 10.3 y Quicktime 7 lo puede leer.

CRUDO

RAW ( Real Audio Wrapper ) es un formato de audio utilizado para representar datos de sonido de modulación de código de pulso sin encabezado ni metadatos. El archivo RAW no se puede utilizar sin la información sobre la frecuencia de muestreo, el número de bits de la cuantificación y su ley lineal o logarítmica, así como la codificación de los valores big-endian o little-endian , así como el número de canales, que debe transmitirse a otro lugar.

Formato de audio sin comprimir

El PCM no es más que la representación de la señal de audio muestreada , cuantificada y codificada .

La codificación se reduce a la elección de la representación digital , que puede ser, para el mismo valor de nivel de cuantificación, un entero positivo (sin signo), un entero con signo, un entero con signo además de 2 n , o un punto flotante . Los canales se multiplexan muestra por muestra. Cada muestra codifica y decodifica de forma independiente; nunca es necesario saber más de una muestra para decodificar y, por lo tanto, una secuencia o archivo PCM puede cortarse o reemplazarse en cualquier momento.

El software de creación de música puede producir fácilmente este formato, como las grabadoras digitales . Excepto en el caso de la conversión de frecuencia de muestreo, necesaria, por ejemplo, para utilizar una fuente de CD muestreada a 44,1 kHz en un montaje audiovisual muestreado a 48 kHz , o cuando se cambia la resolución, lo que requiere una repetición, los pasos de las operaciones de codificación y decodificación se limitan a analógicos. -conversión digital y conversión de digital a analógico o cambio de formato digital. Los semiconductores y los programas que realizan estas operaciones se denominan comúnmente con la designación genérica de códecs .

El audio PCM generalmente se almacena en un formato de contenedor WAVE en Windows o AIFF en Mac OS , incluido un bloque de información que contiene la configuración de representación digital requerida para la decodificación de datos.

Formatos de compresión de audio reversibles

La compresión de audio reversible se basa, como con cualquier otro archivo de computadora, en identificar redundancias en archivos o transmisiones de audio. Con referencia a la teoría de la información , se describe como la codificación de la entropía . Los formatos de música utilizan métodos de compresión complejos, como la codificación de Huffman o el proceso de predicción de reconocimiento parcial . Cuanto más complejo sea el método, más tiempo de recursos necesitará el códec. Algunos métodos de compresión realizan dos pasadas, una de reconocimiento de archivos y la segunda de codificación; por lo tanto, implican un retraso bastante grande para los flujos.

La compresión sin pérdida ( lossless ) significa usar un algoritmo tal que aún se pueden encontrar los datos originales.

Normalmente, la compresión reversible permite dividir el tamaño de los archivos entre dos o tres. Se utiliza relativamente poco, porque esta ganancia es pequeña en comparación con las permitidas por la compresión no reversible, que sin embargo utiliza los mismos métodos, después de haber eliminado la información considerada irrelevante.

FLAC

El formato FLAC ( Free Lossless Audio Codec ) es una forma gratuita de compresión de audio sin pérdidas.

Mantenido por la fundación Xiph.org , este formato es muy popular para archivar, dada su alta tasa de compresión sin alterar los datos.

EN LA C

El ALAC ( Apple Lossless Audio Codec ) es un formato de codificación sin pérdida (lossless) creado en 2004 por Apple.

Acortar

Shorten también dice que SHN es un formato de audio que aplica un método estándar de compresión de datos .

Formatos de compresión de audio irreversibles

La compresión de audio con pérdida (lossy) se basa en algoritmos especializados para determinar qué transformaciones simplifican la representación del sonido y, al mismo tiempo, reproducen mejor la impresión de sonido. Disminuye el tamaño del archivo eliminando matices que no se perciben o son menos esenciales para el contenido. La eliminación es definitiva, crear un archivo en un formato de alta calidad a partir de un archivo comprimido de esta forma solo puede servir estrictamente para reducir la carga computacional del decodificador en lectura.

El formato más conocido es MPEG-1/2 Audio Layer 3 , que tiene el sufijo .mp3. Este formato ofrece una calidad de sonido muy buena para una velocidad de bits de 128 kbit / s . Es este formato el que se utilizó masivamente para transferir música a través de Internet desde finales de la década de 1990. Rápidamente aparecieron reproductores portátiles con memoria regrabable y capaces de leer directamente este formato.

En la década de 2000 se propusieron nuevos formatos. Debido a los avances en los algoritmos y la capacidad computacional del hardware, superan a MP3 en una calidad de tasa de bits uniforme y pueden lograr una calidad más alta. Además, algunos son menos restrictivos que MP3 en términos de derechos de uso (Ogg es un formato libre). Pero MP3 sigue siendo el más utilizado, porque la llegada continua de nuevos formatos, que ofrecen una ventaja bastante pequeña sobre los anteriores, no permite que todos los reproductores puedan configurar y leer un estándar mejor que MP3.

El formato MP3 le dice al decodificador cómo reconstruir una señal de audio a partir de los datos comprimidos. No establece ninguna regla para calcular la mejor forma de representar el sonido original. Por lo tanto, los códecs MP3 han logrado avances significativos desde el inicio del uso de este formato.

La codificación MP3 normalmente permite una ganancia de un factor de 10 en el tamaño del archivo. Esto ha hecho posible no solo el almacenamiento de un tremendo tiempo de escucha en medios informáticos, sino también su intercambio a través de Internet, a menudo de forma ilegal.

AC-3

El formato de compresión AC-3 (o Dolby Digital ) es un estándar introducido por la empresa estadounidense Dolby Laboratories a principios de la década de 1990.

Puede codificar audio multicanal 5.1 ( 6 canales ), con velocidades de bits que oscilan entre 32 y 640 kbit / s . Este formato se utiliza en proyecciones de cine de 35 mm , en transmisiones de televisión HD, en soportes DVD y Blu-ray , en consolas de juegos.

MP3

MP3 es la abreviatura de MPEG-1/2 Audio Layer 3 . La sección de audio del Moving Picture Experts Group ( MPEG ) en 1990 reunió las técnicas de compresión MUSICAM , desarrolladas para la transmisión digital, y ASPEC , pensadas para las transmisiones punto a punto, en un solo estándar. El estándar tiene tres niveles ( " capa " ) de complejidad y rendimiento crecientes, lo que permite una amplia variedad de aplicaciones. La capa 3 es adecuada para aplicaciones que requieren velocidades reducidas, lo que hace que el mundo de Internet adopte este formato muy rápidamente . ISO lo convertirá en un estándar internacional en los años 92-93.

La música generalmente se codifica a una velocidad de bits de 192 kbit / s , lo que corresponde a una relación de compresión ( relación ) de 1 a 7,35, es decir, un archivo codificado en mp3 ocupa 7, 35 veces menos espacio que un archivo sin comprimir grabado a 44,1 kHz . La calidad máxima se alcanza a 320 kbit / s (tasa de reducción de la tasa de bits 1: 4,4). El habla generalmente se codifica en mono a una velocidad de 48 kbit / s (1:15). La velocidad mínima de transmisión de datos es de 8 kbit / s (1:88).

El estándar .mp3 solo especifica las operaciones de decodificación, por lo que los archivos se pueden reproducir en todos los dispositivos. La calidad del resultado, a la misma tasa de compresión, depende, hasta cierto punto, del codificador. La precisión ligada a la potencia de cálculo, así como la estrategia de codificación, que puede ser en tiempo real o en varias pasadas, están involucradas. Los codificadores pueden estar sujetos a regalías . El codificador MP3 LAME (V5) proporciona 130 kbit / s con una calidad comparable a AAC (codificación de audio avanzada) a 48 kbit / s .

El sufijo de los archivos creados es .mp3.

Tipo de compresión: tasa de bits constante (CBR, Constant Bit Rate ) o tasa de bits variable (VBR, Variable Bit Rate ).

mp3PRO

El formato mp3PRO , resultado de una colaboración entre Thomson Multimedia y el Instituto Fraunhofer , combina el algoritmo MP3 y un sistema para mejorar la calidad de los archivos comprimidos llamado SBR for Spectral Bandwidth Replication .

Este formato fue lanzado a finales de 2001; un archivo MP3pro de 64 kbit / s tiene una calidad equivalente a la de un MP3 de 128 kbit / s .

El sufijo de los archivos creados es .mp3.

Ogg Vorbis

Vorbis se diferencia de MP3, WMA y otros AAC por su algoritmo. Segmenta las fuentes de audio en paquetes sucesivos, actuando primero el algoritmo de compresión sobre cada paquete independientemente de los demás. Esto le permite tener muy pocas debilidades en ciertas frecuencias y mantener la misma calidad independientemente del tipo de música.

El sufijo de los archivos creados es .ogg o, a veces, .oga.

Por abuso de lenguaje, llamamos archivos de música 'archivo Ogg' comprimidos por el algoritmo de Vorbis. Deberíamos hablar de archivo Ogg Vorbis cuando mencionamos un archivo .ogg que contiene solo una banda sonora en formato Vorbis.

VQF o TwinVQ

El formato TwinVQ ( Transform-domain Weighted Interleave Vector Quantization ) fue desarrollado por NTT Cyber Space Laboratories con el apoyo de Yamaha. Con el mismo espíritu que MP3 , comprime aún más y con mejor calidad. Lamentamos un tiempo de codificación demasiado largo, casi 10 veces más lento que MP3 . Además, llegó mucho más tarde y se distribuyó bajo una licencia muy restrictiva, ha tenido pocos seguidores y está más o menos abandonado.

El sufijo de los archivos creados es .vqf, .vql o .vqe.

WMA

El formato WMA ( Windows Media Audio ), creado por Microsoft a partir de las recomendaciones de MPEG-4 en 1999, es utilizado por el software Windows Media Player . Este formato está vinculado a una sofisticada gestión de derechos de autor ( Digital Rights Management , en inglés Digital Right Management o DRM) que permite definir, por ejemplo, una vida útil limitada para los archivos o prohibir las posibilidades de grabación.

Hay varias versiones del códec (wma7.1, wma9, wma pro).

El sufijo de los archivos creados es .wma.

A

El formato AU está bastante extendido gracias a Unix y Linux . La frecuencia de muestreo está entre 1 kHz y 200 kHz . Pero las aplicaciones de reproducción de audio leen principalmente solo tres frecuencias de muestreo: 8012.821 (entrada de códec), 22050 y 44,100 hercios.

El sufijo de los archivos creados es .au.

Se aceptan resoluciones de 8, 16, 20, 24 y 32 bits (coma flotante).

PPA

ASF Formato de secuencia avanzada , es un formato contenedor de Microsoft de audio y vídeo en streaming .

Automóvil club británico

AA (en) Audible , es un formato utilizado por Apple para audiolibros .

AAC o MPEG-2 AAC

El AAC ( codificación de audio avanzada ) es una extensión de MPEG-2 y se actualizó en MPEG-4 , MPEG-4 versión 2 y MPEG-4 versión 3. Se reconoció a finales de abril de 1997.

El sufijo de los archivos creados es .aac, .mp4, .m4a.

Apple y AAC

Apple ha elegido AAC como su códec preferido, se encuentra en su iPod y su software iTunes . Para las ventas de música en línea iTunes Music Store , el estándar AAC no ofrece un sistema de gestión de derechos digitales ( DRM ), Apple ha desarrollado su propio sistema, llamado FairPlay . Se puede reproducir en Mac OS y Windows, solo con el software iTunes. En enero de 2009, Apple anunció la eliminación de FairPlay DRM de toda la música en su sitio iTunes Store 2.

El hecho de que AAC sea el único formato de compresión mejor que MP3 compatible con iPods ha contribuido enormemente a su popularidad. Sin embargo, no es suficiente para que se establezca como el sucesor de MP3, ya que otros formatos mencionados son en gran medida iguales en rendimiento.

ATRAC

El ATRAC ( Adaptive Transform Acoustic Coding ) es una técnica de compresión de audio psicoacústica (hay una opción puramente estadística) desarrollada por Sony en 1992 para su MiniDisc . Este formato ha sufrido varios cambios: ATRAC3, ATRAC3plus (coloquialmente escrito ATRAC3 +) y ATRAC Advanced Lossless se sucedieron en 1999, 2002 y 2006 respectivamente.

Formatos multipista

Los formatos multipista son una innovación reciente. Consisten en encapsular en un archivo diferentes bandas sonoras, que luego el usuario puede combinar en las proporciones que más le convengan. La idea es ofrecer, para una pieza musical, la pista correspondiente a cada instrumento (y la voz) por separado. A continuación, el usuario puede crear su propia versión.

El U-MYX se había utilizado para incluir partes extra en álbumes.

Estos formatos tienen el inconveniente de que no se pueden escuchar sin ordenador. Sin embargo, la aparición de teléfonos inteligentes que actúan como reproductores portátiles y capaces de ejecutar aplicaciones independientes permite que estos formatos se vuelvan transportables, incluso para la reproducción con mezcla.

U-MYX

El U-MYX es un formato multipista legible con una aplicación dedicada, publicado por la misma empresa que desarrolló el formato. Este formato se utilizó para proporcionar pistas en versión multipista como un bono en álbumes, la aplicación se entregó junto con las pistas, todo en una sesión de CD visible solo si el disco se reprodujo en una computadora.

A pesar de estos ejemplos de uso, el futuro de U-MYX es incierto, ya que la empresa que lo produce no tiene muy claros sus planes futuros.

MXP4

El MXP4 es un formato multipista en el que las pistas están encapsuladas en Ogg. Producido por una empresa francesa, el formato se benefició de una fuerte cobertura mediática en la prensa francesa, presentada como un “sucesor del MP3”. Una expresión que puede parecer exagerada, los formatos multipista simplemente juegan un papel diferente.

Formatos propietarios

Algunos de estos formatos se han vuelto obsoletos, como el SDII de Digidesign

Formatos audiovisuales

Estos formatos contienen tanto archivos de imagen como archivos de audio, así como código de tiempo o pseudocódigo de tiempo (bandera).

Por ejemplo: Quicktime es multiplataforma y utiliza muchos estándares libres de la industria, algunos otros, muy orientados, son de pago. Estructura de datos versátil y polimórfica, algunos de ellos también se utilizan para la transmisión .

CD de audio de 1993 (QuickTime 1.6);
MPEG-1 y MIDI de 1994 (QuickTime 2.0);
DV y H.261 de 1998 (QuickTime 3.0);
H.263 , Macromedia Flash y SMIL de 1999 (QuickTime 4.0);
MPEG-2 , MPEG-4 , AAC , 3GPP y 3GPP2 de 2002 (QuickTime 6.0);
H.264 e integración con OpenGL desde 2005 (QuickTime 7.0).

Calcular la tasa de bits y el peso de un archivo de audio

Débito

velocidad de bits (kbit / s) = frecuencia de muestreo (kHz) x cuantificación (bit) x número de canales Ejemplo: el CD de audio:

frecuencia de muestreo: 44,100 Hz
resolución: 16 bits
canales: 2 ( estéreo )

tasa de bits = 44100 × 16 × 2 = 1411200 bit / s

esta alrededor

1411 kbit / s o 1378 kibibit / s .
por minuto: 84,7 Mbit o 80,7 Mibibit
por hora: 5,1 Gbit

Peso

Tamaño de un MP3 de 192 kbit / s con una duración de 3,75 minutos: [tiempo (s)] x tasa de bits (kbit / s) / 8000: [3,75 × 60] × 192/8000 = 5,4 MB .

Telefonía

G.711 : estándar de compresión de audio utilizado para videoconferencias y telefonía fija H.323 y H.320.
G.722.2 : estándar de compresión de audio de "banda ancha" utilizado en telefonía móvil
G.723 : Anteriormente referido a un estándar de códec de audio de tipo MICDA ... G.723.1, se refiere a otro estándar de códec de audio de tipo vocodificador.
G.726 : otro códec para el teléfono
G.729 : utilizado para codificar la parte de audio de una videoconferencia
Voz sobre IP de la red : a veces llamada telefonía IP o telefonía por Internet , a menudo abreviado como "VoIP" (abreviado de Inglés de voz sobre IP )

Bluetooth

La transmisión Bluetooth puede utilizar varios códecs.

SBC : “ Códec de subbanda de baja complejidad ” es un códec de compresión de audio y video especialmente diseñado para aplicaciones de audio y video Bluetooth. Debe ser parte de BlueTooth.
apx-X : Códec de subbanda de baja complejidad es un códec de compresión de audio y video especialmente diseñado para aplicaciones de audio y video Bluetooth. Fue desarrollado por la empresa CSR, da derecho a regalías. Por lo tanto, solo está disponible en productos de los fabricantes que pagan estas regalías. Apt-X está presente en una amplia gama de equipos que utilizan Bluetooth; equipos de audio, en móviles de alta gama desde hace unos años (HTC One M7, M9 ...), ¡muy pocos portátiles! La lista más completa parece estar en http://blog.cobrason.com/2014/05/la-liste-de-tous-les-appareil-certifies-apt-x-fevrier-2013/ pero las listas oficiales están en csr.com y aptx.com.
A2DP : el perfil de distribución de audio avanzado es un perfil de Bluetooth .

Ver también

Bibliografía

Notas y referencias

(en) John Watkinson , El manual de MPEG: MPEG-1, MPEG-2, MPEG-4 , Focal Press,2004, 2 nd ed. , 435 p. ( ISBN 978-0-240-80578-8 , leer en línea ) , pág. 169-170.
Ver entre otros (en) B. Paillard , P. Mabilleau , S. Morissette y Joël Soumagne , “ PERCEVAL: Evaluación perceptual de la calidad de las señales de audio ” , Revista de la AES , vol. 40, n hueso 1-2,1992( leer en línea ) ; (en) Thilo Thiede y col. , " PEAQ - El estándar de la UIT para la medición objetiva de la calidad de audio percibida " , Revista de la AES , vol. 56, n hueso 1-2,2008( leer en línea ) ; (en) Inyong Choi , Barbara G. Shinn-Cunningham , Sang Bae Chon y Koeng-Mo Sung , “ Medición objetiva de la calidad auditiva percibida en sistemas de codificación de compresión de audio multicanal ” , Revista de la AES , vol. 56, n hueso 1-2,2008( leer en línea ).
P.800: Métodos de evaluación subjetiva de la calidad de transmisión , en el sitio web del UIT-T
Ver Muestreo (señal) # Filtros anti-aliasing .
(in) Stanley P. Lipschitz y John Vanderkooy , " Por qué la conversión Sigma-Delta de 1 bit no es adecuada para aplicaciones de alta calidad " , Documento de la convención de la Sociedad de ingeniería de audio ,2001( leer en línea [PDF] ).
Véase European Broadcasting Union: Specification of the Broadcast Wave Format " EBU Technical document 3285 " ,Julio de 1997).
Sound Devices , fabricante de productos portátiles profesionales.
Zaxcom .
HBB Estados Unidos .
Fostex .
Nagra .
Aaton .
(en) ffmpeg, " Tipos de audio sin procesar " : " pcm_s16le PCM significa" tamaño de onda similar al tradicional "(bytes sin procesar, Básicamente). 16 significa 16 bits por muestra, "el" significa "little endian", s significa "firmado", u significaría "sin firmar" " . " Little Endian " se refiere a la organización del número de registro, aquí empezando por el byte menos significativo ,.
(en) Texas Instruments ' TLV320AIC1103 PCM codec " .
" ADONIS / SIAF / CINES-GM - 0.4 " , en Archives de France (consultado el 16 de julio de 2016 ) : "FLAC se usa ampliamente como formato de archivo (compresión sin pérdida)" , p. 68.
(en) John Watkinson , El manual de MPEG: MPEG-1, MPEG-2, MPEG-4 , Focal Press,2004, 2 nd ed. , 435 p. ( ISBN 978-0-240-80578-8 , leer en línea ) , pág. 199.
ISO / IEC 11172-3: 1993 .
(en) Gabriel Bouvigne para MP3'Tech - www.mp3-tech.org, " Prueba pública AAC de 48 kbit / s " ,junio de 2007.
(en) https://www.wired.com/epicenter/2009/08/mxp4s-interactive-music-format-coming-to-iphone/ .
http://www.lemondenumerique.com/?p=3869 .
http://www.timrubber.com/le-mxp4-ne-va-pas-remplacer-le-mp3/ .
Según el léxico AFNIC , ver http://www.afnic.fr/doc/lexique/d#diffusioncontinue .