Em formação

Codec / Vocoder de áudio GSM

Codec / Vocoder de áudio GSM


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Uma variedade de formas diferentes de codec de áudio ou codificador de voz estão disponíveis para uso geral, e o sistema GSM oferece suporte a vários codecs de áudio específicos. Isso inclui o RPE-LPC, meia taxa e codecs AMR. O desempenho de cada codec de voz é diferente e eles podem ser usados ​​em diferentes condições, embora o codec AMR seja agora o mais amplamente usado. Além disso, o mais recente codec de banda larga AMR (AMR-WB) está sendo introduzido em muitas áreas, incluindo GSM

A tecnologia de codec de voz avançou em graus consideráveis ​​nos últimos anos, como resultado do crescente poder de processamento disponível. Isso significa que os codecs de voz usados ​​no sistema GSM tiveram grandes melhorias desde que os primeiros telefones GSM foram introduzidos.

Noções básicas de Vocoder / codec

Vocoders ou codecs de voz são usados ​​em muitas áreas das comunicações de voz. Obviamente, o foco aqui está nos codecs de áudio GSM ou vocoders, mas os mesmos princípios se aplicam a qualquer forma de codec.

Se a fala fosse digitalizada de forma linear, seria necessária uma alta taxa de dados que ocuparia uma largura de banda muito ampla. Como a largura de banda normalmente é limitada em qualquer sistema de comunicação, é necessário compactar os dados para enviá-los pelo canal disponível. Depois de passar pelo canal, ele pode ser expandido para regenerar o áudio da maneira mais próxima possível do original.

Para atender aos requisitos do sistema de codec, a fala deve ser capturada a uma taxa de amostragem e resolução altas o suficiente para permitir a reprodução clara do som original. Ele deve então ser compactado de forma a manter a fidelidade do áudio em uma taxa de bits limitada, canal de transmissão sem fio sujeito a erros.

Codecs de áudio ou vocoders podem usar uma variedade de técnicas, mas muitos codecs de áudio modernos usam uma técnica conhecida como predição linear. De muitas maneiras, isso pode ser comparado a uma modelagem matemática do trato vocal humano. Para conseguir isso, o envelope espectral do sinal é estimado usando uma técnica de filtro. Mesmo onde sinais com muitos sinais não relacionados harmonicamente são usados, é possível que os codecs de voz forneçam níveis de compressão muito grandes.

Uma variedade de diferentes metodologias de codec são usadas para codecs GSM:

  • CELP: O codec CELP ou Code Excited Linear Prediction é um algoritmo de codificador de voz originalmente proposto em 1985 e proporcionou uma melhoria significativa em relação a outros codecs de voz da época. O princípio básico do codec CELP foi desenvolvido e usado como base para outros codecs de voz, incluindo ACELP, RCELP, VSELP, etc. Como tal, a metodologia de codec CELP é agora o algoritmo de codificação de voz mais amplamente usado. Conseqüentemente, o CELP agora é usado como um termo genérico para uma classe específica de codecs de voz ou codecs de voz e não para um codec específico.

    O principal princípio por trás do codec CELP é que ele usa um princípio conhecido como "Análise por Síntese". Neste processo, a codificação é realizada otimizando perceptivamente o sinal decodificado em um sistema de loop fechado. Uma maneira de conseguir isso é comparar uma variedade de fluxos de bits gerados e escolher aquele que produz o melhor sinal de som.

  • Codec ACELP: O ACELP ou codec de predição linear excitada por código algébrico. O codec ACELP ou algoritmo vocoder é um desenvolvimento do modelo CELP. No entanto, os codebooks do codec ACELP têm uma estrutura algébrica específica, conforme indicado pelo nome.
  • Codec VSELP: O codec VSELP ou Vector Sum Excitation Prediction Linear. Uma das principais desvantagens do codec VSELP é sua capacidade limitada de codificar sons que não são de fala. Isso significa que ele funciona mal na presença de ruído. Como resultado, este codec de voz não é tão amplamente usado, outros codecs de voz mais recentes são preferidos e oferecem um desempenho muito superior.

Codecs / vocoders de áudio GSM

Uma variedade de codecs / vocoders de áudio GSM são suportados. Eles foram introduzidos em momentos diferentes e têm diferentes níveis de desempenho. Embora alguns dos primeiros codecs de áudio não sejam tão amplamente usados ​​atualmente, eles ainda são descritos aqui, pois fazem parte do sistema GSM.


Codecs de áudio GSM
Nome do codecTaxa de bits
(kbps)
Tecnologia de compressão
Taxa total13RTE-LPC
EFR12.2ACELP
Meia taxa5.6VSELP
AMR12.2 - 4.75ACELP
AMR-WB23.85 - 6.60ACELP

Taxa total GSM / codec RPE-LPC

O RPE-LPC ou Regular Pulse Excited - Linear Predictive Coder. Essa forma de codec de voz foi o primeiro codec de voz usado com o GSM e foi escolhido após a realização de testes para compará-lo com outros esquemas de codec da época. O codec de voz é baseado no LPC de excitação de pulso regular com previsão de longo prazo. O esquema básico está relacionado a dois codecs de fala anteriores, a saber: RELP, Predição Linear Excitada Residual e ao MPE-LPC, LPC Excitado por Vários Pulsos. As vantagens do RELP são a complexidade relativamente baixa resultante do uso da codificação de banda base, mas seu desempenho é limitado pelo ruído tonal produzido pelo sistema. O MPE-LPC é mais complexo, mas oferece um melhor nível de desempenho. O codec RPE-LPC forneceu um meio-termo entre os dois, equilibrando desempenho e complexidade para a tecnologia da época.

Apesar do trabalho realizado para fornecer o desempenho ideal, à medida que a tecnologia foi desenvolvida, o codec RPE-LPC foi considerado como oferecendo um nível de qualidade de voz ruim. À medida que outros codecs de áudio de taxa total se tornaram disponíveis, eles foram incorporados ao sistema.

GSM EFR - codec Enhanced Full Rate

Mais tarde, outro codificador de voz chamado de codificador de voz Enhanced Full Rate (EFR) foi adicionado em resposta à má qualidade percebida pelos usuários do codec RPE-LPC original. Este novo codec deu uma qualidade de som muito melhor e foi adotado pelo GSM. Usando a tecnologia de compressão ACELP, deu uma melhoria significativa na qualidade em relação ao codificador LPC-RPE original. Isso se tornou possível à medida que o poder de processamento disponível aumentou nos telefones celulares, como resultado de níveis mais altos de poder de processamento combinado com seu menor consumo de corrente.

Codec de meia taxa GSM

O padrão GSM permite a divisão de um único canal de voz de taxa total em dois subcanais que podem manter chamadas separadas. Ao fazer isso, as operadoras de rede podem dobrar o número de chamadas de voz que podem ser tratadas pela rede com muito pouco investimento adicional.

Para permitir que esta facilidade seja usada, um codec de meia taxa deve ser usado. O codec de meia taxa foi introduzido nos primeiros anos do GSM, mas ofereceu uma qualidade de voz muito inferior quando comparado a outros codecs de voz. No entanto, proporcionava vantagens quando a demanda era alta e a capacidade da rede era alta.

O codec GSM Half Rate usa um algoritmo de codec VSELP. Ele codifica os dados em torno de quadros de 20 ms, cada um carregando 112 bits, para fornecer uma taxa de dados de 5,6 kbps. Isso inclui uma taxa de dados de 100 bps para um indicador de modo que detalha se o sistema acredita que os quadros contêm dados de voz ou não. Isso permite que o codec de voz opere de uma maneira que forneça a qualidade ideal.

O sistema de codec Half Rate foi introduzido na década de 1990, mas em vista da percepção de baixa qualidade, não foi amplamente utilizado.

Codec GSM AMR

O AMR, codec Adaptive Multi-rate, é agora o codec GSM mais amplamente usado. O codec AMR foi adotado pelo 3GPP em outubro de 1988 e é usado para chamadas de voz GSM e UMTS / WCDMA comutadas por circuito.

O codec AMR fornece uma variedade de opções para uma das oito taxas de bits diferentes, conforme descrito na tabela abaixo. As taxas de bits são baseadas em quadros com 20 milissegundos de comprimento e 160 amostras. O codec AMR usa uma variedade de técnicas diferentes para fornecer a compactação de dados. O codec ACELP é usado como a base do codec de voz geral, mas outras técnicas são usadas além desta. A transmissão descontínua é empregada para que, quando não houver atividade de fala, a transmissão seja interrompida. Além disso, a detecção de atividade de voz (VAD) é usada para indicar quando há apenas ruído de fundo e nenhuma fala. Além disso, para fornecer o feedback para o usuário de que a conexão ainda está presente, um Gerador de ruído de conforto (CNG) é usado para fornecer algum ruído de fundo, mesmo quando nenhum dado de fala está sendo transmitido. Isso é adicionado localmente no receptor.

O uso do codec AMR também requer que a adaptação de link otimizada seja usada para que a taxa de dados ideal seja selecionada para atender aos requisitos das condições atuais do canal de rádio, incluindo sua relação sinal / ruído e capacidade. Isso é obtido reduzindo a codificação da fonte e aumentando a codificação do canal. Embora haja uma redução na clareza da voz, a conexão de rede é mais robusta e o link é mantido sem interrupções. Podem ocorrer níveis de melhoria entre 4 e 6 dB. No entanto, as operadoras de rede podem priorizar cada estação quanto à qualidade ou capacidade.

O codec AMR tem um total de oito taxas: oito estão disponíveis na taxa total (FR), enquanto seis estão disponíveis na taxa média (HR). Isso dá um total de quatorze modos diferentes.


Taxas de dados do codec AMR
ModoTaxa de bits
(kbps)
Taxa total (FR) /
Metade da taxa (HR)
AMR 12.212.2FR
AMR 10.210.2FR
AMR 7,957.95FR / HR
AMR 7,407.40FR / HR
AMR 6.706.70FR / HR
AMR 5,905.90FR / HR
AMR 5.155.15FR / HR
AMR 4,754.75FR / HR

Codec AMR-WB

Adaptive Multi-Rate Wideband, codec AMR-WB, também conhecido sob sua designação ITU de G.722.2, é baseado no codec Adaptive Multi-Rate, AMR popular anterior. O AMR-WB também usa uma base ACELP para sua operação, mas foi desenvolvido e o AMR-WB oferece qualidade de voz aprimorada como resultado da largura de banda de voz mais ampla que codifica. AMR-WB tem uma largura de banda que se estende de 50 a 7000 Hz, que é significativamente maior do que as larguras de banda de 300 a 3400 Hz usadas por telefones padrão. No entanto, isso vem com o custo de processamento adicional, mas com os avanços na tecnologia de IC nos últimos anos, isso é perfeitamente aceitável.

O codec AMR-WB contém várias áreas funcionais: ele inclui principalmente um conjunto de modos de codec de canal e voz de taxa fixa. Ele também inclui outras funções de codec, incluindo: um detector de atividade de voz (VAD); Funcionalidade de transmissão descontínua (DTX) para GSM; e funcionalidade SCR (Source Controlled Rate) para aplicações UMTS. Outras funcionalidades incluem sinalização em banda para transmissão de modo codec e adaptação de link para controle da seleção de modo.

O codec AMR-WB possui uma taxa de amostragem de 16 kHz e a codificação é realizada em blocos de 20 ms. Existem duas bandas de frequência usadas: 50-6400 Hz e 6400-7000 Hz. Eles são codificados separadamente para reduzir a complexidade do codec. Essa divisão também serve para focar a alocação de bits na faixa de frequência subjetivamente mais importante.

A banda de frequência mais baixa usa um algoritmo de codec ACELP, embora vários recursos adicionais tenham sido incluídos para melhorar a qualidade subjetiva do áudio. A análise de predição linear é realizada uma vez a cada quadro de 20 ms. Além disso, livros de código de excitação fixa e adaptativa são pesquisados ​​a cada 5 ms para valores de parâmetro de codec ideais.

A banda de frequência mais alta adiciona algumas características de naturalidade e personalidade à voz. O áudio é reconstruído usando os parâmetros da banda inferior, bem como usando excitação aleatória. Como o nível de potência nesta banda é menor que o da banda inferior, o ganho é ajustado em relação à banda inferior, mas com base nas informações de voz. O conteúdo do sinal da banda superior é reconstruído usando um filtro preditivo linear que gera informações do filtro da banda inferior.


Codec AMR-WB
Taxa de bits
(kbps)
Notas
6.60Esta é a taxa mais baixa para AMR-WB. É usado para conexões comutadas por circuito para GSM e UMTS e deve ser usado apenas temporariamente durante condições severas de canal de rádio ou durante congestionamento da rede.
8.85Isso oferece uma qualidade melhorada em relação à taxa de 6,6 kbps, mas, novamente, seu uso só é recomendado para uso em períodos de congestionamento ou durante condições severas de canal de rádio.
12.65Esta é a principal taxa de bits usada para GSM e UMTS comutados por circuito, oferecendo desempenho superior ao codec AMR original.
14.25Uma taxa de bits mais alta é usada para fornecer uma fala mais limpa e é particularmente útil quando os níveis de ruído do áudio ambiente são altos.
15.85Uma taxa de bits mais alta é usada para fornecer uma fala mais limpa e é particularmente útil quando os níveis de ruído do ambiente de áudio são altos.
18.25Uma taxa de bits mais alta é usada para fornecer uma fala mais limpa e é particularmente útil quando os níveis de ruído do áudio ambiente são altos.
19.85Uma taxa de bits mais alta é usada para fornecer uma fala mais limpa e é particularmente útil quando os níveis de ruído do áudio ambiente são altos.
23.05Não sugerido para canais GSM de taxa total.
23.85Não é sugerido para canais GSM de taxa total e oferece qualidade de voz semelhante à do G.722 a 64 kbps.

Nem todos os telefones equipados com AMR-WB serão capazes de acessar todas as taxas de dados - as diferentes funções do telefone podem não exigir que todas estejam ativas, por exemplo. Com isso, é necessário informar à rede quais tarifas estão disponíveis e, assim, simplificar a negociação entre o aparelho e a rede. Para conseguir isso, existem três configurações diferentes AMR-WB que estão disponíveis:

  • Configuração A: 6,6, 8,85 e 12,65 kbit / s
  • Configuração B: 6,6, 8,85, 12,65 e 15,85 kbit / s
  • Configuração C: 6,6, 8,85, 12,65 e 23,85 kbit / s

Pode-se observar que apenas os modos 23,85, 15,85, 12,65, 8,85 e 6,60 kbit / s são utilizados. Com base em testes de escuta, considerou-se que esses cinco modos eram suficientes para um serviço de telefonia vocal de alta qualidade. As outras taxas de dados foram mantidas e podem ser usadas para outros fins, incluindo mensagens multimídia, streaming de áudio, etc.

Embora tenham sido descritos como codecs GSM, eles também são usados ​​em várias outras áreas - alguns são usados ​​com a voz comutada por circuito empregada em UMTS. O desempenho do codec melhorou desde que os primeiros codecs GSM foram introduzidos: a qualidade da voz e a largura de banda necessária foram aprimoradas.

Tópicos de conectividade sem fio e com fio:
Noções básicas de comunicações móveis2G GSM3G UMTS4G LTE5GWiFiIEEE 802.15.4DECT telefones sem fioNFC- Near Field CommunicationNetworking fundalsQual é a CloudEthernetDados seriaisUSBSigFoxLoRaVoIPSDNNFVSD-WAN
Retornar para conectividade sem fio e com fio


Assista o vídeo: Lets Create a Speech Synthesizer C++17 with Finnish Accent! (Junho 2022).


Comentários:

  1. Brannen

    Maravilhoso, esta é uma opinião muito valiosa

  2. Mulmaran

    eu discordo de você

  3. Gaspard

    Absolutamente concorda com você. Neste algo é uma boa ideia, concorda com você.

  4. Baucis

    Isso que é vida. É isso.

  5. Ponce

    Peço desculpas, mas você não poderia dar mais informações.

  6. Gersham

    Eu já vi isso em algum lugar

  7. Dionysius

    Foi comigo também. Podemos nos comunicar sobre este tema.



Escreve uma mensagem