Características do sinal de voz

Propaganda
Características do sinal de voz
• Análise na frequência:
– as frequências mais baixas
transportam a energia do sinal e
as mais elevadas a emoção.
Energia (dB)
– a voz apresenta um conteúdo espectral que vai de 20 Hz a 20 kHz;
– os sons vozeados ou nasais (e.g. vogais e algumas consoantes j, l, m)
apresentam um espectro discreto com uma frequência fundamental de 100
a 200 Hz nos homens e 200 a 400 Hz nas mulheres;
– os sons não vozeados (e.g. f, s, p, ch) que são gerados pelo fluxo de ar na
boca modulado pelos maxilares, língua e lábios apresentam uma variação
aleatória. O seu espectro é contínuo;
25
Discurso de voz básico
Emoção
5
500
3500
Hz
Características do sinal de voz (cont.)
• Análise no tempo:
– várias sílabas por segundo;
– a fala concentra-se em intervalos de duração aleatória (com média de
cerca de 1 seg.) separados por intervalos de duração aleatória (superior a
100 ms, quando se está a falar) variação temporal bastante irregular e
aleatória;
– o sinal de voz só está presente, em média, em 40% do tempo. Pode-se
aproveitar este facto para intercalar outras conversações (sistema TASI time assignement speech interpolation).
Caracterização do sistema auditivo
• Um indivíduo normal com idade compreendida entre os 18 e 25 anos é
capaz de detectar sons puros entre 20 Hz e 20 kHz;
• Com a idade, o limite superior da frequência audível reduz-se
significativamente, e.g. em média um homem de 65 anos tem a 8 kHz
uma perda de sensibilidade de 40 dB;
• A sensibilidade do ouvido varia com a frequência e com a intensidade
sonora. Este aspecto terá de se reflectir na análise do desempenho das
redes telefónicas, em particular na medida da potência do ruído:
potência psofométrica (dBmp)
Ruído branco (0-4000Hz) -3.6dB; (300-3400Hz) -2.5dB
• O ouvido tem uma elevada gama dinâmica, com valores que podem ir
acima dos 100 dB. Para uma boa reprodução basta valores da ordem
dos 30 dB.
Banda de frequências normalizada para a voz
• As recomendações G.132 e G.151 do ITU-T indicam a banda atribuída
ao sinal de voz de 300 - 3400 Hz;
• Nos EUA a banda de frequências atribuída para um canal de voz é 200
- 3200 Hz;
• Estas larguras de banda resultam de um compromisso entre o que os
assinantes telefónicos pretendem e o que lhes pode ser fornecido
economicamente.
300
Banda dos sinais de voz
humana
Banda de guarda
Banda de guarda
Largura de banda total, 4 kHz
3400
Hz
Transmissão digital de sinais analógicos
Transforma o sinal da fonte
num sinal eléctrico
Fonte de
informação
Transdutor
e.g. pessoa a falar
e.g. microfone
Amostrador
Quantificador
Codificador
de fonte
Fluxo de bits codificados
Destino
e.g. ouvido da pessoa
Transdutor
e.g. auscultador
Conversor
D/A
Descodificador
de fonte
Conversão das
amostras num
conjunto de
amplitudes
discretas Erro
de quantificação
PCM - Pulse Code Modulation
- Diagrama de blocos Circuito de
amostragem e
retenção
Entrada analógica
s(t)
s(iT)
fs = 2F
F Hz
Filtro passa-baixo
Quantificador de L níveis
Filtro passa-baixo
Codificador
Canal
de tx
s(t) (estimativa)
Descodificador
Palavras de Nb bits, Nb=log2L
F Hz
PCM - Pulse Code Modulation
- Exemplo Sinal original
4.6
4.1
3.3
Resultado da amostragem
2.8
2.2
1.4
1.1
Ts
Resultado da quantificação pelo
inteiro mais próximo
Resultado da codificação
(palavra binária), i.e. sinal
PCM
3.0
2.4
5
4
3
3
2
2
1
001
3
1
011
010
100
001
011
010
101 011
Amostragem
• A base do PCM começa com o Teorema da Amostragem:
– Um sinal de banda limitada pode ser representado pelas suas amostras obtidas a um
ritmo fs que deve ser pelo menos igual ao dobro da frequência máxima presente no
sinal (F), i.e. fs ≥ 2F.
Domínio do tempo:
g(t)
Domínio da frequência:
Transformada
de Fourier
G(f)
t
-F
F
Se fs = 2F (Ritmo de Nyquist):
f
Resposta do filtro
do receptor
Gs(f)
gs(t)
t
-2fs
-fs -F
Ts
Considerações:
• Sinal g(t) tem uma largura de banda finita (F Hz) - Na prática não se verifica
• As amostras são retiradas com pulsos de largura infinitésimal
• Filtro passa-baixo ideal
0 F
fs
fs=1/Ts
Aliasing
2fs
f
Quantificação
• A quantificação converte um sinal contínuo em amplitude num sinal
discreto em amplitude. Notar que o processo de amostragem converte
um sinal contínuo no tempo num sinal discreto no tempo - Pulse
Amplitude Modulation (PAM).
Característica do quantificador linear ou uniforme:
Característica do erro:
Característica ideal
y=F(x), saída
Erro = y-x = εq
O erro está limitado a q/2
yi
x0 x1 x2
q
xi-1 xi
xN
x, entrada
x
x0
limiares de decisão
Erro de sobrecarga
NOTA: Quando o valor de entrada está entre
xi-1 e xi o quantificador irá produzir o valor yi
Erro de quantificação
Erro de sobrecarga
Ruído de quantificação
• O desempenho de um quantificador pode ser descrito pela relação
sinal-ruído de quantificação;
• A potência de ruído de quantificação é descrita em termos estatísticos
através do erro quadrático médio:
< ε
2
q
>=
+∞
ε q2 p ( ε q ) d ε q
−∞
• Para uma distribuição uniforme do erro em cada intervalo de
p(εq )
quantificação de largura q;
n q =< ε q2 >=
+∞
−∞
ε q2
1/q
2
q
1
dε q =
q
12
-q/2
0
• Para um quantificador linear, todos os intervalos de quantificação
apresentam o mesmo erro quadrático médio.
q/2
εq
Cálculo da relação sinal-ruído de quantificação
• Assume-se que o sinal de entrada é uma sinusóide com amplitude A,
2
logo a potência média desse sinal vem s =< x(t )2 >= A 2
• A relação sinal-ruído de quantificação, em dB:
S
s
A2 2
A
= 7.78+ 20log10
= 10log10
= 10log10 2
Nq
nq
q 12
q
• Para PCM uniforme não inferior a 26dB
• Número de intervalos de quantificação para uma gama de
quantificação de -Amax a Amax:
Amax − (− Amax) 2Amax
L=
q
• Número de bits por amostra: L = 2N ⇔ Nb = log2 L
b
=
q
Cálculo da relação sinal-ruído de quantificação (cont.)
• Relação sinal-ruído de quantificação em termos do número de bits, Nb
S
A
= 1.76 + 6.02Nb + 20log10
Nq
Amax
• Para um determinado nº de bits por amostra constante a relação sinalruído de quantificação depende da amplitude A do sinal a quantificar:
– sinais com baixa amplitude têm uma relação S/Nq baixa, enquanto os
sinais com amplitude elevada apresentam S/Nq elevadas;
– sinais com elevadas amplitudes têm pouca probabilidade de ocorrer e os
sinais com baixas amplitudes ocorrem mais frequentemente.
PCM uniforme é pouco eficiente.
Gama dinâmica
• Conceito: Relação entre a amplitude máxima, Amax, e a amplitude
mínima, Amin, em que o sistema deve ser capaz de funcionar com a
qualidade mínima
GD = 20 log10
Amax
Amin
• Se se quiser assegurar uma qualidade S/Nq para toda a gama dinâmica,
então o nº de bits necessário deve verificar
S
= 1.76 + 6.02 N b − GD
Nq
• O sistema telefónico deve ser capaz de transmitir uma elevada gama de
amplitudes, i.e. deve ter uma gama dinâmica elevada (30 dB é um
valor típico).
Quantificação não-uniforme
• Com quantificação uniforme
S
= 1.76 + 6.02Nb − GD
Nq
– gamas dinâmicas elevadas exigem um nº de bits por amostra, Nb, elevado
para garantir uma S/Nq especificada;
Exemplo: GD = 50 dB, S/Nq = 30 dB
13 bits/amostra
• a S/Nq resultante é demasiado elevada para sinais fortes;
• clientes diferentes são servidos com qualidade diferente.
Solução: Quantificação não-uniforme
• Para se obter S/Nq independente da amplitude do sinal, o intervalo de
quantificação deve ser proporcional à amplitude do sinal.
Quantificação não-uniforme (cont.)
• Solução: dividir a amplitude do sinal de entrada em intervalos nãouniformes, i.e. intervalos de quantificação mais largos para os sinais de
amplitudes elevadas e intervalos mais estreitos para amplitudes baixas
S/Nq constante para uma característica de quantificação apropriada.
Característica do quantificador não-uniforme:
Como se realiza esta função ?
• Possível solução: compressão
das amostras seguida de
quantificação linear.
Saída, F(x)
xj-1
xj
Entrada, x
Implementação do quantificador não-uniforme
Emissor:
Receptor:
F-1(x)
F(x)
x
y
Quantificador
linear
Descodificador
linear
y
x
F(x) = y
Compressor
Expansor
1
Característica normalizada do
compressor (só valores positivos):
q
L níveis na gama de -1 a 1: q = 2/L
Declive da característica do compressor
(L elevado, q → 0, δxi→ 0)
δxi
NOTA: xi - 1/2δxi ≤ x ≤ xi - 1/2δxi
Este sinal x vai ser representado
pela amplitude quantificada xi
δ xi =
xi
0
xi - δxi/2 xi + δxi/2
1
x
2 dx
L dy
Potência do ruído de quantificação não-uniforme
• O erro quadrático médio total é dado, em termos estatísticos, por
nq =< ε q2 >=
L xi +δ xi 2
i =1 xi −δ xi 2
(xi − x) p(x)dx ≈
2
L
i =1
Contribuição de cada intervalo de quantificação
nq =
L
i =1
(
δ xi )3 L (δ xi )2
p( x )
p( x )δ x
=
i
12
NOTA: no caso da
quantificação uniforme δxi = q
resultando em nq = q2/12
i =1
12
i
i
1
= 2
3L
Probabilidade do sinal x estar
no i-ésimo intervalo
p( xi )
δ xi 2
ε i2 dε i
−δ xi 2
εi é o erro de
quantificação
do intervalo i
Assume-se que a fdp de x é constante em cada intervalo
2
L
i =1
dx
p( xi )δ xi
dy
δ xi =
1
2 dx
L dy
2
dx
1
δ
x
→
0
n
=
p( x)dx
No caso em que L é elevado ( i
): q
2
3L −1 dy
O ruído de
quantificação
depende da estatística
do sinal analógico a
discretizar
Relação sinal-ruído de quantificação
• Potência do sinal (também
depende da estatística do sinal):
1
s =< x2 >= x2 p( x)dx
−1
• Relação sinal-ruído de
quantificação:
1
s
= 3L2
nq
• Tem interesse em definir-se
uma relação sinal-ruído de
quantificação independente (da
estatística) do sinal de entrada:
Resolução da eq. diferencial:
dy
1
=
dx
kx
x=1
y=1
y = 1+
1
ln x
k
−1
1
−1
dx
= kx
dy
x2 p( x)dx
2
dx
p( x)dx
dy
2
s
3L
= 2
nq
k
Relação sinal-ruído
proporcional ao quadrado
do nº de níveis
melhoria de 6 dB por cada
bit a mais na codificação
Compressão logarítmica: característica irrealizável
devido à assimptota vertical para x = 0
Ganho de compressão / Vantagem de compressão
• Ganho de compressão, relativamente à quantificação uniforme, gc
– Relação sinal-ruído de quantificação não-uniforme:
s
nq
= 3L2 s
1
−1
n−u
2
dx
p( x)dx
dy
– Relação sinal-ruído de quantificação uniforme, dy/dx = 1:
gc
(s n )
=
(s n )
q n−u
q u
=1
1
−1
2
dx
p( x)dx
dy
s
nq
= 3L2s
u
Depende (da estatística) do sinal e
da característica do compressor
• Vantagem de compressão, vc = ganho de compressão para sinais
(muito) fracos
2
Depende unicamente da
dy
lim p( x ) = δ ( x )
v c = lim g c = lim
característica do
x →0
x →0
x →0
dx
compressor
PCM não-linear (leis A e µ)
• Duas implementações de características de compressão logarítmicas
– na Europa: lei A
sgn( x)
y=
sgn( x)
Ax
1+ ln( A)
1+ ln( A x )
1+ ln( A)
1
0≤ x ≤
A
2
A
1+ ln A
Vc = 24 dB( A = 87.6)
Vc = 10log10
1
≤ x ≤1
A
Melhoria de 24 dB na
zona das baixas
amplitudes em relação à
quantificação uniforme
– nos EUA e Japão: lei µ (µ define o grau de compressão e µ = 255 é um
valor típico)
2
y = sgn( x)
ln(1+ µ x )
ln(1+ µ)
Vc = 10log10
µ
ln(1+ µ)
Vc = 33.3 dB(µ = 255)
Quantificação não uniforme usada para a voz
• Numa GD de 40 dB a
lei µ tem uma S/Nq mais
uniforme que a lei A.
Relação sinal-ruído de
quantificação, S/Nq (dB)
40
Lei A - 8 bits
33 dB
Lei µ - 8 bits
30
20
Limites especificados na Rec. G.712 da
ITU-T com ruído gaussiano à entrada
10
0
-60
-50
-40
-30
-20
Nível de entrada (dBm0)
-10
0
Técnicas de quantificação não-uniforme
• Compressão e expansão logaritmica analógica (e.g. díodos) seguida de
quantificação uniforme com 8 bits,
– dificuldade em garantir a reciprocidade exacta das características de
compressão e expansão.
• Compressão aproximada por uma característica segmentada (e
perfeitamente adaptada ao processamento digital),
– PCM segmentado de 13 segmentos usando a lei A;
– PCM segmentado de 15 segmentos usando a lei µ.
PCM segmentado de 13 segmentos (lei A, A = 87.6, 8 bits)
y
Nº do segmento
1
1:4
7
6
1:2
5
1:1
2:1
Intervalos de
quantificação
com largura
menor do que
com
quantificação
linear
Largura do intervalo de quantificação
aumenta 2 vezes de um segmento para o
seguinte
4
4:1
1:1
3
8:1
2
Vc = 24 dB (162)
16:1
Intervalos de quantificação com largura
maior do que com quantificação linear
1
16:1
1/64 1/32
Segmento central com declive 16 e
redução do declive 2 vezes de cada
segmento para o seguinte
1
1/8
1/16
1/4
1/2
1
x
Tabela de codificação da lei A segmentada
Nº do
segmento
gama do
sinal
dimensão do
passo
código do
segmento
0-2
2-4
código de
quantificação
Estrutura da palavra PCM
0000
0001
1
000
30-32
32-34
2
1111
0000
001
62-64
64-68
2
1111
0000
4
010
124-128
128-136
3
1111
0000
8
011
248-256
256-272
4
1111
0000
16
100
496-512
512-544
5
1111
0000
32
101
992-1024
1024-1088
6
1111
0000
64
110
1984-2048
2048-2176
7
1111
0000
128
3968-4096
111
1111
P
S
Q
Identificador de
segmento (de 000
a 111)
Polaridade da amostra
0 - positiva
1 - negativa
Identificador do
intervalo (dentro do
segmento) (de 0000 a
1111)
Requisitos do sinal de voz / Parâmetros típicos do PCM para a voz
• Requisitos para transmissão de voz:
– Testes demonstraram que para garantir uma boa qualidade de transmissão
de voz é necessário garantir
S
Nq
≥ 35 dB
dB
– Esta condição deve ser respeitada para uma gama dinâmica da ordem dos
30 dB.
• Características do sistema PCM para a voz:
– Frequência de amostragem: 8000 amostras/s
– Quantificação não uniforme com L = 256 níveis;
– Compressão segundo a lei A com 13 segmentos (Europa) ou lei µ (EUA e
Japão) com 15 segmentos;
– palavras PCM de 8 bits;
– Ritmo binário: 64 kbit/s.
Multiplexagem no tempo (Time-Division Multiplexing, TDM)
Trama
é o mais pequeno grupo de bits contendo
pelo menos 1 amostra de cada canal mais os
bits de sincronização
Canal 1
Canal 1
...
Canal 2
Multiplexer
TDM
Bits Canal Canal
Sincr. 1
2
Bits Canal
... Canal
...
K Sincr. 1
Demultiplexer
TDM
Canal K
Canal 2
Canal K
• Exemplo: Estrutura da trama para 24 canais (DS-1)
193 bits em 125 µs (i.e. 8000 tramas/s)
b1
on,
s
l
r
a
!
C
r
Ve . 12.5
Cap
b2
...
Canal 1
b8
b1
b2
...
Canal 2
b8
...
rb = 1.544 Mbps
b1
b2
...
Canal 24
b8
Fb
Frame bit
(Sincronização)
Multiplexagem de canais PCM e hierarquias adoptadas pelo
ITU-T
1ª hierarquia
2048
(30)
2ª hierarquia
x4
8448
(120)
3ª hierarquia
x4
34368
(480)
4ª hierarquia
x4
139264
(1920)
Europa
E-x (European-x)
E-1, …, E-4
5ª hierarquia
x5
1544
(24)
x4
32064
(480)
x3
97728
(1440)
391200
(5760)
Japão (NTT)
6312
(96)
NOTA: Os valores entre parêntesis
indicam o nº de canais de 64 kbit/s
disponíveis e os outros estão em
kbit/s.
x4
x7
44736
(672)
x6
274176
(4032)
EUA (AT&T)
DS-x (Digital Signal-x)
DS-1, …, DS-4
Tx (Transmission lines x)
T1,…, T4
Download