전화선상에서 지원하는 음성 최대 주파수 대역은 4 KHz이다.
그러므로 나이퀴스트 이론에 의해 샘플링 주파수는 최소 8 KHz가 되어야 한다.
(나이퀴스트 이론 : 오리지널 음성의 최대 주파수를 최소 2배 이상 샘플링 한 후 전송하면 도착 지점에서 이것을 원래의 음성으로 복원할 수 있다)
그리고 각 샘플은 8 bit로 인코딩된다.
따라서 1 초에 8 bit * 8000 = 6400 bit(64Kbps)가 전송된다.


PCM은 음성 인코딩 방식 중 가장 보편적이면서 현재 대부분의 국가에서 PSTN 네트워크에 사용중인 방식이다. 또한 PCM 방식은 VoIP 환경에서도 대역폭이 풍부할 경우 좋은 음성 품질을 얻기 위해서 게이트웨이에 적용되는 방식이기도 하다.


이 방식에 근거해서 64 Kbps를 DS0라는 속도의 기본 단위로 정의한다. 즉, DS0 채널이 24개이면 T1, 32개이면 E1으로 부른다.


코덱의 종류

알고리즘

Bit Rate(B/W)

인코딩 타임(ms)

MOS

G.711

PCM

64K

10

4.1

G.726

ADPCM

16K, 24K, 32K

10

 

G.729

CS-ACELP

8K

10

3.9

G.729

LDCELP

16K

15

 

G.723

MLQ

5.3K, 6.3K

30

3.9

G.711 : PSTN
G.729 : VoIP에서 가장 보편적인 코덱
인코딩 타임 : 특정 코덱을 사용해서 아날로그 음성을 디지털 시그널로 변환하는데 걸리는 시간. 즉, DSP 칩에서 하나의 음성 프레임 아웃풋을 내보내는데 걸리는 처리시간을 말한다.


IP 네트워크를 통해 음성을 전송하기 위해서는 음성 데이터에 상대방의 IP 어드레스나 소켓 넘버 등 필요한 정보가 붙이는 '인캡슐레이션' 작업을 해야 한다. 이러한 인캡슐레이션 작업 때문에 각 음성 코덱을 이용해서 만들어진 결과값은 실제 네트워크로 전송될 때 이보다 더 많은 대역폭을 요구한다. 따라서 전용 회선 같은 WAN 구간에서 G.711은 82Kbps(payload : 64K + overhead : 18K)정도, G.729a는 26Kbps(payload : 8K + overhead : 18K) 정도의 대역폭이 필요하다.


G.711의 경우 디폴트 페이로드 사이즈는 160 Byte이다.
G.711 코덱은 10ms마다 아날로그 상태인 음성을 디지털로 바꾼다.(Digitization) 즉, DSP를 통해서 음성 아웃풋 샘플이 10ms마다 생긴다. 패킷을 구성할 때는 이러한 아웃풋 2개를 모은다. 이렇게 하는 이유는 음성 프레임 하나당 패킷을 만들면 오버헤드가 너무 커지기 때문이다. 그러므로 디폴트일 경우 G.711 패킷을 생성할 때마다 매번 20ms가 걸린다.


G.711의 초당 전송 트래픽이 64Kbps이다.
초당 64,000 bit  ->  초당 8,000 byte 를 전송.
즉, 1000 ms 당 8,000 Byte를 전송한다.
그렇다면 10ms마다 발생하는 음성 페이로드는 80 Byte이고, 20ms를 모으면 160 Btye가 된다.


패킷화 시간을 길게 잡으면 오버헤드가 줄어들어 대역폭 측면에서 보면 이득이 있다. 하지만 패킷화 시간을 길게 잡으면 실시간 트래픽의 성격에 맞지 않는 경우가 생긴다. 즉, 실시간 트래픽은 빠른 전송이 필요하기 때문에 너무 늦어지면 통신을 원활하게 하는데 문제가 밸상할 수 있다. 따라서, G.711, G.729의 경우에 디폴트 인코딩 타임이 20ms로 세팅되어 있다.

+ Recent posts