音声の符号化は、アナログ音声信号をデジタルデータ(0と1)に変換・圧縮する技術であり、標本化、量子化、符号化のステップで構成されます。IP電話(CELP)や放送(AAC, MPEG-H)などの用途に合わせて、データ量を効率的に削減し、限られた帯域幅でも高音質を維持するための必須技術です。

画像参照:https://www.rd.ntt/research/CS0027.html
標本化と量子化
標本化(サンプリング)と量子化は、音や画像などのアナログ信号をデジタルデータに変換する不可欠なプロセスです。標本化は一定時間・空間ごとに信号を切り取る「時間軸の離散化」、量子化は切り取られた値を段階的な数値に当てはめる「振幅の離散化」です。この2つの処理を経てアナログデータはデジタル化されます。
1. 標本化(サンプリング)
- 定義: 連続的なアナログ信号を、一定の短い時間間隔(または空間間隔)で区切り、測定値を取り出すこと。
- 要素: 1秒間に何回サンプリングするかを示す「サンプリング周波数(Hz)」が指標となる。
- 特徴: 間隔が短いほど(周波数が高いほど)元の信号を正確に再現できるが、データ量は増える。
- 理論: 標本化定理により、元信号の最大周波数の2倍以上でサンプリングすれば、理論上元の信号を再現できる。
2. 量子化
- 定義: 標本化で得られた連続的な値を、あらかじめ決められた段階値(レベル)のうち最も近い値に置き換える処理。
- 要素: 「量子化ビット数(bit)」で表現し、ビット数が多いほど細かい段階(例えば16ビット=65,536段階)で表現でき、精度が向上する。
- 誤差: 近似値に丸めるため、元の値との間に「量子化誤差(ノイズ)」が生じる。
- 結果: 信号がデジタルデータ(0と1)に変換される。
3. 画像における標本化と量子化
画像データにおいては、以下の役割を持つ。
- 標本化: 画素(ピクセル)に分解する。「空間分解能」を決定する。
- 量子化: 各画素の「色」や「濃淡(階調)」をデジタル値(0~255など)で表現する。「濃度分解能」を決定する。
4. 変換プロセス(デジタル化)
- アナログ信号
- 標本化 (時間で区切る) → 標本値
- 量子化 (段階値に丸める) → デジタルデータ
これらは音声ファイル(WAV)やデジタル写真などで、データ量と画質・音質のトレードオフを決定する重要な技術です。
音声の圧縮
音声圧縮は、MP3やAACなどの技術を用いて、デジタル音声の音質を保ちつつデータ量を削減する技術です。人間の聴覚特性を利用し、聞き取りにくい音を削減する非可逆圧縮が一般的で、ファイル容量を大幅に削減し、ストレージの節約やストリーミング配信に活用されています。
主な音声圧縮フォーマットと特徴
- MP3: 最も広く普及している形式。高い互換性を持つ。
- AAC: iTunesなどで採用。MP3より効率が良く高音質。
- WMA: マイクロソフトが開発した形式。
- Ogg Vorbis: オープンソースの形式。
音声ファイルを圧縮する方法
- オンラインサイトを使用: Media.io、YouCompress、HitPawなどのWebサービスにファイルをアップロードして圧縮する。
- 圧縮ソフト・アプリを使用: PCやスマホの専用アプリを用いて、ビットレートやサンプリングレートを下げて圧縮する。
圧縮のポイント
- 非可逆圧縮(ロッシー圧縮): 小さな音や高音域を削減し、データ量を大幅に減らすが、元には戻せない。
- 可逆圧縮(ロスレス圧縮): 音質を劣化させずに圧縮するが、非可逆圧縮に比べてファイルサイズは大きくなる。
- ビットレートの調整: ビットレートを下げる(例: 128kbps -> 64kbps)とファイルサイズは小さくなるが、音質も低下する。

コメント