【応用情報技術者試験】コンピュータ科学基礎理論を学ぼう！ ~第7章~音声の符号化

音声の符号化は、アナログ音声信号をデジタルデータ（0と1）に変換・圧縮する技術であり、標本化、量子化、符号化のステップで構成されます。IP電話（CELP）や放送（AAC, MPEG-H）などの用途に合わせて、データ量を効率的に削減し、限られた帯域幅でも高音質を維持するための必須技術です。

画像参照：https://www.rd.ntt/research/CS0027.html

標本化と量子化
音声の圧縮

標本化と量子化

標本化（サンプリング）と量子化は、音や画像などのアナログ信号をデジタルデータに変換する不可欠なプロセスです。標本化は一定時間・空間ごとに信号を切り取る「時間軸の離散化」、量子化は切り取られた値を段階的な数値に当てはめる「振幅の離散化」です。この2つの処理を経てアナログデータはデジタル化されます。

1. 標本化（サンプリング）

定義: 連続的なアナログ信号を、一定の短い時間間隔（または空間間隔）で区切り、測定値を取り出すこと。
要素: 1秒間に何回サンプリングするかを示す「サンプリング周波数（Hz）」が指標となる。
特徴: 間隔が短いほど（周波数が高いほど）元の信号を正確に再現できるが、データ量は増える。
理論: 標本化定理により、元信号の最大周波数の2倍以上でサンプリングすれば、理論上元の信号を再現できる。

2. 量子化

定義: 標本化で得られた連続的な値を、あらかじめ決められた段階値（レベル）のうち最も近い値に置き換える処理。
要素: 「量子化ビット数（bit）」で表現し、ビット数が多いほど細かい段階（例えば16ビット＝65,536段階）で表現でき、精度が向上する。
誤差: 近似値に丸めるため、元の値との間に「量子化誤差（ノイズ）」が生じる。
結果: 信号がデジタルデータ（0と1）に変換される。

3. 画像における標本化と量子化

画像データにおいては、以下の役割を持つ。

標本化: 画素（ピクセル）に分解する。「空間分解能」を決定する。
量子化: 各画素の「色」や「濃淡（階調）」をデジタル値（0～255など）で表現する。「濃度分解能」を決定する。

4. 変換プロセス（デジタル化）

アナログ信号
標本化 (時間で区切る) → 標本値
量子化 (段階値に丸める) → デジタルデータ

これらは音声ファイル（WAV）やデジタル写真などで、データ量と画質・音質のトレードオフを決定する重要な技術です。

音声の圧縮

音声圧縮は、MP3やAACなどの技術を用いて、デジタル音声の音質を保ちつつデータ量を削減する技術です。人間の聴覚特性を利用し、聞き取りにくい音を削減する非可逆圧縮が一般的で、ファイル容量を大幅に削減し、ストレージの節約やストリーミング配信に活用されています。

主な音声圧縮フォーマットと特徴

MP3: 最も広く普及している形式。高い互換性を持つ。
AAC: iTunesなどで採用。MP3より効率が良く高音質。
WMA: マイクロソフトが開発した形式。
Ogg Vorbis: オープンソースの形式。

音声ファイルを圧縮する方法

オンラインサイトを使用: Media.io、YouCompress、HitPawなどのWebサービスにファイルをアップロードして圧縮する。
圧縮ソフト・アプリを使用: PCやスマホの専用アプリを用いて、ビットレートやサンプリングレートを下げて圧縮する。

圧縮のポイント

非可逆圧縮（ロッシー圧縮）: 小さな音や高音域を削減し、データ量を大幅に減らすが、元には戻せない。
可逆圧縮（ロスレス圧縮）: 音質を劣化させずに圧縮するが、非可逆圧縮に比べてファイルサイズは大きくなる。
ビットレートの調整: ビットレートを下げる（例: 128kbps -> 64kbps）とファイルサイズは小さくなるが、音質も低下する。