スポンサーリンク

【応用情報技術者試験】コンピュータ科学基礎理論を学ぼう!     ~第7章~音声の符号化

音声の符号化は、アナログ音声信号をデジタルデータ(0と1)に変換・圧縮する技術であり、標本化、量子化、符号化のステップで構成されます。IP電話(CELP)や放送(AAC, MPEG-H)などの用途に合わせて、データ量を効率的に削減し、限られた帯域幅でも高音質を維持するための必須技術です。 

画像参照:https://www.rd.ntt/research/CS0027.html

標本化と量子化

標本化(サンプリング)と量子化は、音や画像などのアナログ信号をデジタルデータに変換する不可欠なプロセスです。標本化は一定時間・空間ごとに信号を切り取る「時間軸の離散化」、量子化は切り取られた値を段階的な数値に当てはめる「振幅の離散化」です。この2つの処理を経てアナログデータはデジタル化されます。 

1. 標本化(サンプリング)

  • 定義: 連続的なアナログ信号を、一定の短い時間間隔(または空間間隔)で区切り、測定値を取り出すこと。
  • 要素: 1秒間に何回サンプリングするかを示す「サンプリング周波数(Hz)」が指標となる。
  • 特徴: 間隔が短いほど(周波数が高いほど)元の信号を正確に再現できるが、データ量は増える。
  • 理論: 標本化定理により、元信号の最大周波数の2倍以上でサンプリングすれば、理論上元の信号を再現できる。 

2. 量子化

  • 定義: 標本化で得られた連続的な値を、あらかじめ決められた段階値(レベル)のうち最も近い値に置き換える処理。
  • 要素: 「量子化ビット数(bit)」で表現し、ビット数が多いほど細かい段階(例えば16ビット=65,536段階)で表現でき、精度が向上する。
  • 誤差: 近似値に丸めるため、元の値との間に「量子化誤差(ノイズ)」が生じる。
  • 結果: 信号がデジタルデータ(0と1)に変換される。 

3. 画像における標本化と量子化

画像データにおいては、以下の役割を持つ。 

  • 標本化: 画素(ピクセル)に分解する。「空間分解能」を決定する。
  • 量子化: 各画素の「色」や「濃淡(階調)」をデジタル値(0~255など)で表現する。「濃度分解能」を決定する。 

4. 変換プロセス(デジタル化)

  1. アナログ信号
  2. 標本化 (時間で区切る) → 標本値
  3. 量子化 (段階値に丸める) → デジタルデータ 

これらは音声ファイル(WAV)やデジタル写真などで、データ量と画質・音質のトレードオフを決定する重要な技術です。

音声の圧縮

音声圧縮は、MP3やAACなどの技術を用いて、デジタル音声の音質を保ちつつデータ量を削減する技術です。人間の聴覚特性を利用し、聞き取りにくい音を削減する非可逆圧縮が一般的で、ファイル容量を大幅に削減し、ストレージの節約やストリーミング配信に活用されています。 

主な音声圧縮フォーマットと特徴

  • MP3: 最も広く普及している形式。高い互換性を持つ。
  • AAC: iTunesなどで採用。MP3より効率が良く高音質。
  • WMA: マイクロソフトが開発した形式。
  • Ogg Vorbis: オープンソースの形式。 

音声ファイルを圧縮する方法

  1. オンラインサイトを使用: Media.io、YouCompress、HitPawなどのWebサービスにファイルをアップロードして圧縮する。
  2. 圧縮ソフト・アプリを使用: PCやスマホの専用アプリを用いて、ビットレートやサンプリングレートを下げて圧縮する。 

圧縮のポイント

  • 非可逆圧縮(ロッシー圧縮): 小さな音や高音域を削減し、データ量を大幅に減らすが、元には戻せない。
  • 可逆圧縮(ロスレス圧縮): 音質を劣化させずに圧縮するが、非可逆圧縮に比べてファイルサイズは大きくなる。
  • ビットレートの調整: ビットレートを下げる(例: 128kbps -> 64kbps)とファイルサイズは小さくなるが、音質も低下する。 

コメント