Skip to content

用語集

オーディオ解析の用語をわかりやすく解説します。

オーディオ解析は初めてですか?

まずオーディオ基礎から始めて、用途に応じたセクションを探索してください。

オーディオ基礎

サンプルレート

何か: 1秒間に何回音を測定するか。動画のフレームレートのようなもの - 多いほど詳細。

サンプルレート品質主な用途
44,100 HzCD品質音楽再生
48,000 Hz放送品質動画、ストリーミング
22,050 Hz解析用ほとんどの解析に十分
なぜ重要?

高いサンプルレートはより高い周波数をキャプチャできます(サンプルレートの半分まで)。44.1kHzは約22kHzまでキャプチャでき、人間の可聴域をカバー。

モノラル / ステレオ

  • モノラル: 1つのオーディオチャンネル - 片耳で聴くようなもの
  • ステレオ: 2チャンネル(左/右) - 空間的な音

INFO

libsonare はモノラルオーディオを処理します。ステレオは左右チャンネルの平均を取って自動変換されます。

振幅

ある瞬間の音の「大きさ」。

  • libsonare では: -1.0 〜 1.0 の範囲に正規化
  • 0 = 無音
  • ±1.0 = 最大値(超えるとクリッピング)

dB(デシベル)

オーディオレベルを測る対数スケール。-6 dB ごとに音量が半分に聞こえます。

レベル意味
0 dB最大(フルスケール)
-6 dB半分の音量
-20 dB音楽の典型的なRMS
-60 dBほぼ無音

TIP

人間は音量を対数的に感じるため、表示や比較にはdBを使いましょう。


スペクトル解析

STFT(短時間フーリエ変換)

オーディオ解析の基盤。 音声を小さな重なり合うチャンク(フレーム)に分割し、各フレームにどの周波数が含まれるかを明らかにします。

音声 → [フレーム1][フレーム2][フレーム3]... → フレームごとの周波数成分
         ↓        ↓        ↓
      スペクトログラム(2D: 時間 × 周波数)
主要パラメータ
パラメータデフォルト効果
n_fft2048ウィンドウサイズ。大きい = 周波数の詳細↑、時間の詳細↓
hop_length512フレーム間のギャップ。小さい = フレーム数↑、計算量↑

トレードオフ: 時間分解能と周波数分解能を同時に完璧にすることはできません(不確定性原理)。

スペクトログラム

時間経過に伴う周波数成分を示す「ヒートマップ」。

  • 横軸: 時間
  • 縦軸: 周波数
  • 色/明るさ: 強度(大きい = 明るい)

可視化のヒント

スペクトログラムは音の「指紋」のようなもの - 音の種類ごとに特徴的なパターンがあります。

メルスペクトログラム

人間の聴覚特性に合わせて調整されたスペクトログラム。低周波数はより敏感に聞こえるため、より高い分解能を持ちます。

「メル」とは?

「メロディ」に由来 - メル尺度は等間隔が人間の耳に等しく聞こえるように設計されています。

最適な用途:

  • 機械学習の入力(ジャンル分類、ムード検出)
  • オーディオビジュアライゼーション
  • 音声解析

MFCC(メル周波数ケプストラム係数)

音色のコンパクトな「要約」 - フレームあたりたった13〜20個の数値で、音の本質的な特徴を捉えます。

たとえると...

スペクトログラムが高解像度写真なら、MFCCは本質的な特徴を捉えた低解像度サムネイルです。

使用例:

  • 音声認識(Siri、Alexa)
  • 話者識別
  • オーディオフィンガープリンティング(Shazam風)

クロマ / クロマグラム

すべての周波数を、オクターブを無視して12のピッチクラス(C, C#, D... B)にマッピング。

すべての音 → 12ビン: | C | C# | D | D# | E | F | F# | G | G# | A | A# | B |

たとえると...

すべてのオクターブを重ねたピアノ鍵盤 - どの音が鳴っているかはわかるが、どのオクターブかはわからない。

最適な用途:

  • コード検出
  • キー検出
  • カバー曲の発見(同じコード、異なるアレンジ)

CQT(定Q変換)

音楽的な間隔を使用するSTFTの代替 - 各オクターブが同じ数のビンを持つ(ピアノの鍵盤のように)。

STFT vs CQT
特徴STFTCQT
周波数間隔線形(等しいHz)対数(等しい半音)
最適用途一般的な解析音楽/ピッチ解析
速度高速低速

リズム解析

BPM(Beats Per Minute)

音楽のテンポ - ビートがどれだけ速く脈打つか。

BPM範囲ジャンル例
60-80バラード、アンビエント、チル
90-110ヒップホップ、R&B
110-130ポップ、ロック、EDM
130-150ハウス、テクノ
160-180ドラムンベース、ハードコア

よくある落とし穴

BPM検出は実際のテンポの半分や2倍を返すことがあります。120 BPMの曲が60や240として検出されることも。

ビート

足でタップするリズミカルなパルス。ビート検出は各ビートの正確なタイムスタンプを見つけます。

用途:

  • ビート同期ビジュアライゼーション
  • DJ自動ミキシング
  • リズムゲーム
  • ビートに合わせた動画編集

オンセット

ビートだけでなく、すべての音符、ドラムヒット、トランジェントなど、あらゆる音イベントの開始

ビート vs オンセット

ビートは規則的なパルス(1-2-3-4)。オンセットはオフビートのハイハットやシンコペーションの音も含め、すべてをキャッチ。

用途:

  • オーディオからMIDIへの変換
  • ドラム採譜
  • サンプルスライシング

拍子(タイムシグネチャ)

リズムの枠組み: 1小節の拍数 / 音価

拍子雰囲気
4/4標準的、安定ほとんどのポップ/ロック
3/4ワルツ、流れるようなクラシックワルツ
6/8複合、揺れるバラード、一部のロック

ハーモニー解析

キー(調)

楽曲の調性的なホームベース

  • ルート: 中心となるピッチ(C, D, E, F, G, A, B)
  • モード: メジャー(明るい/楽しい)またはマイナー(暗い/悲しい)
キーを理解する

「Cメジャー」とは、Cがホームベースでスケールが明るく聞こえること。「Aマイナー」とは、Aがホームベースでスケールが暗く聞こえること。

曲は通常、キーのルートコードに戻ると「解決した」感じがします。

なぜ重要:

  • DJはハーモニックミキシングにキーを使用(互換性のあるキーの曲はスムーズにブレンド)
  • 歌手の音域に合わせた移調
  • 互換性のあるキーでの音楽レコメンデーション

コード(和音)

同時に演奏される複数の音がハーモニーを作る。

種類響き構成音(Cの場合)
メジャー明るい、楽しいC-E-G
マイナー暗い、悲しいC-Eb-G
セブンスジャジー、緊張感C-E-G-Bb
ディミニッシュ緊張、不安定C-Eb-Gb

コード進行

曲を通じたコードのシーケンス。

有名なコード進行

名前パターン曲例
ポップ進行I-V-vi-IV"Let It Be"、"No Woman No Cry"、他多数
ジャズ ii-V-Iii-V-Iジャズの標準的なエンディング
50年代進行I-vi-IV-V"Stand By Me"、ドゥーワップ

オーディオエフェクト

HPSS(調和-打楽器音源分離)

オーディオを2つの成分に分離:

成分含まれるもの用途
ハーモニックボーカル、メロディ、持続音よりクリーンなコード検出
パーカッシブドラム、トランジェント、クリック音リズム解析、ドラム抽出

TIP

ハーモニック成分でコード検出を実行すると、ドラムがアルゴリズムを混乱させないため、より良い結果が得られます。

タイムストレッチ

ピッチを変えずに速度を変更。

レート結果
0.5半分の速度(2倍の長さ)
1.0オリジナル
2.02倍の速度(半分の長さ)

用途: 難しいパッセージを学ぶためにスローダウン、DJミキシングでテンポを合わせる。

ピッチシフト

速度を変えずにピッチを変更。 半音単位で測定。

半音結果
+121オクターブ上
+7完全5度上
-121オクターブ下

用途: ミキシング用のキーマッチング、ボーカルエフェクト、移調。

ノーマライズ

オーディオを目標の音量レベルに調整。

  • ピークノーマライズ: 最も大きい瞬間を目標に設定
  • RMSノーマライズ: 平均音量を目標に設定

ストリーミング解析

バッチ vs ストリーミング

どちらを使うべき?

アプローチ最適な用途特徴
バッチ録音済みファイル完全解析(BPM、キー、コード、セクション)
ストリーミングライブ音声、リアルタイムアプリフレームごとの特徴、プログレッシブ推定

StreamAnalyzer

libsonare のリアルタイムプロセッサ。音声をチャンクごとに到着順に解析。最適な用途:

  • ライブビジュアライゼーション
  • リアルタイムフィードバック
  • プログレッシブBPM/キー/コード検出

フレーム

解析出力の単一の「スライス」。以下を含む:

  • メルスペクトログラム値
  • クロマ特徴(12ピッチクラス)
  • オンセット強度
  • スペクトル特徴(明るさ、ノイズ度、エネルギー)

プログレッシブ推定

処理されるオーディオが増えるにつれて時間とともに精度が向上するBPM、キー、コードの推定。

仕組み

約5秒後: 大まかなBPM推定、低い信頼度 約15秒後: 安定したBPM、キーが現れ始める 約30秒後: 高信頼度の推定、コード進行が検出される


ピッチと周波数

周波数(Hz)

1秒あたりの振動数 - 高い周波数 = 高いピッチ。

周波数
A4(標準チューニング)440 Hz
C4(中央のC)261.63 Hz
A3(A4の1オクターブ下)220 Hz
周波数の倍増

オクターブごとに周波数は2倍になります。A3 = 220 Hz、A4 = 440 Hz、A5 = 880 Hz。

MIDIノート番号

音符の標準的な数値表現:

  • 60 = 中央のC(C4)
  • 69 = A4(440 Hz)
  • 各半音 = +1

ピッチクラス

オクターブを無視した12音のいずれか: C, C#, D, D#, E, F, F#, G, G#, A, A#, B

YIN / pYIN

オーディオの基本ピッチを検出するアルゴリズム。

アルゴリズム速度精度最適用途
YIN高速良好リアルタイム
pYIN低速より良いオフライン解析

スペクトル特徴

クイックリファレンス

特徴測定対象高い値の意味
スペクトル重心明るさ明るい、高音寄り
スペクトル帯域幅周波数の広がり多くの周波数が存在
スペクトル平坦度ノイズ vs 調性ノイズ的(1.0 = ホワイトノイズ)
ゼロ交差率信号の活性度パーカッシブ/ノイズ的
RMSエネルギー音量大きいセクション

スペクトル重心

周波数の**「重心」** - 明るさを示す。

  • 低い重心 → 暗い、低音の多い音(ベースギター、キックドラム)
  • 高い重心 → 明るい、クリスプな音(ハイハット、シンバル)

スペクトル平坦度

オーディオがノイズ的調性的か。

  • 0 = 純音(サイン波)
  • 1 = ホワイトノイズ(すべての周波数が等しい)

RMSエネルギー

時間窓における平均音量。大きい/静かなセクションの検出に便利。


構造解析

セクション

曲の明確な部分:

セクション目的典型的な長さ
イントロ雰囲気を設定4-16小節
ヴァースストーリーを語る8-16小節
プリコーラス緊張を高める4-8小節
コーラスメインフック、印象的8-16小節
ブリッジコントラスト、休憩4-8小節
アウトロ終息4-16小節

フォーム

文字列としての全体構造。

一般的なフォーム
フォーム構造ジャンル
ABABCBヴァース-コーラス-ヴァース-コーラス-ブリッジ-コーラスポップ
AABAヴァース-ヴァース-ブリッジ-ヴァースジャズスタンダード
AAAヴァース-ヴァース-ヴァース(有節形式)フォーク、ブルース

音色解析

音色(ティンバー)

音の**「色」** - 同じ音の高さと大きさでも、ピアノとギターの音を区別するもの。

主な音色特徴

特徴説明高い =低い =
ブライトネス高周波成分クリスプ、シャープ暖かい、まろやか
ウォームス中低域の存在フル、リッチ薄い、空洞的
デンシティ同時発音数フルアレンジミニマル、疎

関連項目

Released under the Apache-2.0 License.