はじめに
Kaggle Free Sound Audio Tagging 2019で学ぶ音声処理ではKaggle
コンペとその解法を題材に音声処理について解説しています。この記事は、紹介している解法にも出てきたメルスペクトログラムの計算について掘り下げます。
librosa.feature.melspectrogram
引数
公式ドキュメントから引用しています。
1 | y:np.ndarray [shape=(n,)] or None |
y
音声の時系列信号です。
sr
サンプリングレートを表します。
S
音声(y
)を引数に取ることもできますが、スペクトログラムを事前に計算して渡すこともできます。
以下のコードで結果が等しくなることを確認できます。
1 | melspec = librosa.feature.melspectrogram(y, sr) |
n_fft
FFT窓の幅を表します。
hop_length
ステップ幅を表します。
power
1
でエネルギー、2
でパワーとなります。デフォルト値は2
です。
kwargs
メルフィルタバンクのパラメータを与えることができます。メルフィルタバンクの詳細についてはメルフィルタバンクを理解するで解説しています。
記事情報
- 投稿日:2020年6月30日
- 最終更新日:2020年7月1日