Spectrum to Cepstrum Transformation: Extraordinary Anagram
Introduction
Sinyal suara berubah-ubah sesuai dengan variasi tekanan udara. Oleh karena itu, sinyal ucapan dapat dianggap sebagai sinyal alami yang berubah-ubah, dan bentuk sinyal yang dihasilkan berbeda untuk setiap orang. Inilah sifat unik dari sinyal ucapan yang memungkinkan kita mengenali suara tiap individu. Salah satu parameter penting dalam sinyal ucapan adalah pitch (frekuensi dasar) [1].
Spectrum dari sinyal ucapan menyimpan informasi penting, seperti identitas vokal. Namun, nilai-nilai dalam spektrum ini memiliki rentang yang sangat tidak seragam, sehingga bila kita melihatnya secara langsung, kita tidak akan mendapatkan banyak informasi yang berguna [1]. Gambar 1 menunjukkan ilustrasi sinyal suara (time waveform).
Gambar 1. Ilustrasi Sinyal Suara (Time Waveform) [2]
Spectrum
Dalam analisis konvensional terhadap gelombang waktu (time waveform), komponen-komponen periodik biasanya muncul sebagai garis atau puncak tajam pada spektrum Fourier yang sesuai [3]. Gambar 2 menunjukkan power spectrum dari sinyal suara. Spectrum dapat diperoleh melalui transformasi Fourier untuk mendapatkan komponen penyusun sinyal suara (frekuensi dan power).
Gambar 2. Power Spectrum dari Sinyal Suara [2]
Log Spectrum
Log spectrum memberikan representasi yang lebih mudah diakses. Bukan hanya lebih visual, tetapi logaritma juga mendekati sensitivitas pendengaran manusia, sehingga log spectrum dapat digunakan untuk menilai pentingnya fitur spektral bagi persepsi suara. Log spectrum menyajikan isi spektral dengan besaran nilai yang lebih seragam, kecuali untuk nilai nol atau sangat kecil yang menghasilkan nilai negatif tak hingga [2]. Gambar 3 menunjukkan log spectrum dari sinyal suara
Gambar 3. Log Spectrum dari Sinyal Suara [2]
Log spectrum mampu menunjukkan struktur periodik yang mencerminkan struktur harmonik dari sinyal akibat adanya frekuensi dasar (fundamental frequency). Lebih penting lagi, log-spektrum juga memiliki struktur tingkat makro; jika kita menghubungkan puncak-puncak dari struktur harmonik tersebut, maka akan tampak pola puncak dan lembah yang mencerminkan resonansi saluran vokal. Puncak-puncak inilah yang dikenal sebagai formant, dan keberadaannya dapat digunakan untuk mengidentifikasi bunyi vokal secara unik. Oleh karena itu, formant menjadi bagian yang sangat penting. Menangkap atau mengkuantifikasi struktur makro seperti ini sangat penting karena berhubungan erat dengan identitas vokal [2].
Cepstrum
Salah satu cara untuk mengevaluasi struktur periodik dalam sinyal pada berbagai skala adalah dengan menggunakan transformasi Fourier. Secara khusus, kita dapat mengambil Discrete Fourier Transform (DFT) atau Discrete Cosine Transform (DCT) dari log spectrum untuk memperoleh representasi yang dikenal sebagai cepstrum [2]. Cepstrum atau "spectrum" dari log spectrum juga akan menunjukkan puncak jika gelombang waktu aslinya mengandung gema (echo).
Perlu ditekankan bahwa cepstrum melibatkan dua kali transformasi waktu-frekuensi. Oleh karena itu, cepstrum dari suatu sinyal waktu pada dasarnya menyerupai domain waktu. Sumbu-x pada grafik cepstrum dikenal sebagai sumbu quefrency, dan biasanya dinyatakan dalam satuan detik.
Dalam cepstrum, nilai-nilai quefrency rendah menyimpan informasi tentang fitur-fitur dalam log-spektrum yang berubah secara perlahan. Artinya, informasi mengenai formant akan muncul di bagian quefrency rendah pada cepstrum. Namun demikian, interpretasi informasi formant di dalam cepstrum tidaklah sederhana. Sebagai contoh, posisi formant di sumbu frekuensi sebenarnya telah terenkode di dalam cepstrum, tetapi informasi tersebut tersebar ke beberapa koefisien sehingga tidak mudah untuk diekstraksi secara langsung [2].
Informasi penting lainnya yang dapat diperoleh dari cepstrum adalah struktur harmonik dari log spectrum. Ingat bahwa frekuensi dasar (pitch) terlihat pada log-spektrum dalam bentuk pola sisir (comb structure), yang merupakan pola periodik. Karena transformasi Fourier sangat baik dalam mendeteksi struktur periodik, kita dapat mengharapkan munculnya sebuah puncak dalam cepstrum pada quefrency yang sesuai dengan panjang periode pitch (dalam satuan detik) [2].
Misalkan jika kita mengasumsikan bahwa frekuensi dasar (F₀) berada dalam kisaran 80 hingga 450 Hz, maka puncak yang sesuai dalam cepstrum akan muncul pada quefrency sebesar 1/F₀, atau berkisar antara 2,2 hingga 12,5 milidetik. Estimasi frekuensi dasar menggunakan cepstrum sebenarnya cukup sederhana dan relatif tahan terhadap gangguan. Kita hanya perlu mencari puncak tertinggi dalam cepstrum pada rentang quefrency yang sesuai [2].
Gambar 4. Cepstrum dari Sinyal Suara [2]
Gambar 4 merupakan Cepstrum dari sinyal suara sebelumnya (Gambar 1). Fitur yang paling mencolok secara visual dalam cepstrum ini adalah puncak di sekitar quefrency 7 ms. Ini berkaitan dengan frekuensi fundamental (pitch) sebesar 1000/(7 s) = 143 Hz. Frekuensi fundamental tersebut juga terlihat jelas pada log-spektrum di atas, di mana struktur sisir (comb-structure) memiliki puncak pada kelipatan sekitar 143 Hz [2].
Secara umum berikut adalah urutan proses untuk mendapatkan Cepstrum dari sinyal suara:
- Sinyal suara (Time Waveform)
- Transformasi Fourier - FFT (untuk mendapatkan power spectrum)
- Log Spectrum
- Cepstrum (IFFT dari Log Spectrum) --> IFFT adalah Inverse Fourier Transform
Keywords: Sinyal Suara, Transformasi Fourier, Spectrum, Log Spectrum, Cepstrum, quefrency
SDG: 4 “Quality Education”
SDG: 9 “Industry, Innovation and Infrastructure”
Referensi:
- https://eprints.undip.ac.id/25609/1/ML2F300543.pdf [Diakses: 17-Jun-2025]
- https://wiki.aalto.fi/display/ITSP/Cepstrum+and+MFCC [Diakses: 17-Jun-2025]
- https://www.researchgate.net/publication/3321562_From_Frequency_to_Quefrency_A_History_of_the_Cepstrum [Diakses: 17-Jun-2025]
- https://chatgpt.com/
Comments :