Comparison of the efficiency of time and frequency domain descriptors for the classification of selected wind instruments
DOI:
https://doi.org/10.34767/SIMIS.2022.03.02Słowa kluczowe:
Widmo mocy, MFCC, barwa, identyfikacja instrumentów muzycznych, MPEG 7, aerofonyAbstrakt
Analizując fizyczne cechy domeny czasu i domeny częstotliwości sygnału audio można okreslić jego źródło i przy pomocy własciwych algorytmów dokonac jego automatycznej klasyfikacji. Kwestia indeksacji dźwięku dotyczy analizy różnych klas i źródeł – także sygnałów wywodzących się z instrumentów muzycznych. Obliczając wartości deskryptorów i dokonując ich klasyfikacji uzyskujemy informację o typie instrumentu oraz jego budowie - najczęściej materiału, z którego zostal wykonany. Podczas prowadzonych badań okazało się, że różna kompozycja wektora cech jest implementowana do opisu instrumentów blaszanych oraz inna dla instrumentów drewnianych. W tym przypadku cechą kluczową mogą być składowe wyże harmoniczne w postaci częstotliwościowej dźwieku. Przeprowadzone eksperymenty dotyczą próby parametryzacji instrumentów dętych (aerofonów) w celu porównania skuteczności klasyfikacyjnej deskryptorów czasowych i widmowych. Do badań przeznaczono dźwieki pochodzace z tuby, fletu oraz saksofonu sopranowego. Populacja próbek dla każdego instrumentu wynosiła 21.
Bibliografia
Kim H-G, Moreau N, Sikora T. (2005) “MPEG7 Audio and Beyond - audio content indexing and retrieval.” John Wiley & Sons, Ltd.
Tyburek K, Prokopowicz P, Kotlarz P. (2014) “Computational intelligence in a classication of audio recordings of nature.” In: Proc. of the 6th International Conference on Fuzzy Computation Theory and Applications, Scitepress - Science and Technology Publications. Rome, Italy.
Tyburek K, Prokopowicz P, Kotlarz P, Repka M. (2015) “Comparison of the Efficiency of Time and Frequency Descriptors Based on Different Classification Conceptions, Artificial Intelligence and Soft Computing,” Volume 9119 of the series Lecture Notes in Computer Science pp 491-502.
Lindsay AT, Burnett I, Quackenbush S, Jackson M. (2002) “Fundamentals of audio descriptions, in Introduction to MPEG-7” Multimedia Content Description Interface by Manjunath, B S, Salembier, P, Sikora, T, John Wiley and Sons, Ltd. pp. 283-298.
Tyburek K, Prokopowicz P, Kotlarz P. (2014) “Fuzzy System for the Classication of Sounds of Birds Based on the Audio Descriptors”, Articial Intelligence and Soft Computing Lecture Notes in Computer Science; 8468:700-709.
Tyburek K, (2021) „The Folk Music Instrument Identification, Ocarina as an Example” nnovation Management and Sustainable Economic Development in the Era of Global Pandemic. Proceedings of the 38th International Business Information Management Association Conference (IBIMA), p.p 2188-2196, ISBN: 978-0-9998551-7-1
Tyburek K, Kotlarz P, „Histogram Features for Recognition Species of Birds”, Innovation Management and information Technology impact on Global Economy in the Era of Pandemic. Proceedings of the 37th International Business Information Management Association Conference (IBIMA), p.p 974-982, ISBN: 978-0-9998551-6-4
Tyburek K, „Parameterisation of human speech after total laryngectomy surgery”, Computer Speech and Language - 2022, Vol. 72,art. no 101313, pISSN: 0885-2308, DOI: 10.1016/j.csl.2021.101313
Prokopowicz P., Mikołajewski D., Tyburek K., Mikołajewska E. (2020) “Computational gait analysis for post-stroke rehabilitation purposes using fuzzy numbers, fractal dimension and neural networks.” Bulletin of the Polish Academy of Sciences - Technical Science, 68(2):191-198
Prokopowicz P., Mikołajewski D., Tyburek K., Mikołajewska E., Kotlarz P. (2019) “AI-Based Analysis of Selected Gait Parameters in Post-stroke Patients.” In: Choraś M., Choraś R. (eds.) Image Processing and Communications. IP&C. Advances in Intelligent Systems and Computing, vol 1062. Springer, Cham, pp. 197-205
B. Logan, ‘‘Mel Frequency Cepstral Coefficients for Music Modeling,’’ Proc. Int. Symp. on Music Information Retrieval (ISMIR) (2000).
C. W. Weng, C. Y. Lin, and J. S. R. Jang, ‘‘Music Instrument Identification Using MFCC: Erhu as an Example,’’ in Proc. 9th Int. Conf. of the Asia Pacific Society for Ethnomusicology (Phnom Penh, Cambodia, 2004), pp. 42–43.
W. Brent, ‘‘Perceptually Based Pitch Scales in Cepstral Techniques for Percussive Timbre Identification,’’ in Proc. 2009 Int. Computer Music Conf. (2009), pp. 121–124.
A. B. Horner, J. W. Beauchamp, and R. H. Y. So, ‘‘Detection of Random Alterations to Time-Varying Musical Instrument Spectra,’’ J. Acoust. Soc. Am., vol. 116, pp. 1800–1810 (2004).
D. Gunawan and D. Sen, ‘‘Spectral Envelope Sensitivity of Musical Instrument Sounds,’’ J. Acoust. Soc. Am., vol. 123, pp. 500–506 (2008).
A. K. Datta, S. S. Solanki, R. Sengupta, S. Chakraborty, K. Mahto, and A. Patranabis. Automatic Musical Instrument Recognition, pages 167–232. Springer Singapore, Singapore, 2017.
A. J. Eronen and A. Klapuri. Musical instrument recognition using cepstral coefficients and temporal features. In Proc. of IEEE Int’l Conf. on Acoustics, Speech, and Signal Processing (ICASSP), pages 753– 756. IEEE, 2000
C. Marechal and D. Miko lajewski and K. Tyburek and P. Prokopowicz and L. Bougueroua and C. Ancourt and K. Wgrzyn-Wolska, Survey on AIBased Multimodal Methods for Emotion Detection in HighPerformance Modelling and Simulation for Big Data (2019),Springer Int. Publ. Cham : Springer International Publishing, 2019, vol.11400, pp. 307 - 324, isbn=978-3-030-16272-6
P. Prokopowicz and D. Miko lajewski and K. Tyburek and P. Kotlarz, Fuzzy-based Description of Computational Complexity of Central Nervous Systems. Journal of Telecommunications and Information Technology (2020), vol. 3, pp. 57 - 66, DOI 10.26636/jtit.2020.1456