INFORMATION TECHNOLOGIES OF NEURAL NETWORK SPEECH RECOGNITION IN REAL-TIME

Ірина Сердюк; Олег Тоніца; Оксана Геляровська; Олексій Яновський

doi:10.20998/3083-6298.2025.02.09

Автор(и)

Ірина Сердюк Національний технічний університет “Харківський політехнічний інститут”, Україна https://orcid.org/0009-0001-1143-9145
Олег Тоніца Національний технічний університет “Харківський політехнічний інститут”, Україна https://orcid.org/0009-0001-8498-0522
Оксана Геляровська Національний технічний університет “Харківський політехнічний інститут”, Україна https://orcid.org/0000-0002-8927-7465
Олексій Яновський Національний технічний університет “Харківський політехнічний інститут”, Україна https://orcid.org/0009-0002-4310-2843

DOI:

https://doi.org/10.20998/3083-6298.2025.02.09

Ключові слова:

нейронні мережі, обробка аудіосигналу, згорткова нейромережа, гештальт-групування, кохлеарна модель, датасет

Анотація

Актуальність. В наш час є актуальним дослідження основних засобів обробки аудіосигналу, переважно з точки зору класифікації звуку та підходи до їх удосконалення. Розглянуто загальні характеристики звукових сигналів з наступним описом частотно-часових зображень для звука та переглянуті атрибути, корисні для класифікації. Людський слух – це неймовірний інструмент, який дає нам багато інформації про навколишній світ. Ми легко вловлюємо звуки птахів, звуки машин на відстані та навіть складні музичні композиції. Предметом дослідження в статті є слухова система людини, що здатна обробляти всю цю інформацію, аналізуючи та групуючи різні звуки. Цей процес відомий як аналіз слухової сцени. Такі програми, як розпізнавання мовлення, транскрипція музики та пошук мультимедійних даних, можна значно вдосконалити за допомогою розділення та класифікації джерел звуку. Обробка цифрового аудіосигналу має ряд важливих застосувань, таких як стиснення аудіоданих, синтез звукових ефектів і класифікація звуків. В наш час класифікація звуку стає все більш важливою, оскільки створюється все більше і більше мультимедійного вмісту. Це особливо корисно, коли йдеться про пошук серед аудіовізуальних матеріалів, оскільки прослуховування аудіокліпів може бути більш ефективним способом навігації, ніж перегляд відеосцен. Класифікацію звуку також можна використовувати як інтерфейс для стиснення аудіо, оскільки різні типи звуків, такі як музика та мова, потребують різних методів стиснення. Метою даної роботи є дослідження підходів до створення систем нейромережевого розпізнавання мовлення. Розпізнавання мовлення в реальному часі стало неймовірно корисним інструментом для вирішення різноманітних проблем у різних сферах життя. Зараз багато компаній пропонують програмне забезпечення для диктування, яке дозволяє людям створювати пошукові запити або диктувати електронні листи за допомогою голосових команд. Доцільним є розгляд нейромережевого розпізнавання мови, зокрема, української. Однією з найбільших проблем, з якими стикається аналіз українського мовлення, є обмежена кількість моделей, доступних для розпізнавання. Якщо для англійської є багато моделей, то для української – їх зовсім мало. Загалом потенційні переваги обробки звуку та розпізнавання мовлення очевидні, і цілком імовірно, що ми продовжуватимемо бачити нові розробки в цих сферах у майбутньому. Описані нейромережі, принцип їх роботи та способи розпізнавання аудіо за допомогою них. Було отримано такі результати: досліджено аудіосигнал, його представлення, статистичні та фізичні методи роботи з ним. Висновок. Знайдено ефективні моделі для коректного розпізнавання мови та тулкіти для навчання моделі.

Біографії авторів

Ірина Сердюк, Національний технічний університет “Харківський політехнічний інститут”

Доцент кафедри комп’ютерної математики і аналізу даних

Олег Тоніца, Національний технічний університет “Харківський політехнічний інститут”

Кандидат фізико-математичних наук, доцент, доцент кафедри комп’ютерної математики і аналізу даних

Оксана Геляровська, Національний технічний університет “Харківський політехнічний інститут”

Доцент кафедри комп’ютерної математики і аналізу даних

Олексій Яновський, Національний технічний університет “Харківський політехнічний інститут”

Аспірант кафедри комп’ютерної математики і аналізу даних

Посилання

Mikhaylenko, V. M., Tereykovs'ka, L. O., Tereykovs'kyy, I. A. (2017), Neyromerezhevi modeli ta metody rozpiznavannya fonem v golosovomu sygnali v systemi dystantsiynogo navchannya: monografiya, Kyiv, TsP «Komprynt Publ», 120 p.
Bondarenko, M. F., Bilous, N. V., Rutkas, A. G. (2004), Komp'yuterna dyskretna matematyka, Kharkiv, «Kompaniya Smit», 480 p.
Uosermen, F. (2001), Neyrokomp'yuterna tekhnika: Teoriya I praktyka / Pereklad ukratins'koyu I. Yu. Yurchak, Kharkiv, KhNEU Publ., pp. 88–94.
Kryvokhata, A. G., Kudin, O. V., Choporov, S. V. (2000), Neural network mathematical models in problems of sound signal processing, Kyiv, «Helvetica», 120 p.
Novotarskyi, M. A., Nesterenko, B. B. (2004), Artificial neural networks: calculations, Proceedings of the Institute of Mathematics of the National Academy of Sciences of Ukraine, T. 50, Kyiv, Institute of Mathematics of the National Academy of Sciences of Ukraine, 408 p.
Tereykovsky, I. A., Bushuev, D. A., Tereykovskaya, L. O. (2022), Artificial neural networks: basic principles, Kyiv, KPI, 122 p.
Korchenko, A., Tereykovsky, I., Karpinsky, N., Tynymbaev, S. (2016), Neural network models, methods and means of assessing the security parameters of Internet-oriented information systems: monograph, Kyiv, «Nash Format», 273 p.
Tereykovsky, I. A. (2007), Neural networks in computer information security: monograph, Kyiv, Polygraph Consulting, 209 p.
Subbotin, S. O. (2020), Neural networks: theory and practice, Zhytomyr, Publ. O. O. Evenok, 184 p.
Rudenko, O. G., Bodiansky, E. V. (2006), Artificial neural networks: Textbook, Kharkiv, LLC «SMIT Company», 404 p.
Dmytrienko, V. D., Zakovorotny, O. Yu., Noskov, V. I., Mezentsev, M. V. (2014), Fundamentals of neurocomputing: a teaching and methodological manual for practical classes, Kharkiv, HTMT, 140 p., https://repository.kpi.kharkov.ua/handle/KhPI-Press/45624
Tonitsa, O. V., Boeva, A. A., Shynkarenko, D. V. (2021), Using pattern recognition methods in access control systems, Information technologies: science, engineering, technology, education, health: abstracts of reports of the XXIX International Scientific and Practical Conference MicroCAD-2021, Part. IV, Kharkiv, NTU «KhPI», рр. 269, https://repository.kpi.kharkov.ua/handle/KhPI-Press/53772
Tonitsa, O. V., Reshetnikova, S. M., Gopei, R. V. (2021), Using neural networks in medical diagnostic systems, Information technologies: science, engineering, technology, education, health: abstracts of the reports of the XXIX International Scientific and Practical Conference MicroCAD-2021, Part IV, Kharkiv, NTU «KhPI», рр. 271, https://repository.kpi.kharkov.ua/handle/KhPI-Press/80357
Tonitsa, O. V., Lotarev, M. S., Reshetnikova, S. M. (2022), Forecasting of emergency situations using neural networks, Information technologies: science, engineering, technology, education, health: abstracts of reports of the XX International Scientific and Practical Conference MicroCAD-2022, Kharkiv, NTU «KhPI», рр. 856, https://repository.kpi.kharkov.ua/handle/KhPI-Press/65099
Tonitsa, O. V., Popsuyshapka, T. K., Kornil, T. L. (2004), Recognition of visual images based on the results of unmanned aerial vehicle photography, Information technologies: science, engineering, technology, education, health: abstracts of reports of the International Scientific and Practical Conference MicroCAD-2024, Kharkiv, NTU «KhPI», pр. 1311, https://repository.kpi.kharkov.ua/handle/KhPI-Press/79508

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ НЕЙРОМЕРЕЖЕВОГО РОЗПІЗНАВАННЯ МОВЛЕННЯ В РЕЖИМІ РЕАЛЬНОГО ЧАСУ

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Ірина Сердюк, Національний технічний університет “Харківський політехнічний інститут”

Олег Тоніца, Національний технічний університет “Харківський політехнічний інститут”

Оксана Геляровська, Національний технічний університет “Харківський політехнічний інститут”

Олексій Яновський, Національний технічний університет “Харківський політехнічний інститут”

Посилання

##submission.downloads##

Опубліковано

Номер

Розділ

Мова

Подати статтю