ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ НЕЙРОМЕРЕЖЕВОГО РОЗПІЗНАВАННЯ МОВЛЕННЯ В РЕЖИМІ РЕАЛЬНОГО ЧАСУ
DOI:
https://doi.org/10.20998/3083-6298.2025.02.09Ключові слова:
нейронні мережі, обробка аудіосигналу, згорткова нейромережа, гештальт-групування, кохлеарна модель, датасетАнотація
Актуальність. В наш час є актуальним дослідження основних засобів обробки аудіосигналу, переважно з точки зору класифікації звуку та підходи до їх удосконалення. Розглянуто загальні характеристики звукових сигналів з наступним описом частотно-часових зображень для звука та переглянуті атрибути, корисні для класифікації. Людський слух – це неймовірний інструмент, який дає нам багато інформації про навколишній світ. Ми легко вловлюємо звуки птахів, звуки машин на відстані та навіть складні музичні композиції. Предметом дослідження в статті є слухова система людини, що здатна обробляти всю цю інформацію, аналізуючи та групуючи різні звуки. Цей процес відомий як аналіз слухової сцени. Такі програми, як розпізнавання мовлення, транскрипція музики та пошук мультимедійних даних, можна значно вдосконалити за допомогою розділення та класифікації джерел звуку. Обробка цифрового аудіосигналу має ряд важливих застосувань, таких як стиснення аудіоданих, синтез звукових ефектів і класифікація звуків. В наш час класифікація звуку стає все більш важливою, оскільки створюється все більше і більше мультимедійного вмісту. Це особливо корисно, коли йдеться про пошук серед аудіовізуальних матеріалів, оскільки прослуховування аудіокліпів може бути більш ефективним способом навігації, ніж перегляд відеосцен. Класифікацію звуку також можна використовувати як інтерфейс для стиснення аудіо, оскільки різні типи звуків, такі як музика та мова, потребують різних методів стиснення. Метою даної роботи є дослідження підходів до створення систем нейромережевого розпізнавання мовлення. Розпізнавання мовлення в реальному часі стало неймовірно корисним інструментом для вирішення різноманітних проблем у різних сферах життя. Зараз багато компаній пропонують програмне забезпечення для диктування, яке дозволяє людям створювати пошукові запити або диктувати електронні листи за допомогою голосових команд. Доцільним є розгляд нейромережевого розпізнавання мови, зокрема, української. Однією з найбільших проблем, з якими стикається аналіз українського мовлення, є обмежена кількість моделей, доступних для розпізнавання. Якщо для англійської є багато моделей, то для української – їх зовсім мало. Загалом потенційні переваги обробки звуку та розпізнавання мовлення очевидні, і цілком імовірно, що ми продовжуватимемо бачити нові розробки в цих сферах у майбутньому. Описані нейромережі, принцип їх роботи та способи розпізнавання аудіо за допомогою них. Було отримано такі результати: досліджено аудіосигнал, його представлення, статистичні та фізичні методи роботи з ним. Висновок. Знайдено ефективні моделі для коректного розпізнавання мови та тулкіти для навчання моделі.
Посилання
- Mikhaylenko, V. M., Tereykovs'ka, L. O., Tereykovs'kyy, I. A. (2017), Neyromerezhevi modeli ta metody rozpiznavannya fonem v golosovomu sygnali v systemi dystantsiynogo navchannya: monografiya, Kyiv, TsP «Komprynt Publ», 120 p.
- Bondarenko, M. F., Bilous, N. V., Rutkas, A. G. (2004), Komp'yuterna dyskretna matematyka, Kharkiv, «Kompaniya Smit», 480 p.
- Uosermen, F. (2001), Neyrokomp'yuterna tekhnika: Teoriya I praktyka / Pereklad ukratins'koyu I. Yu. Yurchak, Kharkiv, KhNEU Publ., pp. 88–94.
- Kryvokhata, A. G., Kudin, O. V., Choporov, S. V. (2000), Neural network mathematical models in problems of sound signal processing, Kyiv, «Helvetica», 120 p.
- Novotarskyi, M. A., Nesterenko, B. B. (2004), Artificial neural networks: calculations, Proceedings of the Institute of Mathematics of the National Academy of Sciences of Ukraine, T. 50, Kyiv, Institute of Mathematics of the National Academy of Sciences of Ukraine, 408 p.
- Tereykovsky, I. A., Bushuev, D. A., Tereykovskaya, L. O. (2022), Artificial neural networks: basic principles, Kyiv, KPI, 122 p.
- Korchenko, A., Tereykovsky, I., Karpinsky, N., Tynymbaev, S. (2016), Neural network models, methods and means of assessing the security parameters of Internet-oriented information systems: monograph, Kyiv, «Nash Format», 273 p.
- Tereykovsky, I. A. (2007), Neural networks in computer information security: monograph, Kyiv, Polygraph Consulting, 209 p.
- Subbotin, S. O. (2020), Neural networks: theory and practice, Zhytomyr, Publ. O. O. Evenok, 184 p.
- Rudenko, O. G., Bodiansky, E. V. (2006), Artificial neural networks: Textbook, Kharkiv, LLC «SMIT Company», 404 p.
- Dmytrienko, V. D., Zakovorotny, O. Yu., Noskov, V. I., Mezentsev, M. V. (2014), Fundamentals of neurocomputing: a teaching and methodological manual for practical classes, Kharkiv, HTMT, 140 p., https://repository.kpi.kharkov.ua/handle/KhPI-Press/45624
- Tonitsa, O. V., Boeva, A. A., Shynkarenko, D. V. (2021), Using pattern recognition methods in access control systems, Information technologies: science, engineering, technology, education, health: abstracts of reports of the XXIX International Scientific and Practical Conference MicroCAD-2021, Part. IV, Kharkiv, NTU «KhPI», рр. 269, https://repository.kpi.kharkov.ua/handle/KhPI-Press/53772
- Tonitsa, O. V., Reshetnikova, S. M., Gopei, R. V. (2021), Using neural networks in medical diagnostic systems, Information technologies: science, engineering, technology, education, health: abstracts of the reports of the XXIX International Scientific and Practical Conference MicroCAD-2021, Part IV, Kharkiv, NTU «KhPI», рр. 271, https://repository.kpi.kharkov.ua/handle/KhPI-Press/80357
- Tonitsa, O. V., Lotarev, M. S., Reshetnikova, S. M. (2022), Forecasting of emergency situations using neural networks, Information technologies: science, engineering, technology, education, health: abstracts of reports of the XX International Scientific and Practical Conference MicroCAD-2022, Kharkiv, NTU «KhPI», рр. 856, https://repository.kpi.kharkov.ua/handle/KhPI-Press/65099
- Tonitsa, O. V., Popsuyshapka, T. K., Kornil, T. L. (2004), Recognition of visual images based on the results of unmanned aerial vehicle photography, Information technologies: science, engineering, technology, education, health: abstracts of reports of the International Scientific and Practical Conference MicroCAD-2024, Kharkiv, NTU «KhPI», pр. 1311, https://repository.kpi.kharkov.ua/handle/KhPI-Press/79508