Пропускай все через сердце
Всем добрый день)
Есть у меня один вопрос, постараюсь его сформулировать)
Во-первых, реально ли написать программу онлайн-записи голоса с микрофона? Если да, то где об этом почитать, какими средствами это реализуется?
И второе. Допустим, записали мы этот аудио-файл. Также у нас есть оригинальный исходник. Можно ли как-то сравнивать/сопоставить эти 2 файла и выявить процент совпадения? Мне кажется, это чем-то напоминает систему выставления оценок караоке. В моем случае это должен быть текст на английском языке - идеальный вариант и вариант испытуемого. Реально ли это сделать? Насколько сложно? И каким образом, какими алгоритмами, по каким параметрам? Я так понимают, вычисление хеш-функций здесь не катит?)))
Надеюсь, найдутся умные добрые эксперты, смогут подсказать)
Есть у меня один вопрос, постараюсь его сформулировать)
Во-первых, реально ли написать программу онлайн-записи голоса с микрофона? Если да, то где об этом почитать, какими средствами это реализуется?
И второе. Допустим, записали мы этот аудио-файл. Также у нас есть оригинальный исходник. Можно ли как-то сравнивать/сопоставить эти 2 файла и выявить процент совпадения? Мне кажется, это чем-то напоминает систему выставления оценок караоке. В моем случае это должен быть текст на английском языке - идеальный вариант и вариант испытуемого. Реально ли это сделать? Насколько сложно? И каким образом, какими алгоритмами, по каким параметрам? Я так понимают, вычисление хеш-функций здесь не катит?)))
Надеюсь, найдутся умные добрые эксперты, смогут подсказать)
Про оба, уверен, есть готовые решения. Для второго — уж точно.
2) да погуглила, пока нашла только вопросы без ответах на форумах программистов)
думала, вдруг все таки найдется кто?
В журнале Хакер сто лет назад была статья. Они записывали голос со скайпа и сравнивали с эталоном. Там они работали с wav-файлы, которые, по их увтерждению, почти являлись массивами частот. Эти массивы они и сравнивали.
Я бы стал смотреть различные форматы звука. И библиотеки работы с ними.
Что-то мне эта задача стала казаться непосильной(
А вот второй вопрос я бы назвал философским. То есть, если брать караоке, не слишком трудно будет отследить, вовремя ли человек начал и закончил петь и попал ли в ноту. А вот с остальным... Не могли бы Вы конкретизировать? Потому что чем жёстче проблема сформулирована тем её проще решать.
Про второе. Честно говоря, точной проблемы нет, это меня просто посетила мысль о теме диплома. Изначально предполагалась система контроля знаний по английскому,но имеющую аудио-направленность. Я задумалась,что тут можно сделать, как можно проверять знания? Кроме как размещать аудио-версию всех вопросов ничего не придумала, ну а это...лажа, одним словом.
Тогда вот меня посетила мысль, изложенная в посте. Никаких критериев точно нет, главное,чтобы можно было как-то сравнить несколько аудио(скорее всго wav) файлов и выдать процент совпадения. Непонятно, по каким характеристикам сравнивать..и много чего еще. Я нашла и подробные разборы структуры файла и нашла комменты, что это искусственный интеллект, нейронные сети, распознавание - дальше и не пробовать.
Скорее всего интересует алгоритм, по которому их можно было сравнить. Например, существуют же алгоритмы шифрования. Вот так и тут, хотя бы разбиение на этапы, каждым из которых я бы стала заниматься. Т.е. считать файл, разбить на части, выявить х-ку....еще читала про быстрые преобразования Фурье, но мне не доконца понятна физика процесса.
Наверное, я вас еще больше запутала расплывчатым комментом.
ПРосто хочу пока оценить масштаб и реальность выполнения этой задачи.
Есть два разных понятия — распознание и сравнение. Распознанием, например, занимается Гугл в голосовом поиске. Когда звук (голос) они переводят в текст. Делают, к слову говоря, они это довольно плохо. Но, скорее всего, через n-ное время исправятся, как обычно это происходит.
Другое дело — сравнение с эталоном. Как я уже говорил, в конечном итоге любой звуковой файл — это запись частот по временной шкале. Эти частоты (без попыток понять) можно сравнивать с эталоном. Но, в рамках вашей задачи, боюсь, не получится очень хорошо. Ибо разные голоса нужно приводить к какому-то общему варианту. Тут нужно читать и искать, насколько это реализуемо без попыток распознавания голоса.
graphics.cs.msu.ru/ru/node/358
Но я к ВМК отношусь уважительно, они могли и чего-нибудь очень умного наваять.
Ну и да, книжки по сети на эту тему валяются, так что это сложно, но не безнадёжно.