15:59

Пропускай все через сердце
Всем добрый день)
Есть у меня один вопрос, постараюсь его сформулировать)
Во-первых, реально ли написать программу онлайн-записи голоса с микрофона? Если да, то где об этом почитать, какими средствами это реализуется?
И второе. Допустим, записали мы этот аудио-файл. Также у нас есть оригинальный исходник. Можно ли как-то сравнивать/сопоставить эти 2 файла и выявить процент совпадения? Мне кажется, это чем-то напоминает систему выставления оценок караоке. В моем случае это должен быть текст на английском языке - идеальный вариант и вариант испытуемого. Реально ли это сделать? Насколько сложно? И каким образом, какими алгоритмами, по каким параметрам? Я так понимают, вычисление хеш-функций здесь не катит?)))
Надеюсь, найдутся умные добрые эксперты, смогут подсказать)

@темы: Вопрос, Алгоритм

Комментарии
21.03.2011 в 20:03

.masa
Про оба, уверен, есть готовые решения. Для второго — уж точно.
21.03.2011 в 20:05

Пропускай все через сердце
Феаринг
2) да погуглила, пока нашла только вопросы без ответах на форумах программистов)
думала, вдруг все таки найдется кто?
21.03.2011 в 20:07

.masa
В журнале Хакер сто лет назад была статья. Они записывали голос со скайпа и сравнивали с эталоном. Там они работали с wav-файлы, которые, по их увтерждению, почти являлись массивами частот. Эти массивы они и сравнивали.
Я бы стал смотреть различные форматы звука. И библиотеки работы с ними.
21.03.2011 в 21:20

Пропускай все через сердце
Ох, посидела тут почитала еще конкретно про сравнение wav-файлов..
Что-то мне эта задача стала казаться непосильной(
22.03.2011 в 01:34

Per anus ad astra!
Запись веб-приложением с микрофона чудесно гуглится, например, по словам "C# микрофон". (ну или какой язык Вы хорошо знаете)
А вот второй вопрос я бы назвал философским. То есть, если брать караоке, не слишком трудно будет отследить, вовремя ли человек начал и закончил петь и попал ли в ноту. А вот с остальным... Не могли бы Вы конкретизировать? Потому что чем жёстче проблема сформулирована тем её проще решать.
22.03.2011 в 07:51

Пропускай все через сердце
Чайный наркоман ну за первую часть я и беспокоюсь меньше, просто думала что тут тоже смогут дать квалифированные советы.
Про второе. Честно говоря, точной проблемы нет, это меня просто посетила мысль о теме диплома. Изначально предполагалась система контроля знаний по английскому,но имеющую аудио-направленность. Я задумалась,что тут можно сделать, как можно проверять знания? Кроме как размещать аудио-версию всех вопросов ничего не придумала, ну а это...лажа, одним словом.
Тогда вот меня посетила мысль, изложенная в посте. Никаких критериев точно нет, главное,чтобы можно было как-то сравнить несколько аудио(скорее всго wav) файлов и выдать процент совпадения. Непонятно, по каким характеристикам сравнивать..и много чего еще. Я нашла и подробные разборы структуры файла и нашла комменты, что это искусственный интеллект, нейронные сети, распознавание - дальше и не пробовать.
Скорее всего интересует алгоритм, по которому их можно было сравнить. Например, существуют же алгоритмы шифрования. Вот так и тут, хотя бы разбиение на этапы, каждым из которых я бы стала заниматься. Т.е. считать файл, разбить на части, выявить х-ку....еще читала про быстрые преобразования Фурье, но мне не доконца понятна физика процесса.
Наверное, я вас еще больше запутала расплывчатым комментом.
ПРосто хочу пока оценить масштаб и реальность выполнения этой задачи.
22.03.2011 в 08:02

.masa
Есть два разных понятия — распознание и сравнение. Распознанием, например, занимается Гугл в голосовом поиске. Когда звук (голос) они переводят в текст. Делают, к слову говоря, они это довольно плохо. Но, скорее всего, через n-ное время исправятся, как обычно это происходит.

Другое дело — сравнение с эталоном. Как я уже говорил, в конечном итоге любой звуковой файл — это запись частот по временной шкале. Эти частоты (без попыток понять) можно сравнивать с эталоном. Но, в рамках вашей задачи, боюсь, не получится очень хорошо. Ибо разные голоса нужно приводить к какому-то общему варианту. Тут нужно читать и искать, насколько это реализуемо без попыток распознавания голоса.
22.03.2011 в 11:03

Per anus ad astra!
.masa ну, если не караоке, то, наверное, не обрадую Вас. Хотя, можете у этих авторов спросить:
graphics.cs.msu.ru/ru/node/358
Но я к ВМК отношусь уважительно, они могли и чего-нибудь очень умного наваять.

Ну и да, книжки по сети на эту тему валяются, так что это сложно, но не безнадёжно.