Скептичный циник
Миру - мир. А Вам - пломбир!
Доброго времени суток, сообщники!

Задача: слать аудио разговора в магический чёрный ящик, а в ответ получать текстовое представление разговора. На чём оно будет работать внутри и платформа – не особо важно, поэтому выбор инструмента ограничивается только бесплатностью (или хотя бы наличием демо-версии) и качеством распознавания.

Много букв – подробное описание ситуации. Для ответа на насущные вопросы №2 читать не обязательно.

Что пробовал. Без особых хлопот скомпилил полную версию (не pocketsphinx), запустил английские демки (HelloWorld.jar и Transcriber.jar) – работают. Ок, с помощью скриптов из sphinxtrain создал проект, скачал русские "acoustic models russian" с voxforge (в архиве я увидел только словари и языковые модели, без wav'ок для тренировки), закинул эти файлы в созданный проект.

Теперь вопросы:
1. Возможно, есть какие-нибудь API или системы, которые я не нашёл? Порекомендуете?
2. Допиливание Sphinx4:
2.1. Как скаченную с voxforge языковую модель добавить в Sphinx4?
2.2. Как собрать своё приложение, чтобы по переданной wav'ке отдавало текст по аналогии с демкой Transcriber.jar?
Или хотя бы киньтесь ссылкой на user-friendly мануал: в readme такого не нашёл, а гуглорезультаты старше 2010 года уже не актуальны. Знания java откровенно слабые.

Спасибо!

UPD. Ещё немного потыкался и напоролся на следующую проблему.

Что делал далее:
1. Файлы из акустической модели от voxforge скопировал в "sphinx4-1.0beta6/models/acoustic/wsj"
2. В конфиге "sphinx4-1.0beta6/src/apps/edu/cmu/sphinx/demo/transcriber/config.xml" изменил dictionaryPath и fillerPath компонента dictionary как описано в мануале
3. Собрал проект ant'ом
Теперь при запуске Transcriber.jar ловлю исключение:"SEVERE wsj Can't find HMM for d".

Порылся в исходниках и увидел, что в "sphinx4-1.0beta6/models/acoustic/wsj/" есть директория "dict" с какими-то файлами (морфемы и слова?). Не видел такого в мануалах, но попробовал использовать "text2dict/dict2transcript.pl" из ru4sphinx от zamiron'а, но скрипт морозится без каких-либо ошибок и вывода после строки "Dictionary tire_word.txt loaded" (а это не последний txt в директории) и ничего нового не генерируется.

Я так понял, мне нужно словарь поместить в "sphinx4-1.0beta6/models/acoustic/wsj/dict"? Но как его сгенерить автоматически из какой-нибудь уже готовой модели русского языка? В моделях с voxforge ничего похожего на нужное не видать.
запись создана: 25.01.2014 в 21:15

@темы: Вопрос, speech, recognition, Java, Computer Science, CMU Sphinx, *nix