Ru-Board.club
← Вернуться в раздел «Программы»

» MSpeech

Автор: CHERTS
Дата сообщения: 31.08.2014 20:07


MSpeech - это программа для распознавание речи используя Google Voice API выполнения голосовых команд, передачи распознанного текста в другие программы и многое другое.

На текущий момент в программе реализован следующий функционал:
Распознавание голоса с помощью Google Voice API более чем на 50 языках.
Активация записи по заранее заданному уровню сигнала.
Неограниченное количество команд, которые можно добавить через удобный интерфейс.
Возможность назначить горячие клавиши для начала-остановки процесса записи-распознавания.
Передача распознанного текста в поля ввода других приложений разными методами.
Коррекция текста после распознавания и до передачи в поля ввода (Замена слов по списку, Изменение первых букв предложений на прописные).
Работа через прокси-сервер.
Возможность выбора источника звука.
Изменение языка интерфейса программы (English, Russian).
Синтез голоса через Microsoft SAPI (Бесплатный синтезатор RHVoice), Google Text-To-Speech, Yandex Text-To-Speech, iSpeech Text-To-Speech, Nuance Text-To-Speech.


Текущая финальная версия: 1.5.9 (32-битная) (31.03.2016)
Автор: ladrik
Дата сообщения: 20.07.2015 10:10
Может кто подскажет, как это работает?

Установил, запустил, включил запись и произнес команду "Запусти блокнот"... в ответ тишина. Что я делаю не правильно?
Автор: CHERTS
Дата сообщения: 20.07.2015 10:44
Посмотрите список команд в настройках, команды "Запусти блокнот" изначально нет, есть "Блокнот".
Еще включите ведение логов и посмотрите что там пишется, приходит ли ответ от гугла с распознанной фразой.
Автор: ladrik
Дата сообщения: 20.07.2015 11:25
CHERTS
Разумеется команда "Запусти блокнот" была не первой и единственной, вариантов было много... Ведение логов я включал, но они почему-то не велись ))

Написал разработчику, может ответит...

Добавлено:
Упс ... Разработчик уже ответил ))
Автор: stvol333
Дата сообщения: 02.10.2015 18:40

Цитата:
Упс ... Разработчик уже ответил ))

И что он ответил? А то у меня тоже не работает!
Автор: CHERTS
Дата сообщения: 02.10.2015 19:32

Цитата:
И что он ответил? А то у меня тоже не работает!


Что именно не работает?

P.S. Собственно я и есть разработчик MSpeech, так что задавайте вопросы, постараюсь ответить.
P.P.S. 27 сентября 2015 года я выпустил новую версию, так что качайте с оф. сайта.


Добавлено:
Google накладывает ограничение на длину распознаваемой фразы до 3-5 секунд, поэтому говорить нужно коротко, только тогда будет гарантировано корректное распознавание.
В настройках программы включите режим отладки, тогда в логах Вы будите видеть все что происходит.
Так же для надежности выберите режим без распознавания по минимальному уровню, это параметр "Действие кнопки Остановить запись", выберите "Остановить, распознать без учета мин.уровня" + в настройках горячих клавиш задайте клавишу для начала-остановки записи. Соответственно нажимаете гор.клавишу и начинается запись звука, при этом в главном окне должен двигаться индикатор "Уровень записи", диктуете команду и жмете опять эту гор.клавишу, программа остановит запись и отправит данные в гугл и если гугл распознает запись, то MSpeech выдаст результат. Какое будет выполнено действие после распознавания зависит от настроек, это может быть выполнена команда по запуску программы или по её закрытию или допустим Вы можете передать распознанный текст в поле ввода любой программы (окно программы должно быть активно и курсор должен стоять в нужном поле ввода).
По сути передача текста в поля ввода это функция надиктовки текста, но увы только короткими фразами.
Автор: sharlatanat
Дата сообщения: 25.11.2015 01:05
Для Macintosh-осей существует ли подобное программное обеспечение?

Автор: CHERTS
Дата сообщения: 25.11.2015 07:28

Цитата:
Для Macintosh-осей существует ли подобное программное обеспечение?


Сложно сказать, маками не пользуюсь, поэтому не знаю.

Интересует решение с возможностью выполнения команд и вставки текста в поля ввода как у MSpeech?
Автор: sharlatanat
Дата сообщения: 25.11.2015 13:44
CHERTS

Цитата:
Интересует решение с возможностью выполнения команд и вставки текста в поля ввода как у MSpeech?

Да, именно такое программное решение интересует. Верно ли понимаю что без доступа к интернету программа не функционирует, так как использует Google API online?
Автор: CHERTS
Дата сообщения: 25.11.2015 15:26

Цитата:
Да, именно такое программное решение интересует. Верно ли понимаю что без доступа к интернету программа не функционирует, так как использует Google API online?


Да, без доступа к интернету увы работать не будет.

Учитывая, что MSpeech написан на Delphi последних версий, то есть вероятность, что его можно собрать и под Mac OS X, т.к. Delphi XE8 поддерживает разработку программ под эту ОС, но из-за отсутствия у меня хоть какого-нибудь плохенького Mac'а я не смогу это сделать. Вариант писать под виртуалкой на ломаной MacOSX очень плохой, потому как не гарантирует результат. Поэтому увы и ах.
Автор: xJubjikx
Дата сообщения: 27.11.2015 22:06
CHERTS
Пробовал скомпилировать, прошло без ошибок.
Но при работе программы пишет "Неизвестная ошибка в потоке распознавания"

Лог:

Код:
28.11.15 03:54:32: Начата запись в файл C:\Users\Users\AppData\Local\Temp\out.flac
28.11.15 03:54:32: InSampleRate = 44100
28.11.15 03:54:32: InBitsPerSample = 16
28.11.15 03:54:32: InChannels = 1
28.11.15 03:54:32: Получен запрос на остановку записи.
28.11.15 03:54:33: Файл C:\Users\Users\AppData\Local\Temp\out.flac сохранен.
28.11.15 03:54:33: TGoogleRecognizer.Create
28.11.15 03:54:33: HR_SocketClose:
28.11.15 03:54:33: HR_ResolvingBegin: www.google.com:443
28.11.15 03:54:33: Разрешение имени сервера.
28.11.15 03:54:33: HR_ResolvingEnd: 62.78.98.231:443
28.11.15 03:54:33: HR_SocketCreate: IPv4
28.11.15 03:54:33: HR_Connect: www.google.com:443
28.11.15 03:54:33: Подключение к серверу.
28.11.15 03:54:33: HR_Error: 10091,
28.11.15 03:54:33: Ошибка связи с сервером Google: 10091,
Автор: CHERTS
Дата сообщения: 02.12.2015 11:17

Цитата:
Пробовал скомпилировать, прошло без ошибок.
Но при работе программы пишет "Неизвестная ошибка в потоке распознавания"


А Вы Google Speech API ключ ввели? Без него ничего работать не будет, в исходниках ключа нет.
Автор: xJubjikx
Дата сообщения: 08.12.2015 06:29

Цитата:
А Вы Google Speech API ключ ввели? Без него ничего работать не будет, в исходниках ключа нет.


Так и думал. Кое-как получил Google Speech API. Теперь все заработало.

Спасибо.
Автор: xJubjikx
Дата сообщения: 12.12.2015 07:03
Доброго времени.
Заметил в коде Yandex API.
Планируете подключить?
Автор: CHERTS
Дата сообщения: 12.12.2015 08:34

Цитата:
Доброго времени.
Заметил в коде Yandex API.
Планируете подключить?


Доброго,

Пока в MSpeech можно использовать только синтез речи через Yandex TTS (реализовано через набор моих компонентов), распознавание голоса через Yandex Speech API в планах, огорчает что у Yandex пока только распознавание русской речи и есть ограничения на количество запросов с одним API ключом, что сильно ограничивает круг потенциальных пользователей. У Google конечно еще большие ограничения в плане распознавания речи, но пока есть безлимитный API ключ эти ограничения его не касаются.
Автор: CHERTS
Дата сообщения: 02.03.2016 14:56
Выпустил новую версию (1.5.8) с исправлением досадного бага с потерей фокуса.
Обновление тут -> http://programs74.ru/mspeech.html
Автор: gegemon2012
Дата сообщения: 25.03.2016 18:37
Здравствуйте! Интересный проект но опробовать не вышло. При запуске на Windows 7 sp1 x64 выдал ошибку runtime error 217 at 0066B8F3
Автор: CHERTS
Дата сообщения: 31.03.2016 21:20
Выпустил новую версию (1.5.9) с исправлением синтеза речи через Google TTS и проблемой запуска на Windows XP.
Обновление тут -> http://programs74.ru/mspeech.html

Страницы: 1

Предыдущая тема: Странности с outlook 2010


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.