Ru-Board.club
← Вернуться в раздел «Программы»

» Словари и Редакторы словарей для ScanSoft RealSpeak

Автор: RoRo
Дата сообщения: 12.02.2008 18:23
Параллельная тема в Варезнике
WordRead (plus Scansoft RealSpeak Russian Voice)

Редакторы Словарей

На текущий момент есть два редактора:
1) Коммерческий редактор ScanSoft Nuance.
ScanSoft Nuance (User Dictionary Editor - UDE - rsude.exe) – это родной редактор. Поддерживает следующие форматы словарей dct/bdc/trs. Все необходимые шапки в файлах создаёт сам. Можно тут-же послушать, показывает ошибки.
По вопросам обращайтесь в параллельная тему.

2) Мой бесплатный редактор. Текущая Версия 1.0.4
Я изменил формат словаря, поэтому после установки моего редактора, словари в оригинальном формате RealSpeak будут не корректно обрабатываться. Т.е. на текущий момент нет совместимости со словарями сделанными ScanSoft Nuance

Подробнее об особенностях моего редактора можно прочитать [more=здесь] Мой бесплатный редактор DictionaryEditor позволяет:
1) Позволяет задавать фонемы во внутреннем формате голосового движка. (Это гораздо больше, чем вы могли бы задать в ESC тегах) Таким образом, оказывается возможным использовать все возможности по генерации звуков, заложенные в голосовой движок.
2) Позволяет корректно задавать ударения в словах.
3) Позволяет конвертировать обычные слова в фонетическое представление.
4) Расширенный формат словаря позволяет вводить не только по одному слову, но и словосочетания, что решает проблему омографов. (Это когда слово пишется одинаково, но произносится по-разному в зависимости от контекста)
5) Исправлены багги движка Катерины 1 при встрече с некоторыми знаками пунктуации (тире, многоточие, вопросительный знак) и Катерины 2 (тире, многоточие).
6) Корректная обработка режима ускоренного произношения "pp type"="email", актуально для Катерины 1.
7) Поскольку формат и механизм подключения словарей родной, то исправление произношения не зависит от программы в которой вы озвучиваете текст.
8) Удобный менеджер словарей. Подключение, отключение их от движка. Создание словарей с нуля с корректной шапкой, редактирование, внесение информации о словаре, и его создателе.
9) В комплекте идет подробный хелп, в котором расписаны все возможные фонемы, и специальные символы. Рассказано, как правильно задавать ударение в словах. Как исправлять неверное произношение отдельных звуков. Также разобраны все орфоэпические правила русского языка, и показано на примерах, как их соблюдать в рамках фонетической системы Катерина.

На текущий момент существуют ограничения:

1) Я изменил формат словаря, поэтому после установки моего редактора, словари в оригинальном формате RealSpeak будут не корректно обрабатываться. Т.е. нет совместимости со словарями сделанными ScanSoft Nuance
2) На текущий момент документация к моему словарю содержит, незначительное количество грамматических ошибок и опечаток, не влияющих на смысл
3) Не поддерживает бинарный формат словарей
4) Не работает вебсайт, указанный в справке.

Пункты 1) и 2) постараюсь исправить, может к этому времени и вебсайт для редактора заработает.
[/more].

Новое в версии 1.0.3:
Поддерживаются голосовой движок Катерины 2-й версии и 1-ой.
( Я отказался от поддержки Demo версии 2-ой Катерины. Зато гарантированна работа полной версии 2-ой Катерины моей сборки, см. параллельную тему в Варезнике. Так же эта версия должна работать с версией JAWS8.)

Новое в версии 1.0.4:
Исправил, серьезную ошибку, приводившую к сбою Koobaudio и других читалок текста.
Обновится до этой версии обязательно.

Вот прямая ссылка на мой редактор, документацию, и пример словаря:
Ссылка на закачку версии 1.0.4
http://ifolder.ru/5643490
Размер редактора 1.58 Мб в архиве.
В архив включен пример словаря.


Словари

Даже если вы единолично составите хороший словарь, всех слов он включать не может. В следующем тексте, который вы захотите прослушать, наверняка встретятся слова или слова сочетания, которые уже кто-то исправил, а у вас их нет. Правильным решением, на мой взгляд, является объединенный словарь.

В данном топике, предлагаю выкладывать словари для голосовых движков
Scansoft RealSpeak Russian Voice созданные, как в моем редакторе, так и в оригинальном ScanSoft редакторе.

Правила создания единого общего словаря:

1) Вне зависимости от того, какой редактор словарей вы используете. Для обмена принимаются словари в текстовом формате. Так как их можно легко объединить. В тоже время текстовой формат словаря Nuance, всегда можно конвертировать обратно в бинарный.
2) Для объединения словарей рекомендую использовать любую версию программы Araxis Merge или аналогичную ей.
3) Берем последнюю версию словаря, опубликованную в этой ветке форуме. Скачиваем ее себе. И используя Araxis Merge, объединяем свой словарь и скаченный в один большой словарь.
4) Публикуем получившийся словарь в этой ветке форума.
5) Рекомендуется, чтобы в получившемся словаре было много нового. Ну скажем не менее 30 или 60 новых слов и выражений.
Автор: Ajaja
Дата сообщения: 12.02.2008 22:22
RoRo
Я не совсем понял на счет внутренего формата фонем. Чем он отличается от <ESC>/ ? Я-то как раз думал, что та фонетическая запись, что используется у тебя в словаре, и в <ESC>/ и во внутренем формате движка - это одно и то же (возможно внутри она просто проходит какую-то постобработку для благозвучности). И еще не понятно, на каком этапе происходит перехват и замена? До g2p (graphem to phonem, орфографии в фонемы) или после? Я так понимаю, что до? Иначе не ясно, как по словарю может происходить замена уже в фонемах. Но тогда и эту замену потом должна цеплять постобработка? Я вообще не въехал, как оно работает, учитывая то что механизм работы словарей RealSpeak вроде требует именно <ESC>/+ транскрипции (L&H+ phonetic alphabet, which is compatible with the International Phonetic Alphabet (IPA) как называют ее сами разрабы) и не работает со словосочетаниями. Или он вообще блокируется?

Вопрос по поводу версий Катерины не так прост, как кажется. Лично у меня их уже 4 разных версии Две версии Кати-1 (WordRead-овская и NextUp-овская) и 2 версии Кати-2 (демка и та что с JAWS8 идет). Это уже 3 разных версии той же rs_sapi5_solo.dll. Так что проблему с совместимостью тоже надо продумать. В новой версии, кстати, исправлено большое количество проблем. Например, наконец-то Катя научилась говорить "успеШный" без словаря Уже не надо использовать ключ PP type=email для ускорения. Думаю, так же добавили и новые глюки Алгоритмы достаточно сильно поменялись. Натравив ssft_ttsGetWordTranscriptions на огромную словарную базу порядка полумиллиона уникальных слов и сравнив результат работы на двух разных версиях Кати (старой и новой) получил отличия в 8% транскрипций (это очень много!!!). Так что, похоже, и словари уже придется составлять как минимум для двух разных версий Катерины.

Согласен с тем, что главная проблема стандартного словаря - невозможность корректировать звучание словосочетаний и отсюда проблема с омографами. Главные его достоинства - универсальность, совместимость и, в конце-концов, то что это "родной" формат для движка и не надо патчить библиотеки.

В твоем редакторе пока-что наоборот. Но я надеюсь проблема с совместимостью с разными версиями будет решена. Действительно, не так часто новые версии появляются. К тому же, почитав мануал (за документацию отдельное спасибо - очень полезная вещь!), сложилось впечатление, что вполне реально сделать конвертер не только из стандартного формата в твой, но и в обратную сторону (кроме словосочетаний, само-собой).

В общем, я обеими руками за то чтоб программа развивалась
Автор: RoRo
Дата сообщения: 13.02.2008 11:41
Ajaja Спасибо, за поддержку!

1)    Дай, пожалуйста, в параллельной теме, ссылки на все версии Катерины доступные тебе. Я их на выходных посмотрю. И сделаю совместимость со всеми версиями.
2)    Внутренний формат отличается от <ESC>/ следующими принципиальными вещами.
a.    Некоторое отличие в правилах разбиения на слоги, и другие символы разделители. Это очень важная вещь.
b.    Другие символы для задания ударных гласных.
c.    Все безударные гласные формата <ESC>/ проходят пост обработку, и заменяются на фонетические символы звуков согласно правилам описанным у меня в хелпе. Но не всегда это отображение нормально проходит.
d.    Существует ряд дополнительных символов которые изменяют произношение, и которым нет аналога в <ESC>/.
3)    Те фонемы что использую я, эквивалентны внутренним фонемам движка. При передачи в движок эти фонемы оборачиваются во внутрь <ESC>/+ тегов.
Что такое вообще <ESC> теги это последовательность байт
Стандартные ограничители слов из словаря или ESC символы
"\x11\x2f\x2b\x20" начало строки из словаря, начальный <ESC>/+ тег
"\x20\x11\x2f\x2b" конец строки из словаря, конечный <ESC>/+ тег
"\x11\x2f\x20" начало ESC строки
"\x20\x11\x2f" конец ESC строки
Соответственно, если использовать стандартные словари, в нутрии движка фонемы будут иметь вид:
"\x11\x2f\x2b\x20" – далее идут символы L&H+ phonetic alphabet, which is compatible with the International Phonetic Alphabet (IPA) - "\x20\x11\x2f\x2b"
В моем случае:
"\x11\x2f\x2b\x20" – далее символы внутреннего формата - "\x20\x11\x2f\x2b"
То есть, есть начальный и завершающий теги, в нутрии которых разное содержимое в зависимости от того, какой версией редактора пользоваться.

4)    Идея моего патча в следующем. В момент, когда голосовой движок считывает фонемы из словаря, я сохраняю их у себя во внутреннем буфере. Но не все, а только те, что содержат пробелы. (На самом деле это тоже не совсем верно, пробелы в словосочетаниях заменены на символы подчеркивания). Нахожу в переданной строке все словосочетания, заменяю их на значения из словаря. Делаю еще кое-какие манипуляции со знаками препинания. Далее движок подменяет в строке все слова, что он сам находит в словаре. Соответственно словосочетания он не способен выявить. За него это сделал я уже. Далее все это хозяйство должно подвергнуться тотальному конвертированию, во внутренний формат.
Так как все фонемы уже находятся во внутреннем формате, то их не нужно преобразовывать, но движок об этом не знает. И пытается их искорежить. Ряд мер помогают этого избежать. И в итоге, мы получаем корректную строку во внутреннем формате. Которая передается на последующую обработку.
5)    Вообще хотя, как ты мог заметить, мой патч приклеивается к rs_sapi5_solo.dll, он не имеет к этой dll никакого отношения . Всю изменения функциональности касаются edct.dll и g2p_rur.dll. Так что важны версии именно этих двух файлов.

6)    
Цитата:
Натравив ssft_ttsGetWordTranscriptions на огромную словарную базу порядка полумиллиона уникальных слов и сравнив результат работы на двух разных версиях Кати (старой и новой) получил отличия в 8% транскрипций (это очень много!!!). Так что, похоже, и словари уже придется составлять как минимум для двух разных версий Катерины.

Заметь что ssft_ttsGetWordTranscriptions() выдает фонемы в формате <ESC>/+. В нутрии движка вся работа происходит с внутренним форматом. Соответственно, изменения вполне возможно коснулись конвертации из внутреннего формата в <ESC>/+. И совершенно не влияют на конвертацию из обычного текста во внутренний формат.

7)    
Цитата:
Согласен с тем, что главная проблема стандартного словаря - невозможность корректировать звучание словосочетаний и отсюда проблема с омографами. Главные его достоинства - универсальность, совместимость и, в конце-концов, то что это "родной" формат для движка и не надо патчить библиотеки.


Первое что бросается в глаза, это "не надо патчить библиотеки”. Почему все, так этого боятся. И предпочитают кейгены, крякам. Видимо в силу не понимания, что же это там такое сделала левый программист, может он там чего испортил. Хочу сказать сразу, это предрассудки. Если соблюсти совместимость на бинарном уровне, для чего достаточно проверить версию бинарника и вычислить его CRC32, а так же использовать проверенные временем средства расширения функционала, то проблем не должно быть. Когда я говорю проверенные временем, я имею в виду в частности детуры, которые не абы кто придумал, а являются одним из средств разработки Майкрософт. Которое она, начиная с последних версий, продает за большие деньги.
Все равно для решения омографов, придется движок патчить. Иначе никак!
Теперь, мы имеем несколько версий Катерины. Замечательно. Для пользователя важен конечный результат. Ему важно, что бы его текст был корректно произнесен. Добиться этого можно только с помощью словарей. Как бы разработчики Катерины не изгалялись с методами анализа текста. Но словарь является незаменимой частью. И мне, как пользователю, лучше иметь одну версию с хорошим словарем, чем прыгать от версии к версии и ждать когда интеллект движка дойдет до уровня, когда словари будут не нужны. С другой стороны мне как программисту, требуется обеспечить совместимость с новыми версиями движка, и я тут за. Но исправление одной буквы в ряде слов, погоду не сильно делает, при количестве допускаемых движком ошибок.
L&H+ phonetic alphabet – это “родной” формат движка? Даже будучи в кавычках слово родной, на мой взгляд, не корректно. Скорее внешний формат. Формат, который предоставлен пользователю. А вот родной формат, тот на котором можно прекрасно писать фонемы от пользователя скрыт. Видимо потому, что ScanSoft не удосужилась его документировать, в силу очевидной сложности этого формата. Ибо правила задания одних безударных гласных в зависимости от позиции в слове, чего стоят. Проще их отдать на откуп алгоритму.
И вообще объясните мне, в чем собственно заключается идея универсальности и совместимости L&H+ phonetic alphabet. В том, что они его используют в качестве внешнего интерфейса для словарей? Совместимость с чем? Универсальность по отношению к чему? А то что он как был так и остается не документированным, во всяком случае для русского языка. Да конечно этот формат является внешним интерфейсом. Вероятность его изменения равна нулю. Но простите, для внутреннего формата фонем, я составил подробное руководство. И если пользователь не будет сломя голову менять движок на новую версию, то все будет более чем хорошо работать, а уж доделать совместимость этого редактора с новой версии это вопрос времени.
Таким образом мы имеем вполне законченный комплект движка и редактора фонем. Берем и начинаем создавать словарики, чего еще нужно. А развивать редактор нужно в совсем другом направлении. Все эти вопросы совместимости с новыми версиями это решаемые мелочи.
За два месяца, чтения текстов и составления словарей, можно покрыть большинство ошибок движка Катерины, для этого достаточно, что бы пользователи выложили свои версии здесь на форуме. Есть прекрасные средства для объединения словарей. А что в конечном счете еще нужно?
8) Пользователям голосового движка нужно решить или <ESC>/+ без патчей и следовательно без омографов, или внутренний формат. Два формата я поддерживать отказываюсь, это вообще не имеет смысла.

All
Навскидку, задачка для всех, чтоб поняли, в чем проблема омографов. Как сделать корректным произношение этой фразы (немного странной по смыслу):

“Запах французских духов от аэропортных киосков пугал духов.”
(Речь в начале про парфюм ясное дело идет)

В любой программе синтеза речи, с голосовым движком Катерина, используя редактор словарей ScanSoft Nuance. И не используя мой редактор и документацию к нему!!


Добавлено:
Ajaja
Да конвертер в обе стороны наверно сделать можно и нужно. Это предложение мне больше нравится. К тому же это застрахует нас от изменения внутреннего формата в будущем. Но вот обеспечивать одновременную работы и ESC>/+ и внутреннего формата в программах синтеза речи, мне бы очень очень очень очень не хотелось, это еще тот гемор. Да и пользователю это не принесет никакой выгоды, так как придется изучать два разных фонетических алфавита. короче конвертер из ESC>/+ во внутренний формат я сделаю, а обратный конвертер в случае острой необходимости, вызванной сменой внутреннего формата фонетического представления слов.
Автор: RGF
Дата сообщения: 13.02.2008 12:23
название темы обещает словари помимо прочего, можно их куда то залить? и инструкцию, как их прикореплять к тому или иному софту?
Автор: RoRo
Дата сообщения: 13.02.2008 12:34
RGF
Все верно тема обещает. В шапочке, написано


Цитата:
Вот прямая ссылка на мой редактор:
Ссылка на закачку
http://ifolder.ru/5310490
Размер редактора 1.37 Мб в архиве.
В архив включен пример словаря.


Документация, как пользоваться редактором и подключать словари находится в архиве.
Без редактора, словарь который идет в комплекте работать не будет.
Словарик может и не большой, но редактор позволит решить все возникшие проблемы с произношением. Более полные версии словаря появятся, как только пользователи начнут выкладывать свои варианты произношения в виде словарей.

Ссылок на словарь, в формате редактора ScanSoft Nuance, у меня нет. Может кто и выложит готовый словарик в этом формате. Но я рекомендую пользоваться моим.


Автор: Ajaja
Дата сообщения: 13.02.2008 15:25
RoRo
Спасибо, за подробные объяснения. Примерно понял, как все это работает.


Цитата:
Все равно для решения омографов, придется движок патчить. Иначе никак!

Не скажи, не скажи В самой последней версии Кати (из J8) уже работают таблицы правил на основе регэкспов (из Perl-a) - RuleSets. А регэкспы - очень мощная штука. Какие открываются возможности в плане тех же омографов!!! Только там при работе с ними есть ограничения:

Код: The following restrictions apply to rulesets: TTS Markers generated while rulesets are loaded have dummy values (0) for the source position field, because the
source positions are only determined after the rulesets have
been applied. You cannot load or unload rulesets on a TTS engine instance
that is in the state of processing.
Автор: RoRo
Дата сообщения: 13.02.2008 16:14
Ajaja


Цитата:
сначала в озвучиваемой строке слова из словаря заменюятся на <ESC>/+-последовательности, затем вся эта строка с перемешаным содержанием (орфография и <ESC>/+) передается для обработки дальше и получается строка, приведенная к одному виду - к тем упрощенным <ESC>/-фонемам, которые дальше проходят постобработку и получается более сложный и более точный формат. То есть, очень вероятно что упрощенные <ESC>/ и <ESC>/+ фонемы получаются одним алгоритмом, так как по всей видимости они абсолютно совместимы, просто записываются по-разному.


Брр каша какая, все не так. )) Хотя и не суть. <ESC>/ вообще к словарю не имеет отношение. Хотя смотря что, мы под этим понимаем?! В озвучиваемой строке перебираются все слова, если находится слово в словаре, то берется фонетическая транскрипция и вставляется в озвучиваемую строку. С двух сторон эта транскрипция в строке будет ограничена <ESC>/+ тегами. Все. Дальше эта строка один раз обрабатывается, и приводится к внутреннему формату, тому который я использую в редакторе. Но это все относится к той версии Катерины, что я имею.


Цитата:
Но и руководство в итоге получилось не слабым

Да но оно уже готово!
И не так уж оно сложно, тем более, когда написано.
Зато полный контроль, и решение всех проблем произношения.
Кто хочет исправить произношение тот разберется, согласись, ведь подорвались же некоторые на копание внутри внутренностей Катерины, а это не руководство прочитать

Ладно, если по сути. Я Сейчас закачаю, последнюю версию Кати. И до понедельника постараюсь ее посмотреть, тогда будет предмет для разговора.
В конечном счете, никто не мешает использовать RuleSets с тем форматом фонем, что использую я. А ограничения, можно и обойти. И вообще неплохо бы собрать последнюю версию Катерины, как отдельный пакет. А то уж больно геморройная схема ее установки.

За ссылки на последнюю версию, спасибо.
Автор: vikkiv
Дата сообщения: 13.02.2008 16:50
Нашёл ещё пару фрагментов SDK. Хотя с учётом прогресса единственный интерес может представлять описание одного языка (не русского) в директории Doc и файлы Release Note (там-же).
Автор: Ajaja
Дата сообщения: 13.02.2008 17:10
RoRo

Цитата:
Брр каша какая, все не так. )) Хотя и не суть. <ESC>/ вообще к словарю не имеет отношение. Хотя смотря что, мы под этим понимаем?! В озвучиваемой строке перебираются все слова, если находится слово в словаре, то берется фонетическая транскрипция и вставляется в озвучиваемую строку. С двух сторон эта транскрипция в строке будет ограничена <ESC>/+ тегами. Все. Дальше эта строка один раз обрабатывается, и приводится к внутреннему формату, тому который я использую в редакторе. Но это все относится к той версии Катерины, что я имею.

Нет не так. Мы не поняли друг друга. Вот пример как меняется строка в движке (проверял правда на новой Катерине):
Исходная:

Код: Голос компьютера по умолчанию - ScanSoft Katerina_Full_22kHz
Автор: Ajaja
Дата сообщения: 15.02.2008 10:57
RoRo
Так и есть. Изучил по-внимательней работу движка и твоей программы пришел-таки к выводу, что нет никакого внутреннего формата. То же самое можно задавать и стандартным тегом <ESC>/ (как в CoolReader). И транскрипция после работы твоего словаря так же проходит постобработку и может чуть измениться, как и то что подставлено в тексте этим тэгом. В RealSpeak-движках в модулях g2p_<язык>.dll формируется транскрипция слов общая для всех голосов языка (она же, кстатит, и передается в родной словарь только в виде L&H+). Потом эта транскрипция обрабатывается в модуле vf_<диктор>_full.dll с учетом не только фразы целиком, но и особенностей каждого голоса. Стало понятно, почему разработчики в своем словаре предпочли именно упрощенную транскрипцию, т.к. у разных дикторов могут быть свои особенности, к тому же звучание слов зависит и от соседних слов - все это и учитываются при постобработке. Но русскоязычный диктор, к сожалению, у RealSpeak только один, поэтому для нас это не так актульно. Так что, думаю, каждый должен сам выбрать, какой формат использовать и что предпочесть - мощь и сложность <ESC>/ транскрипции в твоем редакторе (+омографы) или относительную простоту L&H+ в Nuance-редакторе (-омографы).
Автор: vikkiv
Дата сообщения: 15.02.2008 13:23
Многие наверняка выберут более простой вариант именно из-за его простоты во первых, а во вторых благодаря тому что его выпустил оригинальный производитель движка. Хотя абсолютное большинство вообще не будет париться и будут чисто тупо ждать готовые словари. . Предложенная выше более доработанная альтернатива пугает своей сложностью но наверняка представляет ценность для особо продвинутых пользователей, да и труда затрачено ого-го.
Автор: Magral
Дата сообщения: 25.02.2008 07:10
Здраствуйте RoRo хотелось бы узнать когда выйдет новая версия редактора поддерживающая Катерину 2. Жду с нетерпением так как установил демо версию движка плюс взял необходимые библеотеки из той что с JAWS8 идет.
При включении редактора выдает "Голос ScanSoft Katerina (модуль g2p_rur.dll) имеет неверную версию"
Автор: RoRo
Дата сообщения: 26.02.2008 16:39
Magral
Да все практически готово уже неделю как. Все прекрасно работает в тестовом режиме. Достигнута совместимость первой и второй Катерины. В любых сочетаниях dll. Нехватает времени дотестировать все и перекомпилить exe редактора, почистив немного его код. Запарка на работе, плюс празники, плюс поездка в Кунгурскую пещеру. Думаю в конце неделе, в начале следующей. Все выйдет. Дайте немного времени с основной работой разобраться.
Автор: RoRo
Дата сообщения: 05.03.2008 19:22
Готова новая версия моего редактора KatrinDictEditor_distr_v.1.0.3.rar.
Добавлена поддержка 2-ой версии голосового движка Катерина.
Ссылка в шапке.
Автор: Magral
Дата сообщения: 06.03.2008 08:43
Скачал новый редактор 1.0.3 и вот какие у меня появились проблемы.
Программа Koobaudio отказывается ни читать текст,ни писать в мп3 жалуется на зависание движка.
Программа Балаболка вроде читает и пишит, но иногда в конце предложений говорит слово "пич".Создаю новый документ пишу для пробы "душа душой ыаврр" программа вообще в ауте выдает ошибку и вылетает. Как можно решить эти проблемы.
Koobaudio пользуюсь уже года 2 не хочется отказываться. Да и в балаболке если есть вылет значит может произойти влюбой момент при записи мп3.

Еще вопрос к RoRo если допустим слово читается с неправильным ударением мы его правим, то как быть с его формами в других падежах, что каждый падеж прописывать в словаре.К слову в балаболке можно было в словарях делать универсальные правила замены.
И еще может мне выложить 2 словаря для балаболки и Koobaudio, которые я составлял для катерины 1. В 1-ом и главном бодбирались замены на слух для исправления произношения с помощью известного способа у-да-РЕ-ния и других ухищрений.Во втором расшифровывались аббревиатуры. Раз уж создается новый словарь то из них можно брать набор слов с неправильным произношением,а не натыкаться на них при прослушивании текста.Тем более, что большая часть ошибок в словах осталась!

З.Ы. Про свою версию катерины 2 я писал выше.

Автор: Cosmotron
Дата сообщения: 06.03.2008 09:22
Magral
Мне был бы интересен твой словарь для балаболки, выкладывай,заранее благодарен.
Автор: RoRo
Дата сообщения: 06.03.2008 13:52
Magral

1) Выложи свой словарь. По поводу уже собранного списка неправильных слов мысль хорошая. Так что пусть будет в доступе.
2) По поводу читалок Koobaudio и Балаболка. Сейчас займусь их тестированием на предмет выявления проблем. В свою очередь рекомендую NextUp TextAloud с ним проблем не замечено.
3) По-поводу падежей и вообще окончаний слов. На текущий момент, да нужно вводить все формы слов. Но я озадачился прикручиванием регулярных выражений. Пока хочу рассмотреть встроенные средства голосового движка в этом аспекте. А там посмотрим, может прикрутим свой вариант регулярных выражений.
Автор: Magral
Дата сообщения: 07.03.2008 04:20
Словари для Катерины 1 http://meetfile.com/files/47703/Kat_27.02.08.7z.html

Три словаря имена,числа и основной.Подходят для балаболки,Koobaudio и любой другой поддерживающей dic словари.
За основу для основного словаря я брал словарь для другого движка и постепенно вычещал несоответствия и добавлял свои замены,так что могут встречаться бесполезные замены(тапками не закидывать). Хотя много замен исправляет произношение. Словари составлялись для К. 1 поэтому во второй могут обнаружится исправленные слова.

RoRo а нельзя как нибудь сделать список фонем как в родном редакторе,чтобы можно было выбирать фонемы или хотя бы в качестве подсказки,а то пока все фонемы заучишь где что ставить,какая что обозначает а тут нажал на нужную и все ок
Автор: RoRo
Дата сообщения: 07.03.2008 16:21
To All

Готова новая версия KatrinDictEditor_distr_v.1.0.4.rar .
Исправил, серьезную ошибку, приводившую к сбою Koobaudio и других читалок текста.
Обновится до этой версии обязательно.

Magral
1) Спасибо за выявление ошибки в редакторе.
2) "нельзя как нибудь сделать список фонем как в родном редакторе"
Пожелание приму к сведению. Но в ближайшее время это вряд ли будет сделано. Не хватает на все время.
Могу только сказать, что для большинства случаев, а именно расстановки ударений в словах, это не является, на мой взгляд, критичным моментом.
Во-первых, фонетическое представление слово легко получить, нажав кнопку
“Get Transcript”. А во-вторых, при расстановке ударений нужно в большинстве случаев всего-то сделать три исправления: пометить ударный слог двойной кавычкой, заменить в ударном и в безударном слоге гласную. И все. В более сложных случаях, все равно имеет смысл залезть в справку, что бы сверится с фонетическими правилами русского языка. К тому же справку всегда можно держать раскрытую рядом с редактором.
Автор: Magral
Дата сообщения: 08.03.2008 04:11
RoRo спасибо за новую версию буду тестить.Предложение хотелось бы чтобы при двойном нажатии мышки на слове в словаре его можно было редактировать,то есть срабатывала клавиша edit.


Ко всем
Нашел баги в движке К.2 незнаю как исправить:
1.Слово "жди или ждите" + лубое другое слово в начале предложения или просто в начале параграфа читается как здите.Проверьте скопируйте два слова ждите+любое.
Хотя одно слово жди или ждите читается нормально.
2.Словосочетание "выпил воды" проглатывается л.
3.Бывало слышал в слове кресло е заменялась на ё.
Как такие ошибки можно исправлять?Неужели замена букв в словосочетаниях это новый баг движка или он был и в К.1?
Автор: dimzdrec33
Дата сообщения: 11.03.2008 16:19
В WIndows 2000 DictionaryEditor.exe не запускается. Пишет "Точка входа в процедуру SHRegGetValueA не найдена в библиотеке DLL SHLWAPI.DLL".
Автор: Wilmots
Дата сообщения: 14.03.2008 02:06
У кого нибудь есть готовые словари для Катерины-2? Поделитесь...
Автор: Wilmots
Дата сообщения: 14.03.2008 11:43
Кстати, мужики... Никакой сомодельный редактор словарей не нужен!
Я нашёл мега-прогу - "Балаболка"

Цитата:
Программа "Балаболка" предназначена для чтения вслух текстовых файлов. Для воспроизведения звуков человеческого голоса могут использоваться любые речевые синтезаторы, установленные на компьютере. Воспроизведение речи можно контролировать при помощи стандартных кнопок, подобных тем, что присутствуют в любой мультимедийной программе ("воспроизвести/приостановить/остановить"). Программа умеет читать вслух содержимое буфера обмена, показывать текст, содержащийся в DOC, RTF, PDF, FB2 и HTML файлах, изменять настройки шрифта и цвета, управлять процессом чтения из системного трея (области уведомлений) или при помощи глобальных сочетаний клавиш, произносить набираемый на клавиатуре текст, проверять орфографию, делить текстовый файл на несколько файлов меньшего размера, искать омографы. "Балаболка" предоставляет возможность удалить из текста все знаки переноса на концах строк; это позволит избежать запинок при чтении слов.

Ещё там есть неплохой встроенный редактор словарей:



Автор: dimzdrec33
Дата сообщения: 14.03.2008 18:17
Wilmots

Ты просто не совсем разобрался. Здесь редактор словарей для ScanSoft RealSpeak с возможностью улучшения произношения, а для Russian Nicolai (Digalo) вообще никаких отдельных редакторов не нужно. Там словарь можно редактировать прямо в блокноте. Так что в программе Балаболка ничего примечательного нет.
Получше прочитай первый пост RoRo и поймешь для чего все это.
Автор: edgi
Дата сообщения: 16.03.2008 12:57
Ссылка в шапке умерла...

Скажите куда нужно скопировать словари что бы они подключились и использовались катериной?
Автор: Magral
Дата сообщения: 18.03.2008 11:56
To RoRo
Посмотрел словарь general.dct из редактора и возник ряд вопросов:
1.Аббревиатура янв. = йянварйя??
2.Ах-ха-ха-ха-ха-ха-ха стоит ли вписывать такие неоднозначные словосочетания,а если у меня на 1 ха например меньше, то это правило уже не сработает?
3.Почему некоторые слова в отделе транскрипций пишутся и с маленькой, и с большой буквы,что это дает?И вообще как влияет регистор слов в словаре?
4.Слово спасибо , и Спасибо , что дает? Я проверил без словаря в балаболке в разных позициях читается без проблем.И не следует ли из этого что это исправление ошибки Кати 1,если так то есть ли смысл объединять ошибки К1 и К2 в одном общем словаре.
5. Слово теша что это и почему читается тоша?
6.Слово Жюль читается как Жиль?
7.По поводу слов в которых пишется е ,а должна быть ё.Я думаю,что слова этой категории в связи с ограничением словаря по количеству слов вообще следует исключить, так как эта проблема легко решается ёфикацией текста при помощи программы YO.Она умеет автоматом ёфицировать весь текст за очень короткое время.

To All
Кто-нибудь решил проблему слов жди,ждите?
Автор: sergiik
Дата сообщения: 24.03.2008 12:52

Словарь v1, около 80тыс. слов http://profi-rus.by.ru/Download/Dictionary.exe

Ставится автоматически и прописываются пути в реестр C:\Program Files\ScanSoft\RealSpeakSolov4\speech\components\Dictionary для 4 словарей.
Новые слова добавляйте в последний словарь.
Автор: RUSER
Дата сообщения: 26.03.2008 20:36
dimzdrec33

Цитата:
Так что в программе Балаболка ничего примечательного нет.
Получше прочитай первый пост RoRo и поймешь для чего все это


Похоже, что ты не читал help от балаболки. Корректировать можно и произношение и ещё много чего! (теги можно использовать прямо в словаре в формате *.dic)

Т.к. словарь от первой Кати уже не актуален, выкладываю свой вариант словаря от балаболки для Кати-2.
(составлялся с чистого листа, чтобы исключить проблемы первой Кати (естественно ещё сырой))
На благое дело ничего не жалко http://ifolder.ru/5894700
Автор: lapidus2000
Дата сообщения: 30.03.2008 13:55
да, лучше не пользоваться такими словарями.
Автор: RUSER
Дата сообщения: 11.04.2008 14:49
lapidus2000

Цитата:
да, лучше не пользоваться такими словарями.


Послушай в Балаболке эти выдержки из текста
1. Без словаря.
2. Со словарём.

------------------------------------------------------------------------------
впервые прилетев на Новый Кувейт!
не чувствовал, и бок отлежал,
никак не желал пролезать.
так дело не пойдет... так дела не делаются... нет дела. как дела.
И вот снова послышались голоса.
Мы отдохнем перед дорогой или отправимся прямо сейчас.
- Тогда пригони кар. Тяжеленный чемодан, зараза...
Вроде бы уже не охранники, голоса были незнакомые.
об этом не заговорю.
сходив под себя!
И голосить перестала.
со сложенными внутрь.
Два голоса обсуждали причуду "старого хрыча",
"Дело щедрого интеллигента".
используются в целях контрпропаганды.
Мы - разменные агенты.
и скутер медленно сполз с отмели.
что мы легко добежим до
будто принял без спора роль ведомого.
И тут еще полно места.
богатые скоты помыть брезгуют.
такой пассажир, недосчитавшись чемодана
воспользуется миссис Смит
я тут же отволоку тебя в полицию!
но она звукоизолирована.
родители не попрекнут тебя купанием в холодной воде. упреками упрекнет
------------------------------------------------------------------------------

надеюсь выводы сделаеш Сам, пользоватся такими словарями или нет.
ссылка на словарь в моём предыдущем посте.

Страницы: 12

Предыдущая тема: Качаем с Letitbit!


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.