Ru-Board.club
← Вернуться в раздел «Программы»

» GoldenDict

Автор: BKSRU
Дата сообщения: 22.04.2013 18:36
Новая версия DSLGD - V3

GoldenDict.exe - экспериментальный запускной файл GoldenDict с расширенным набором тегов DSLGD V3 на основе последней сборки 1.0.1-662-gace29d3:
- Download: http://rghost.ru/45477548
* New: Начата разработка конвертера HTML <--> DSLGD. Начата разработка конвертера HTML <--> DSLGD. Система затачивается под таблицы, однако, можно в дальнейшем расширять возможности и совершенствовать технологию. Система проста:
- Копируем тело таблицы <tabеl>...</tabel> и вставляем в карточку. Делаем основные замены:
" - '
< - [
> - ]
Такая схема сулит не мало. Можно без проблем использовать визуальный редактор и автоматизировать конвертацию таблиц. Есть определенный набор рекомендуемых HTML Тегов. Но собственно он охватывает весь необходимый диапазон верстальщика. В дальнейшем система будет доводиться до совершенства.
* Дополнительная информация http://forum.ru-board.com/topic.cgi?forum=5&topic=45338&start=20#1 и в Учебно-справочном словаре DSLGD_v3 (смотреть примеры сконвертированных таблиц).
* Голосовалка http://forum.ru-board.com/topic.cgi?forum=5&topic=45768#1


DSLGD_v3 Учебно-справочный словарь по тегам DSL, DSLGD:
- Download: http://rghost.ru/45475032
* npp_v6.3.2 - Вспомогательный материл учебно-справочного словаря (нет изменений в сравнении с предыдущей версией):
- Download: http://rghost.ru/45274155
* New: Добавлены примеры сконвертированyых HTML таблиц.
* Формат: DSLGD для GoldenDict
* Составил: BKSRU
* Кол-во заголовков / карточек: 124/123
* Версия 3, 22 Апреля 2013 года
* Дополнительная информация о словаре:
Для входа в главное меню набрать в строке поиска - DSLGD.
Учебно-справочный словарь по тегам DSL, DSLGD. В режиме Шаг за Шагом показан процесс настройки проекта создания словаря и создания карточки для DSL, затем поэтапное пояснение расширенного набора тегов DSLGD. Даны сводная таблица всех тегов DSL и DSLGD и дополнительные поясняющие таблицы по составлению: таблиц, ссылок, списков и способов форматирования.


Автор: Tvangeste
Дата сообщения: 22.04.2013 18:52
Кстати, а вот наконец-то радостные новости из мира словарных форматов

На днях получили пулл-реквест в GoldenDict репозитории от человека, который добавил полноценную поддержку MDict формата (.mdx/.mdd) в GoldenDict!!

Для тех, кто не знает, это очень популярный, если не самый популярный словарный формат в Китае. Что-то типа как у нас DSL, у русскоговорящих. Наличествуют неплохие оболочки для использования Mdict словарей на мобильниках (Симбиан, Андроид, iOS). Так вот, я сам про него не очень много знал, пошел разбираться что за зверь. Оказалось, всё очень весело и интересно. Сам исходный формат, фактически чистый HTML вообще без наслоений. Карточки банально разделяются тэгом </>, следующая строка после разделителя - заголовок. Всё остальное до следующего разделителя - тело карточки. Внутри тела карточки - произвольный HTML + CSS.

Поддерживаются ресурсы (звуки, картинки, CSS стили), они в отдельном каталоге обычно лежат.

Это я описал исходники словаря. Аналог DSL файлу. Потом есть спец-утилита для компиляции исходника уже в бинарный архив, это аналог нашего LSD файла. Выбираем путь к исходинку, путь к доп. файлам, пишем название и аннотацию, жамкаем кнопку - готово, получаем .MDX файл (словарь) и .MDD файл (доп. ресурсы).

В общем и целом - просто на 100% ровно то о чем я уже давно и много размышлял и что было бы полезно в GD. Ну разве что шаг с компиляцией может не всем понравиться. Думаю, что это можно улучшить далее и добавить в GD поддержку не только бинарных MDX/MDD файлов, но уже и, собственно, исходный текстовый формат.
Автор: BKSRU
Дата сообщения: 23.04.2013 09:06
Tvangeste

Цитата:
В общем и целом - просто на 100% ровно то о чем я уже давно и много размышлял и что было бы полезно в GD.

Ваша любимая фраза, когда хотите подчеркнуть свою значимость в том к чему отношения не имеете.
То о чем вы там размышляли не знаю, но говорили и писали о другом. Ваши слова называются демагогией, а в некоторых случая и откровенное вредительство. Благодаря вам (в том числе) в частности отодвинуто было развитие нормального формата (с поддержкой всего необходимого) года на 3-4. Пока, что вы пользуетесь тем, что GD малопопулярен (не без вашей помощи в том числе), иначе бы на чистую воду вас бы вывели давно.
Теперь на счет формата. Если кто то наконец обратил свой взор в сторону GD только приветствую. Только вот случайно ли это?
Если это чистый HTML то только за. Как немного разбирающийся в HTML может когда и воспользуюсь. Да вот только DSLGD и MDict это звенья одной цепи. Просто отпала необходимость разбираться с HTMLGD. Здесь в принципе можно поставить крест, если с MDict все так гладко. И как хорошо, что не пошел у вас на поводу и не стал развивать второй формат и тем более те форматы в которых уже все кто пробовал разочаровались (вы видимо не пробовали, но рекомендуете налево и направо). Мне было достаточно одного взора на внутренности посмотреть.
Однако, что касается DSLGD как и раньше говорил так и сейчас повторю, что необходимо развивать оба направления. И эти направления наиболее популярны в сети. Мало того принцип DSLGD использует на порядок больше пользователей чем HTML.

Автор: Tvangeste
Дата сообщения: 23.04.2013 13:13
Для тех, кому интересно получать оперативно новости о GoldenDict, я создал твиттер аккаунт для GoldenDict'a: https://twitter.com/GoldenDict

Добавлено:
Свежий билд #675, for Windows. Уже с поддержкой MDict формата! Сейчас инструкцию по формату напишу...

Download: GoldenDict-1.0.1-675-g487ba6b.7z - 1.72 MB

Changelog:
MDict (.mdx/.mdd) format support! (by Timon Wong)
Try to load QT translation files from GD "locale" folder at first (by Abs62)
DSL compatibility: Enforce the example color even if the childen tags say otherwise (by Tvangeste)
As usual, just unpack the archive on top of the latest Early Access build (#662) and you're good to go.
Автор: BKSRU
Дата сообщения: 23.04.2013 17:41
GoldenDict.exe - экспериментальный запускной файл GoldenDict с расширенным набором тегов DSLGD V3 + начальной системой конвертации HTML <--> DSLGD на основе последней сборки 1.0.1-675-g487ba6b:
- Download: http://rghost.ru/45499876
* Дополнительная информация:
http://forum.ru-board.com/topic.cgi?forum=5&topic=30250&start=2300#20
http://forum.ru-board.com/topic.cgi?forum=5&topic=45338&start=20#1

Автор: ramix
Дата сообщения: 23.04.2013 18:26
Tvangeste
Спасибо! Особенно за словари MDict.
Подскажите, а есть инструменты для декомпиляции бинарных словарей MDict?
Автор: Tvangeste
Дата сообщения: 23.04.2013 19:06
ramix

Цитата:
а есть инструменты для декомпиляции бинарных словарей MDict?

Есть, работают шустро и декомпилируют даже зашифрованные словари:
https://bitbucket.org/xwang/mdict-analysis
Там в репозитории скрипт на питоне, readmdict.py - вот им. Типа вот так:

Код: python readmdict.py -x DICTIONARY.mdx
Автор: viarmx86
Дата сообщения: 23.04.2013 20:35
ramix
Цитата:
Подскажите, а есть инструменты для декомпиляции бинарных словарей MDict?
Please just try <<this one>> on.
Автор: anion23
Дата сообщения: 23.04.2013 21:12
viarmx86
Автор: data man
Дата сообщения: 23.04.2013 21:22
Tvangeste
Отличная новость!

Цитата:
это очень популярный, если не самый популярный словарный формат в Китае.

А ведь ему уже больше 10 лет, и вот мир узнал о нём!


Цитата:
добавить в GD поддержку не только бинарных MDX/MDD файлов, но уже и, собственно, исходный текстовый формат.

Может быть расширение исходника сделать MDS (MDict Source)?
А потом ещё бы и его хранение в dz-архивах!

И ещё вопрос: появится ли новый формат в Android-версии?
Автор: ramix
Дата сообщения: 23.04.2013 21:56
viarmx86
Thank you. Though it is in Chinese, but it's easy to figure out everything.
Автор: Tvangeste
Дата сообщения: 23.04.2013 22:37
ramix, you could take a look here:


GetDict has been used for many years already (and haven't been updated in a long time, but maybe it doesn't need an update). The python script I posted earlier is a recent code, actively maintained. GoldenDict's code to parse Mdict dictionaries is based on this python code.

You could try both and see if there are any differences.


Добавлено:
data man

Цитата:
А ведь ему уже больше 10 лет, и вот мир узнал о нём!

Да знать-то знали, но не использовали... А уж как он там внутри устроен и подавно не интересовались. Хотя какие-то древние словарики из Mdict'a в DSL я когда-то переделывал.

Теперь, когда есть полноценная поддержка в GD, можно и узнать!


Цитата:
Может быть расширение исходника сделать MDS (MDict Source)?

Почему-то в офиц. примерах используется .txt Думаю, может, *.mdict.txt? Такие файлы сразу без проблем в текстовом редакторе можно открыть Хотя, mds короче. Особенно если еще и .dz добавлять.


Цитата:
А потом ещё бы и его хранение в dz-архивах!

Это само собой!
Автор: ramix
Дата сообщения: 23.04.2013 22:57
Tvangeste

Цитата:
You could try both and see if there are any differences.

GetDict is a standalone application. As far as I understand, readmdict.py needs python to be installed, but I've never used it. Thus, for me it is easier to cope with the Chinese application than to study python.
Автор: viarmx86
Дата сообщения: 23.04.2013 23:09
Tvangeste
Цитата:
You could try both and see if there are any differences.
Nice program. I've given it a try. Both MDX & MDD could be extracted. thank you.
Автор: BKSRU
Дата сообщения: 24.04.2013 16:57
New Periodic Table_v1 Таблица Менделеева. Периодическая система химических элементов Д.И.Менделеева.
- Download: http://rghost.ru/45522145
* Конвертировал: BKSRU
* Формат: DSLGD v3 для GoldenDict
* Кол-во заголовков / карточек: 5/1
* Версия 1, 25 Апреля 2013 года
* Дополнительная информация о словаре:
Простой справочный словарик всего из одной карточки. Классический вид таблицы Менделеева. Свойства химических элементов. Ссылки онлайн. Если будут пожелания, поменяю на внутренние.




P.S. Полагаю, что внутренние ссылки будут более актуальны. Для тех кому это может быть полезным, наверняка текстовка есть.
Автор: sikemo
Дата сообщения: 24.04.2013 18:45
а как насчёт ужатия MDict формата? если в этом будет надобность
Автор: Tvangeste
Дата сообщения: 24.04.2013 19:26
sikemo

Цитата:
а как насчёт ужатия MDict формата?

.MDX и .MDD файлы изначально уже неплохо пожаты. А если сделаем поддержку исходного текстового формата MDict в GoldenDict'e, то эти текстовые файлы можно традиционно сделать, чтобы пожать dictzip'ом.
Автор: ramix
Дата сообщения: 25.04.2013 01:13
Tvangeste
Abs62
У меня GoldenDict показывает некоторые картинки в словарях в слегка увеличенном размере - примерно на 10% (см. скриншот ниже). Это только у меня так, или у всех? Что может быть причиной?

Вверху - GoldenDict, внизу картинка в просмотрщике со 100% размером.
Автор: Tvangeste
Дата сообщения: 25.04.2013 01:35
А между тем новая фишка добавлена в GoldenDict - Text-to-Speech, можно теперь разные разговорные движки подключать, как словари. Пока только на Windows. Код написан новеньким контрибутором, тем же, кто и MDict поддержку добавил.

Автор: BKSRU
Дата сообщения: 25.04.2013 04:07
Поддержка TTS это хорошо.
Было бы не плохо иметь стандартные настройки в подобных случаях: скорость, высота и громкость голоса. А также назначение языка произношения.
Автор: Abs62
Дата сообщения: 25.04.2013 07:43
ramix
Сохраните статью в html по F2 и посмотрите, что там в коде прописано для этого рисунка. Может, там прямо размер задан.
Автор: ramix
Дата сообщения: 25.04.2013 11:11
Abs62

Цитата:
Сохраните статью в html по F2 и посмотрите, что там в коде прописано для этого рисунка. Может, там прямо размер задан.

Да, для одного из двух рисунков размер был задан.
Но в результате "расследования" дело оказалось в другом. Всё из-за того, что <zoomFactor> был выставлен на 1.1 (скорее всего, из-за совпадения у меня в нескольких приложениях комбинации клавиш Ctrl++).
Выставил <zoomFactor> на 1 и всё стало как прежде.

Добавлено:
Кто знает, подскажите, пожалуйста, как поправить искажение стиля на словарях XDXF. Оно проявляется вот так:



Из трех карточек в "Slovnyk (En-Ru)" только первая отображается стильно, остальные - на фоне бордюра.
Стиль интерфейса: Modern* / Дополнительный стиль: нет
* подстроенный, но XDXF-часть не затрагивалась
Автор: Tvangeste
Дата сообщения: 25.04.2013 14:10
ramix

Цитата:
Из трех карточек в "Slovnyk (En-Ru)"

Выложите его куда-нибудь, я посмотрю после работы и попарвлю стиль.
Автор: ramix
Дата сообщения: 25.04.2013 15:16
Tvangeste

Цитата:
Выложите его куда-нибудь, я посмотрю после работы и попарвлю стиль.

Словарь здесь.

Беда еще в том, что это искажение "плавающее". Его проявление зависит от набора словарей, в который попадает карточка с искомым словом. В ряде наборов смотрится всё нормально (почему я раньше подобного искажения и не замечал), а в полном наборе словаре - проявляется.

Заметил искажение на словах "dictionary", "insight", "sloppy", "attract"... А вот на слове "abate" - его нет. Такое впечатление, что влияет незакрытый "хвост" от какого-то предшествующего словаря, когда этот словарь появляется в позиции перед искаженным (искажения последующих карточек иногда также встречаются и у вики-словарей, но там они носят иной характер). Вычислить влияющий словарь мне трудно - слишком большой набор предшествующих словарей. Так что у вас данное искажение может и не проявиться.
Автор: Tvangeste
Дата сообщения: 25.04.2013 18:30
ramix

Цитата:
Беда еще в том, что это искажение "плавающее". Его проявление зависит от набора словарей, в который попадает карточка с искомым словом.

Воспроизвести смог, если перед этим словарем поместить WordNet 2.0 (MDict). В карточках из MDict'овского словаря есть незакрытые тэги (а именно - font), из-за них всё разьезжается.

Что-то надо бы придумать по этому поводу, ибо форматов, в которых произвольный HTML можно в карточку поместить, развеслось много и любой похожий брак в словаре может приводить к проблемам в других словарях, карточки которых идут ниже по списку.

Как-то надо защищаться от незакрытых тэгов в карточках. Теоретически, можно каждую карточку, прежде чем показывать, подвергать осмотру и проверке на лишние и/или незакрытые тэги и насильно закрывать. Но это может по производительности ударить. Ну или можно такую санацию карточек делать только для определенных форматов, типа Mdict, AARD, ..., которые грешат подобными проблемами.

Abs62, как думаешь?

Добавлено:
Завел багу на это дело: https://github.com/goldendict/goldendict/issues/271
Автор: ramix
Дата сообщения: 25.04.2013 20:26

Цитата:
Воспроизвести смог, если перед этим словарем поместить WordNet 2.0 (MDict). В карточках из MDict'овского словаря есть незакрытые тэги (а именно - font), из-за них всё разьезжается.

Получив наводку, и я вычислил словарь, который оказывает влияние, тоже оказался MDict, хотя и другой.
Автор: Abs62
Дата сообщения: 25.04.2013 23:03
Tvangeste

Цитата:
Как-то надо защищаться от незакрытых тэгов в карточках. Теоретически, можно каждую карточку, прежде чем показывать, подвергать осмотру и проверке на лишние и/или незакрытые тэги и насильно закрывать. Но это может по производительности ударить. Ну или можно такую санацию карточек делать только для определенных форматов, типа Mdict, AARD, ..., которые грешат подобными проблемами.

Глянь, как эта проблема решалась для Стардикта, в StardictArticleRequest::run(). Грубо, но эффективно.
Автор: Tvangeste
Дата сообщения: 25.04.2013 23:36
Abs62

Цитата:
Глянь, как эта проблема решалась для Стардикта, в StardictArticleRequest::run().

Ой, как хорошо и просто! А то я уже сходил в ад в попытках свой парсер HTML быстро написать, обжегся и как раз пытался придумать последовательность тэгов, которая в правильную сторону повернула бы алгоритм построения дерева в Вебките, чтобы он в нужном месте добавлял закрывающие тэги (а то он их совершенно не там ставит в нашем случае, где хотелось бы, посредине следующей статьи почему-то).

А тут уже эта дорожка пройдена и решена! Спасибо, сейчас запедалю фикс и для MDict словарей!

Добавлено:
ramix

Цитата:
Получив наводку, и я вычислил словарь, который оказывает влияние, тоже оказался MDict, хотя и другой.

Попробуйте вот этот билд с фиксом, как посоветовал Abs62: GoldenDict-1.0.1-693-g56a5308.7z - 1.73 MB. В этом же билде и поддержка TTS есть, если кому надо.

Исправилась прооблема? На моих словарях проверил, там вылечилось.
Автор: ramix
Дата сообщения: 26.04.2013 00:45
Tvangeste

Цитата:
Попробуйте вот этот билд с фиксом, как посоветовал Abs62: GoldenDict-1.0.1-693-g56a5308.7z - 1.73 MB.

Спасибо. Артефакт исчез.
Автор: BKSRU
Дата сообщения: 26.04.2013 04:20
GoldenDict.exe - экспериментальный запускной файл GoldenDict с расширенным набором тегов DSLGD V3 + начальной системой конвертации HTML <--> DSLGD на основе последней сборки 1.0.1-693-g56a5308:
* Дополнительная информация:
http://forum.ru-board.com/topic.cgi?forum=5&topic=30250&start=2300#20
http://forum.ru-board.com/topic.cgi?forum=5&topic=45338&start=20#1

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156

Предыдущая тема: Total video converter 3.14 ошибка конвертации


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.