Ru-Board.club
← Вернуться в раздел «Программы»

» GoldenDict - DSLGD (DSL extension format)

Автор: BKSRU
Дата сообщения: 12.05.2015 14:13
Причины ясны. Устраняются.
Автор: BKSRU
Дата сообщения: 14.05.2015 10:12
GoldenDict на основе сборки 1.5RC475 + последние поправки - (не UI Revolution) Обратите внимание - это не версия UI Revolution и не официальная сборка.
- Download: http://rghost.net/8nSm5SChQ - только exe файл + обновленная библиотека.
Дело было в нехватке компонента среды разработки. Нашлись добрые люди, помогли разобраться. Сам код был верен. Пробуем.

P.S. Среда собрана на более новых компонентах. Так что перезалил с обновленным файлом DLL библиотеки. Благо такой файлик оказался единственным.
Автор: Rock
Дата сообщения: 14.05.2015 16:33
BKSRU

Цитата:
Дело было в нехватке компонента среды разработки. Нашлись добрые люди, помогли разобраться. Сам код был верен. Пробуем.

А... MinGW. Никогда не понимал, зачем люди его используют. Хотя, у богатых свои причуды...
Да, спасибо, теперь оно работает.
Автор: BKSRU
Дата сообщения: 15.05.2015 20:15
Инсталлятор GoldenDict на основе сборки 1.5RC476 - (не UI Revolution) Обратите внимание - это не версия UI Revolution и не официальная сборка.
- Download: http://rghost.net/8hWDHlgMw - инсталлятор собран на основе обновленных библиотек.
Это первый опыт сборки инсталлятора, так что для смелых. Лично у меня никаких проблем переустановка не вызвала.
Автор: BKSRU
Дата сообщения: 16.05.2015 07:53
Небольшие секреты работы с менеджером и статистикой.
- Файл титров .srt вы можете бросить прямо в менеджер. Ничего не произойдет и в менеджере его не будет видно. Но открыть этот файл для расчета статистики будет проще. Находиться он будет там куда скинули.
Не кидайте в менеджер текстовые файлы, ничего хорошего вы не получите, менеджер их исказит.
- Если вы откроете заголовки словаря, то проще экспорт сдеать прямо в любую папку менеджера. В менеджере появится имя которое дано при экспорте и обычно это имя словаря.
Автор: BKSRU
Дата сообщения: 30.05.2015 18:27
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8vCChkskB - exe файл + обновленная библиотека.

Обратите внимание - это не версия UI Revolution и не официальная сборка. Отладить с ходу такой менеджер с фильтром не просто. Но сделано все возможное, что бы все на текущий момент работало как положенно. Так, что на ваш страх и риск. В какой то мере это база более серьезного проекта. Хотелось бы, что бы была активность по поводу сбоев и несоответствий в сохранении информации и при каких обстоятельствах происходит.

New:
1. Корневой фильтр Статистического анализатора текста (Лемматизация).
2. Реализованы пункты контекстного меню Окна-фильтра: Экспорт списка/Копировать все и другие.
3. Нормализовано создание фильтра из частотного списка с уборкой статистики из строк.
4. Сложение частотных списков.
5. Тултип в заголовке Окна-фильтра, дающий информацию об общем количестве слов частотного списка и процентном соотношении после фильтрации, а так же о языке выбранного морфологического словаря для корневой фильтрации.

Итак о главном:
Корневой фильтр Статистического анализатора текста - приведение списка журнала к более короткому корневому списку однокоренных слов со сложением статистик, основанное на морфологическом словаре соответствующего направления. Тесно взаимодействует с Менеджером журналов и Окном-фильтра. Обладает следующим функционалом:
Приведение списка журнала к более короткому корневому списку однокоренных слов со сложением статистик. Такая фильтрация основывается на включенных морфологиеских словарях текущей полки. Выбор языка разбора по корням автоматизирован.
Реверс Корневого фильтра.
Перерасчет статистики и вывод соответсвующей информации с учетом корневой фильтрации. Информация так же содержит язык выбранного морфологиеского словаря.
Экспорт частотного корневого списка.
Обеспечена любая сочетаемость сортировки и фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix).
Автор: BKSRU
Дата сообщения: 31.05.2015 09:33
Корневой фильтр Статистического анализатора текста (Лемматизация).
Как уже было сказанно служит для приведения списка журнала к более короткому корневому списку однокоренных слов со сложением статистик. Исходный список становится компактнее за счет того, что однокореные слова считаются одинаковыми и приводятся к одному слову. Поиск корней основан на морфологическом словаре соответствующего направления.
Может показаться запутанным делом. Однако все уже сделано за вас и остается только выбрать текст для исследования и нажимать пункты меню. Естественно надо знать и понимать принципы вложенные в статистический анализатор текста и это проще всего осознать на примере.

Создание частотного списка текстового файла.
Для начала создадим частотный список текстового файла. Жмем в контекстном меню Окна-менеджера пункт меню New Word Stat и выбираем титры в текстовом формате .srt. Собственно можно выбрать любой интересующий нас текстовый файл. Таким образом получим Статистический список текстового файла. Назовем его Movie1:

Как видим слева и справа у нас одинаковый список. И этот список оригинальный. Слова в нем идут в порядке первой встречи в тексте. Каждое слово в нем показано единажды, справа проставлена цифра (частотность) - сколько раз это слово встречается в тексте. Заметьте в заголовке Окна-фильтра выставлена информация о количестве таких оригинальных слов - 1476. Назовем это список - Чистым списком. Общее же колличество слов в тексте мы получим если сложим частотность каждого слова. Однако, делать нам это не придется, просто наведем курсор мыши на заголовок Окна-фильтра и посмотрим нужную нам информацию:

Всего слов в тексте 6394.
Таким образом у нас есть объект для исследования - частотный список выбранного нами текстового файла со всей необходимой исходной статистической информацией. Этот исходный список неизменен. Дальнейшие эксперименты над ним: сортировка и фильтрация не влияют на него и всегда можно вернуть его в исходное состояние, отключив сортировку и фильтрацию. Однако, вы можете удалять или вставлять новые слова.
Пожалуй, это уже для вас не новость. Но здесь есть кое, что новенькое - Сложение статистик. Создаем частотный список титров текстового формата другого фильма. Назовем этот список Movie2:

Мы хотим сложить статистику Movie2 + Movie1. В контекстном меню Окна фильтра имеется новый удобный пункт меню Copy List. Скопируем частотный список Movie1. Затем просто вставим Paste Items этот список в Movie2. Удобно было отделить контекстное меню:

В результате получим сложение статистик. В этом случае слова Оригинального Чистого списка идут в алфавитном порядке:

В этом списке вы не найдете повторяющихся слов. Если слова одинаковые их частотность складывается. Естественно поэтому цифра в заголовке Окна фильтра не будет прямым сложением количеств слов Movie1 и Movie2. Но вот общая сумма количества слов в двух текстах - цифра во всплявающей подсказке Окна фильтра, как раз будет прямым сложением общих количеств слов в двух текстах. Такие расчеты логичны. Можно просто объединить эти два файла, расчитать статистику и сравнить результаты. Они должны быть идентичны.
Автор: BKSRU
Дата сообщения: 31.05.2015 12:13
Однако вернемся к Movie1 и разберемся с сортировкой и фильтрацией.

Сортировка и фильтрация частотного списка.
Повторю - реализована любая сочетаемость сортировки и фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix). С некоторыми фильтрами уже знакомы. В дальнейшем познакомимся с новыми.
Надо понимать, что сортировка и фильтрация это разные аспекты исследования списков.
Пункты контекстного меню: Ascending, Descending позволяют сортировать исходный список по алфавитному убыванию/возрастанию. Если список частотный, то пункт меню Frequency переключит сортировку по убыванию/возрастанию частотности слов:


По поводу фильтрации. На сегодня реализованы режимы фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix):

Filtering - фильтрация по списку. В Окне-фильтра имеется дежурный файл фильтра Filter и собственно он пустой. Заполнить его можно либо как мы это делаем с обычным журналом, либо превратив любой имеющийся у нас список в фильтр, включая частотный. Воспользуемся вторым способом. В моем распоряжении есть общеизвестные списки наиболее употребимых слов: Oxford3000 и COCA5000. Превратим Oxford3000 в фильтр (исходный список не пострадает). Выберем его в Окне менеджера и выбирем в контекстном меню Turn in Filter. Фильтр создан:

Теперь можно поиграть с нашим частотным списоком Movie1 и фильтрацией. Режим Filtering оставит в исходном списке те слова которые присутствуют в файле списка, в нашем случае созданном из Oxford3000. Reverse Filtering переключит фильтрацию в режим реверса и оставит в исходном списке те слова которых нет в фильтующем списке. Фильтрация может работать совместно с сортировкой:

Обратим внимание на статистическую информацию в заголовке и всплывающей подсказке Окна-фильтра. Она содержит информацию следующего плана:
Для Чистого списка: Слов в списке после фильтрации(процентное соотношение)/Общее число слов в списке.
Для Общего колличества слов текста: Сумма частот оставшихся слов после фильтрации(процентное соотношение)/Общее число слов в тексте.
Заметьте отличается не только колличество слов, но и процентное соотношение. Постарайтесь самостоятельно понять, почему?

Но вернемся на время ко второму частотному списку Movie2. Как уже было сказанно, из частотного списка так же можно создать фильтр. Что мы и сделаем через тот же пункт контекстного меню в Окна менеджера - Turn in Filter:

Как видим, фильтр не только создан, но и очищен от статистической информации. Это, кстати, способ превращения статистического в простой список, который можно сохранить обычным способом под любым именем.
Теперь, используя режимы фильтрации, можно сравнить два частотных списка Movie1 и Movie2. В обычном режиме фильтрации мы можем взглянуть на одинаковые слова, встречающиеся в обоих списках и узнать их количество. В режиме реверса, можно вычислить колличество и посмотреть слова разные для этих частотных списков, которые встречаются только в каждом списке:


RegExp (WildcardUnix) - по поводу этого фильтра много пояснять не стоит. Строка ввода поискового запроса находится в заголовке Окна-фильтра. И стоит напомнить, что этот фильтр работает совместо с другими фильтрами и сортировкой:
Автор: BKSRU
Дата сообщения: 31.05.2015 16:37
Наконец мы подошли к Корневому фильтру Статистического анализатора текста.

Корневой фильтр статистического анализатора текста (Лемматизация).
Cores Filtering - исходный список становится компактнее за счет того, что однокореные слова считаются одинаковыми и приводятся к одному слову. Однако это слово не обязательно является корнем, хотя и стремится к нему. Так, что полученный список нельзя назвать чисто корневым. Чистый корневой список получить можно, но об этом позже. Основное слово среди однокореных выбирается из исходного списка, руководствуясь следующими принципами:
Среди однокреных слов выбирается слово с наибольшей частотностью.
Среди слов с одинаковой частотностью выбирается корень, если таковой имеется.
Корневая фильтрация использует морфологический словарь. Поэтому, для корректной работы фильтра необходимо, что бы морфологический словарь необходимой направленности находился на текущей полке словарей и был включен. Хотя при нескольких включенных морфологических словарях на полке, автоматически выбирается нужного направления, рекомендуется отключить иные словари, для более быстрой работы. Далее из контекстного меню Окна-фильтра выбраем пункт Cores Filtering. В результате получим корневой список слов. Режим Revers Cores Filtering покажет слова, которые не вошли в корневой список:

Заметьте во всплывающей подсказке заголовка Окна-фильтра появилась информаци о языке выбранного морфологического словаря для корневой фильтрации.
Как уже не раз было сказанно, сочетаются любые типы сортировки и фильтрации. Например, применим сортировку по частоте и обычную фильтрацию:

Обратите внимание на изменении принципа расчета статистики:
- В Чистом списке расчет ведется уже от колличества слов в списке приведенном к корням (информация в заголовке Окна-фильтра).
- Естественно общее колличество слов не изменилось, зато изменилась сумма частот слов. Частотность каждого слова получена суммированием частотностей однокоренных слов. Соответственно так же изменилось процентное соотношение (информация во всплывающей подсказке заголовка Окна-фильтра).
Возможно сразу осознать это несколько сложно, хотя все логично. Немного неясности вносит то, что в списке для каждого слова проставлена оригинальная частотность, а общая сумма частотности ведется уже от просуммированных частоностей однокоренных слов.
Автор: BKSRU
Дата сообщения: 31.05.2015 21:01
Реальный корневой частотный список, который мы собираемся получить обладает большей информативной ясностью.

Экспорт списка статистического текстового анализатора.
Мы еще не исследовали пару новых пункта контекстогоменю: Export List/Export Cores. Мы получили результаты, нам их надо сохранить:
Export List - сохранит список слов с оригинальной частотностью. При включенной сортировке и фильтрации, сортировка будет сохранена, а в экспортный список попадут только те слова, которые были в отфильтрованном списке. Экспортный список создается автоматически рядом с исходным. Вам остается только дать ему новое имя или оставить предложенное по умолчанию:


Export Cores - этот пункт контекстного меню появится только при включении Cores Filtering. Сохранит список корней слов. Напротив каждого корня слова будет проставлена сумма частотностей однокоренных слов. При включенной сортировке и фильтрации, сортировка будет сохранена, а в экспортный список корней попадут корни только тех слов, которые были в отфильтрованном списке. Экспортный список корней создается автоматически рядом с исходным. Вам остается только дать ему новое имя или оставить предложенное по умолчанию:


В заключении остается добавить, что корневая фильтрация работает и с обычными списками. Только статистика будет несколько иная и частотность не будет проставлена. Список будет компактнее, однокореные слова будут заменены одним словом. Фактически будет выведено общее число заголовков и количество слов после приведения к корням.

Поинтересуемся статистикой попадания в корневой список титров нашего кино слов из списка Oxford3000:

В принципе это типичная картина. Реальный процент даже несколько выше, если исходный список немного привести в порядок. Он будет еще выше если сам Oxford3000 привести к корням, что не составит труда.
Если все эти манипуляции провести со списком COCA5000, процент составит 90%.
Автор: BKSRU
Дата сообщения: 01.06.2015 14:51
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8vCChkskB - exe файл + обновленная библиотека.
Файл перезалит.
Исправлена ошибка приведшая к невозможности создания новых журналов.
Автор: BKSRU
Дата сообщения: 03.06.2015 14:50
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8LGlrKrXt - exe файл + обновленная библиотека.

Обратите внимание - это не версия UI Revolution и не официальная сборка. Отладить с ходу такой менеджер с фильтром не просто. Но сделано все возможное, что бы все на текущий момент работало как положенно. Так, что на ваш страх и риск. В какой то мере это база более серьезного проекта. Хотелось бы, что бы была активность по поводу сбоев и несоответствий в сохранении информации и при каких обстоятельствах происходит.

New:
1. Иконка с контестным меню в поисковой строке запроса для регулярных выражений Окна-фильтра.
2. Добавлен режим регулярных выражений - RegExp.
3. Для регулярных выражений добавлен переключатель чувствительности к регистру.

Режим регулярных выражений по умолчанию - WildcardUnix. Контекстное меню кнопки строки ввода содержит пункт переключения в режим RegExp.
Режим чувствительности регулярных выражений к регистру по умолчанию - CaseInsensitive. Контекстное меню кнопки строки ввода содержит пункт переключения в режим CaseSensitive.
Строка ввода имеет подсказку о текущем режиме регулярных выражений. Всплывающая подсказка кнопки и строки ввода напомнит о текущем режиме регулярных выражений и режиме чувствительности к регистру для регулярных выражений.


Автор: BKSRU
Дата сообщения: 05.06.2015 06:02
Из серии: Небольшие секреты работы с менеджером и статистикой.

1. Если вы хотите применить несколько фильтров к списку или не получается достичь желаемого результата с помощью регулярного выражения за один раз, можно сделать это последовательно:
- Выбираем файл списка из которого нам бы хотелось сделать фильтр и собственно делаем его таковым пунктом контекстного меню Окна-менеджера - Turn in Filter.
- Фильтруем исходный список с помощью пункта контекстного меню Окна-фильтра - Filtring. Можно произвести любую комбинацию сортировки и фильтрации: Filtering/Revers Filtering/Cores Filtering/Revers Cores Filtering/RegExp (WildcardUnix).
- Сохранем полученный результат с помощью пунктов контекстного меню Окна-фильтра: Export List или Export Cores, в зависисмости от того хотим ли мы получить список слов присутствующих в исходном списке или список корней.
- Выбираем следующий файл списка из которого хотели бы сделать фильтр и повторяем действия.

Конечно можно было бы объединить списки из которых хотели бы сделать фильтр. Однако нам может понадобиться различный набор фильтрации для каждого из них.

2. Если нам требуется произвести более чистый статистический анализ частотного списка, можно создать файлы фильтров мусора в которые входили бы следующие слова:
- слова - паразиты, типа: ooh, ahh...
- имена собственные
- буквы оставленные после снятия апострофов и принятые за слова: s, d, t, ll...
Далее применяем эти фильтра и используя пункты контекстного меню Окна-фильтра удаляем или сохраняем список, смотря какие фильтра были применены.

Один из таких списков:
Имена собственные English (United States):
- Download: http://rghost.net/8PyTgTFXS

На самом деле если Фильтр имен собственных еще может как то быть интересен для просмотра, то Фильтр мусора стоит сделать единым пополняемый, что бы он не влиял на статистику частотного анализирования текста.

3. Несмотря на то, что у фильтра RegExp/WildcardUnix нет режима Reverse его не сложно реализовать:
- Используем фильтр RegExp/WildcardUnix.
- Удаляем результат с помощью меню Clear, предварительно сохранив исходный список если необходимо.
- Отменяем фильтр RegExp/WildcardUnix и фактически видим результат режима Reverse.
На самом деле подобным образом можно организовать режим Reverse с любой комбинацией фильтров.
Автор: BKSRU
Дата сообщения: 08.06.2015 07:47
Из серии: Небольшие секреты работы с менеджером и статистикой.

В старой версии статистического анализатора текста была возможность фильтрации по количеству символов в слове: min/max, языковому направлению и частотности.
Несмотря на то, что в новой версии подобного нет, это не сложно организовать с помощью RegExp:

Фильтрация по количеству символов в слове.
^\w{min,max}$ - слова с количеством букв от min до max.
Или более короткие варианты:
^\w{min}$ - слова с фиксированным количеством букв min.
^\w{min,}$ - слова с количеством букв не менее min.
^\w{,max}$ - слова с количеством букв не более max.

Хотя эти регулярные выражения новичку вряд ли ясны, сам их смысл не сложен. Просто копируем и вставляем в строку регулярных выражений ^\w{min,max}$ , режим выбираем RegExp. Экспериментируем меняя цифры: min и max.

Попутно разъясню механизм:
^ - начало строки. В нашем случае строкой является пункт списка, поскольку ищем соответствие регулярному выражению строка за строкой (пункт за пунктом).
\w - символ слова (буква).
{min,max} - называется квантор. Задает минимальное и максимальное количество предшествующего символа (в нашем случае буквы).
$ - конец строки. Т.е. строка должна заканчиваться.

Для практики или ради любопытства попробуйте вставить в строку регулярных выражений:
^\w{5}ing$
Поиграйте цифрой.

Фильтрация по языковому направлению.
По умолчанию со снятой галочкой Match case:
[a-z] - для латинского шрифта.
[а-яё] - для кириллицы.
Универсальные выражения (вне зависимости от режима Match case):
[a-zA-Z] - для латинского шрифта.
[а-яёА-ЯЁ] - для кириллицы.
В принципе это один из способов уборки мусора или деления смешанного списка по языковым направлениям. Устанавливаем в строку поиска(в данном случае режим RegExp/WildcardUnix не имеет значение) необходимый поисковый запрос и в зависимости от желаемого результата либо экспортируем полученный список с помощью пункта контекстного меню - Export List, либо очищаем с помощью пункта Clear.

Фильтрация по частотности.
Организовать с помощью регеспов этот режим не получится. Однако можно воспользоваться сортировкой по убыванию или возрастанию, после применения которой не составит труда вырезать необходимые части или скопировать вставив в новый журнал.
Если есть желание оставить исходный порядок следования и исходный журнал, действуем в следующем порядке:
- Предварительно делаем копию.
- Применяем сортировку, вырезаем ненужное.
- После отмены сортировки исходный порядок восстановится, но уже с вырезанными пунктами.

Автор: BKSRU
Дата сообщения: 08.06.2015 17:26
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8NdcJs4qG - exe файл + обновленная библиотека.
- Download: http://rghost.net/6ngWxXYLW - список имен собственных.
- Download: http://rghost.net/7krkzSbZd - список подмен (101 подмена) для Фильтра подмен.

Обратите внимание - это не версия UI Revolution и не официальная сборка. Отладить с ходу такой менеджер с фильтром не просто. Но сделано все возможное, что бы все на текущий момент работало как положенно. Так, что на ваш страх и риск. В какой то мере это база более серьезного проекта. Хотелось бы, что бы была активность по поводу сбоев и несоответствий в сохранении информации и при каких обстоятельствах происходит.
New:
1. Пункт меню Чувствительность к регистру теперь действует на фильтрацию.
2. Изменены некоторые принципы подсчета слов в Статистическом анализаторе текста: оставлены внутренние апострофы слов.
3. Фильтр подмен.
Пункт контекстного меню иконки строки ввода регулярных выражений, теперь так же действует на режим фильтрации.
Повышена точность статистического анализатора за счет изменения отношения к апострофам внутри слов. Например слово aren't ранее делилось на слова aren и t. Сейчас в списке остается в исходном виде aren't. Апостроф удаляется только если он стоит в начале слова.
Фильтр списка подмен - служит для дополнительной очистки частотного списка и повышения точности статистических расчетов.
На фильтре подмен остановимся подробнее.
Фильтр подмен.
Сам Список подмен обычный журнал с двумя колонками разделенными табуляцией. Слевой стороны то, что хотим поменять (Исходный шаблон) в исходном журнале. Справой стороны на что хотим поменять (Шаблон подмены). Экспортировать Список подмен в файл фильтра можно обычными способами, либо простой вставкой с буфера обмена, либо с помощью пунткта контекстного меню Менеджера журналов - Turn in Filter. После этого содержимое Списка подмен скопируется в файл Filter:


В контекстном меню Частотного списка, имеется пункт Export Replace. После применения которого рядом появится измененный список в соответствии с подменами. Исходный список останется неизменным:


Можно использовать следующие варианты подмены:
Полная подмена, если в Списке подмен слева и справа имеются данные, например:
they'd    they would
произведет замену в исходном списке they'd    10 на they 10 и would 10. Причем, абсолютно все статистические данные будут сложены если в исходном списке уже есть эти слова. Т.е. если был пункт would 5, он станет would 15.
Если исходный пункт списка имеет внутреннее вхождение Исходного шаблона подмены, такой пункт останется неизменным. Так, что можно не опасаться, что подмена типа:
he'd    he would
заменит she'd на she и would
Этот вариант подмены годится в качестве дополнительного приведения списка к корням, поскольку после Корневого фильтра, все таки остаются хвосты (это зависит от морфологического словаря). Но теперь можно сделать дополнительные подмены типа:
been    be
На самом деле на основе этого режима можно реализовать очень точное приведение к корням.
Пустая подмена. Если в подмене отсутствует Шаблон подмены(правая колонка), т.е. меняем на Пусто. Этот вариант используется в основном для очистки от мусора. Например одиночных букв, слов паразитов... Его так же можно применить в качестве альтернативы Списка-фильтра имен собственных.
Подмена окончаний. Так же как и в предыдущем варианте отсутствует Шаблон подмены(правая колона), т.е. меняем на Пусто. Но если Исходный шаблон начинается с апострофа, то слова имеющие окончания будут очищены от него. Т.е. подмена типа 's превратит слово family's в family.
Следует учесть, что если в списке присутствует подобная подмена, то для корректных подмен необходимо в список включить полные подмены типа:
's
he's    he is
it's    it is
she's    she is
that's    that is
there's    there is
here's    here is
let's    let us

Иначе сами понимаете, что произойдет.
В комплекте пара списков:
- Список имен собственных (us) (Подчищен). На самом деле его необходимо тщательнее зачистить, что бы имена не перекликались с реальными словами, особенно теми которые входят в общеизвестные частотные списки. Но имея такой мощный инструмент как Частотный анализатор текста не составит труда сделать это фактически на автомате. Что современем будет сделано.
- Список подмен (us). Список с наиболее популярными окончаниями.
Автор: BKSRU
Дата сообщения: 09.06.2015 08:10
Обновил список подмен:
- Download: http://rghost.net/7krkzSbZd - список подмен (101 подмена) для Фильтра подмен.
Автор: BKSRU
Дата сообщения: 09.06.2015 10:38
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8NdcJs4qG - exe файл + обновленная библиотека.
- Download: http://rghost.net/6ngWxXYLW - список имен собственных.
- Download: http://rghost.net/7krkzSbZd - обновленный список подмен (101 подмена) для Фильтра подмен.

- Введено ограничение в 80 символов для строки регулярных выражений в целях предотвращения подвисания при случайной вставке данных из буфера обмена.
- Так же обновлен список подмен.
Автор: BKSRU
Дата сообщения: 11.06.2015 17:58
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/72fSzYWyP - exe файл + обновленная библиотека.
- Download: http://rghost.net/6qpgv7p78 - список подмен (обновлен 103 подмены) для Фильтра подмен.

New:
1. Двууровневая настройка авторасчета при вводе шаблона в строке Регулярных выражений.
2. Изменен принцип подсчета общей статистики при корневой фильтрации.
3. Оптимизация скорости перерасчета фильтрации длинных списков.
4. Повышена точность поиска корней при Корневой фильтрации.

Двууровневая настройка авторасчета регулярных выражений.

Первый уровень по умолчанию. При количестве записей в журнале до 25000 идет автоматический перерасчет при каждом вводе символа в строке Регулярных выражений.
В контекстном меню иконки строки Регулярных выражений пункт Recalculation включает второй уровень автоперерасчета - до 40000 записей в журнале.
При превышении ограничения расчет призводится нажатием клавиши Enter.
При переходе с журнала на журнал, авторасчет производится всегда, также как и любые иные типы фильтрации, независимо от ограничения.

Несколько изменен расчет общей статистики (всплывающая подсказка в заголовке Окна-фильтра) при корневой фильтрации. Ранее выводилась вся сумма корней (что было не интуитивно), сейчас только тех которые остались в списке, как и при любых иных типах фильтрации. В принципе это логичнее. При экспорте корней, для каждого корня будет выведена общая сумма частотностей однокоренных слов.

P.S. На данном этапе сложно отследить ошибки перерасчета, поэтому будьте внимательны и по возможности сообщайте о подобных фактах.
Автор: BKSRU
Дата сообщения: 13.06.2015 19:00
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8bbmWFKKS - exe файл + обновленная библиотека.

New:
1. Изменен принцип вставки новых пунктов списка.
2. Повышена скорость перерасчета фильтрации.
Кроме того исправлена ошибка возникающая при переходе на пустой журнал.
При вставке новых пунктов в список Окна-фильтра не зависимо пуст список или нет, новые пункты вставляются сверху списка. Если эти пункты уже существуют, старые стираются, новые так же идут сверху списка. Причем вставляются они в порядке их копирования, если они были скопированы колонкой.
Если до встаки были включены фильтрация или сортировка, они автоматически будут применены к обновленному списку. При отмене фильтрации и сортировки, восстановится исходное состояние списка с вставленными новыми пунктами сверху списка.
При вставке новые пункты вставляются как есть, были ли они с частотностью, заменой или без того и другого. Но при удалении существующих пунктов учитывается только левая колонка списка. Например, если меняем:
she'll    she will на she'll
В списке останется только she'll
Или наоборот, меняем:
she'll на she'll    she will
в списке останется только she'll    she will
Тот же принцип касается и пунктов с частотностью.
Но если исходный пункт и пункт замены имеют частотность, произойдет сложение частот. Например если меняем:
was    105 на was    90
в списке будет was    195
Как уже было сказано ранее таким образом можно складывать частотные списки, например нескольких книг или субтитров.
Оптимизацию скорости перерасчета статистики заметите используя регулярные выражения при работе с большим количеством пунктов журнала, например заголовками словаря.
Автор: BKSRU
Дата сообщения: 14.06.2015 08:51
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/78xylQCCg - exe файл + обновленная библиотека.

Поправлена вставка в список фильтра. Если вставляемые данные содержат частотность, она будет автоматически удалена.
Обычные списки и списки подмен вставляются в фильтр как есть.

В общем то сейчас такая ситуация: подправив одно можно, что то повредить. Будьте бдительны.


Файл перезалит. По ошибке был загружен тестовый вариант. Заодно подправлен экспорт корней.
Автор: BKSRU
Дата сообщения: 16.06.2015 16:35
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/7RlP5ZfSW - exe файл + обновленная библиотека.
- Download: http://rghost.net/7hFVllX4Q - файл шаблонов RegExp.

Обратите внимание - это не версия UI Revolution и не официальная сборка. Отладить с ходу такой менеджер с фильтром не просто. Но сделано все возможное, что бы все на текущий момент работало как положенно. Так, что на ваш страх и риск. В какой то мере это база более серьезного проекта. Хотелось бы, что бы была активность по поводу сбоев и несоответствий в сохранении информации и при каких обстоятельствах происходит.
New:
1. Сниппетер пользовательских шаблонов RegExp.
2. Изменение функционала кнопки строки шаблона поиска.
3. Автосохранение настроек меню иконки строки шаблона поиска.
Иконка строки ввода регулярного выражения имеет стрелку для вызова основного меню левой кнопкой мыши:

Пункты меню: RegExp, Match case и Recalculation сохраняют свое состояние при перезапуске GoldenDict.

Сниппетер пользовательских шаблонов RegExp
В режиме RegExp правая кнопка мыши вызывает контекстное меню Сниппетера:


Можно либо сохранить текущий шаблон с помощью пункта меню Save Pattern, либо выбрать уже сохраненный. Однако по умолчанию список пуст.
Пустой файл шаблонов с именем RegExp.txt создается автоматически в папке сохранения журналов (уровнем выше). Его можно отредактировать в любом текстовом редакторе.
Принцип предельно прост:
- Шаблоны записываются в колонку.
- Напротив каждого шаблона через табуляцию можно записать краткое описание.
- Пустая строка даст разделитель в контекстном меню.
По ссылке можно скачать файл RegExp.txt и заменить им созданный автоматически.
Файл перезалит. Добавлено автосохранение настроек меню иконки строки шаблона поиска.
Автор: Ves
Дата сообщения: 17.06.2015 10:18
Ткните, пожалуйста, в ссылку на последнюю версию словаря, поддерживающую полнотекстовый поиск.
Автор: BKSRU
Дата сообщения: 17.06.2015 10:30
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/82XDc4XtB - exe файл + обновленная библиотека.

New: Реверс RegExp фильтрации.


Обычный режим RegExp (WildcardUnix) покажет пункты списка которые соответствуют регулярному выражению.
Режим Reverse RegExp наоборот, их скроет.

Reverse RegExp восполнит недостающий функционал фильтрации с помощью RegExp шаблонов, а так же поможет как опытным пользователям так и новичкам проще решать задачи фильтрации с помощью регулярных выражений.

Добавлено:
Текущая версия поддерживает полнотекстовый поиск. Либо в меню выбирайте, либо Ctrl + Shift + F.
Автор: BKSRU
Дата сообщения: 18.06.2015 18:15
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8NvNqbVgw - exe файл + обновленная библиотека.
- Download: http://rghost.net/67Syr8wjV - обновленный файл шаблонов RegExp.

New: Сниппетер пользовательских шаблонов WildcardUnix.


Сниппетер пользовательских шаблонов WildcardUnix
В режиме WildcardUnix щелчок правой кнопкой мыши по иконке строки поисковых запросов вызовет контекстное меню. На самом деле это не совсем сниппетер, но тем не менее часть сниппетера, которая позволит вставить в строку регулярных выражений основные шаблоны в режиме WildcardUnix. И вообще подскажет новичкам, что собственно можно использовать.
Дело в том, что в режим регулярных выражений WildcardUnix специальных символов не много и хотя они такие же как и в режиме полных регулярных выражений (RegExp), действие их отличается:
? - Соответствует любому одиночному символу. Это то же самое, что и . в полных регулярных выражениях.
* - Соответствует нулю или нескольким любым символам. Это то же самое, что и .* в полных регулярных выражениях.
Если эти символы экранировать обратным слешем, они будут соответствовать самим себе: \?, \*.
[...] - Набор символов может быть представлен в квадратных скобках, подобно полным регулярным выражениям. Однако сам набор в режиме WildcardUnix ограничен стандартными символами без специально обозначенных символов или групп символов присущих полным регулярным выражениям RegExp.

В контекстом меню так же добавлены шаблоны, которые не относятся к режиму WildcardUnix, но они будут действовать с ожидаемым результатом:
^\w{min,max}$ - слова с количеством букв от min до max.
^\w{min}$ - слова с фиксированным количеством букв min.
^\w{min,}$ - слова с количеством букв не менее min.
^\w{,max}$ - слова с количеством букв не более max.

В комплекте так же присутствует обновленный файл шаблонов для режима полных регулярных выражений RegExp.

За соответствие английскому варианту пунктов меню я не ручаюсь, поэтому если обнаружите неточнось, можно не полениться и сообщить.
Автор: BKSRU
Дата сообщения: 19.06.2015 17:17
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/6KcldgVKP - exe файл + обновленная библиотека.
- Download: http://rghost.net/7gWPnJwFs - обновленный файл шаблонов RegExp.
- Download: http://rghost.net/66vQZXzYK - обновленный список подмен (106 подмена) для Фильтра подмен.

New:
1. Фильтрация по частотности.
2. Быстрый набор шаблона поиска фильтрации по количеству букв и частотности.


Фильтрация по частотности
Устроена несколько необычно, по той же схеме, что и фильтрация по количеству букв в слове. В контекстном меню иконки строки ввода регулярных выражений найдете следующие пункты:
^\d{min,max}$ - Слова с частотностью не менее 'min', но не более 'max'
^\d{min,}$ - Слова с частотностью не менее 'min'
^\d{,max}$ - Слова с частотностью не более 'max'
^\d{fix}$ - Слова с фиксированной частотностью 'fix'

Следует учесть, что несмотря на полное соответствие правилам полных регулярных выражений RegExp, на самом деле эти шаблоны ими не являются и не действуют по правилам, в отличии от шаблонов фильтрации по количеству букв. Они просто выдадут интуитивно ожидаемый результат. И конечно одинаковый в обоих режимах регулярных выражений RegExp/WildcardUnix.

Быстрый набор шаблона поиска фильтрации по количеству букв и частотности
Устроен просто. Набираем в строке регулярных выражений любую комбинацию двух цифр и запятой (можно и точки). Например:
3,6
3,
,6
6

3.6
3.
.6

Из контекстного меню иконки строки регулярных выражений выбираем шаблон фильтрации по количеству букв или частотности. При этом не важно какой шаблон вы выбрали, за исключением типа фильтрации. Результат будет ожидаем и зависеть только от количества цифр в набранном кратком шаблоне и с какой стороны поставили запятую (точку) или вовсе не поставили.
В связи с этим в шаблонах, в целях компактности, можно оставить пару специальных универсальных шаблонов:
^\w{min,max}$ - Не менее 'min', но не более 'max' букв в слове
^\d{min,max}$ - Слова с частотностью не менее 'min', но не более 'max'

Если вместо фильтрации по количеству букв необходимо произвести фильтрацию по частотности или просто, по ошибке, выбрали не тот шаблон, нет необходимости его перенабирать. Просто снова выбираем из контекстного меню нужный шаблон и произойдет автоматическая подмена.

В комплекте обновленные файлы списка подмен и шаблонов RegExp.

За соответствие английскому варианту пунктов меню я не ручаюсь...
Автор: BKSRU
Дата сообщения: 21.06.2015 14:57
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://rghost.net/8CDmVqYnD - exe файл + обновленная библиотека.

New: Пакетный режим статистического анализатора.

Пакетный режим статистического анализатора
Запускается с помощью пункта Batch Word Stat контекстного меню Менеджера Контента:


Обратите так же внимание на то, что пункт для обработки одного файла переименован в File Word Stat.
Этот режим позволяет обработать сразу несколько файлов субтитров, например сериала. Достаточно указать каталог содержащий субтитры. Не беда если в нем будут файлы иного типа, режим распознает нужные файлы.
Поиск файлов рекурсивный, т.е. если в каталоге есть подкаталоги с файлами субтитров, они так же будут учтены при подсчете статистики.
Результаты статистик всех обработанных файлов субтиров суммируются и выдается единый файл статистики с именем по умолчанию Statistics, который по желанию можно изменить.
Порядок слов в статистическом списке будет в порядке их появления в файлах. Сами же файлы будут обработаны в алфавитном порядке. Поэтому если файлы субтитров пронумерованы, то и слова будут появляться в порядке их появления в сериале. Так что учтите эту полезную особенность.
В корневом каталоге хранилища журналов появится файл с именем файла статистики данного по молчанию и с префиксом _Report, содержащий список имен файлов, в том порядке в котором они были обработаны:

Автор: Ves
Дата сообщения: 22.06.2015 07:38
Выкладываются обновлённые GoldenDict.exe и libstdc++-6.dll. Извините, а где брать остальные файлы программы?
Кстати, в шапке не все ссылки живые.
Автор: BKSRU
Дата сообщения: 22.06.2015 10:00
В общем то всегда можно взять официальный билд-инсталлятор https://github.com/goldendict/goldendict/wiki/Early-Access-Builds-for-Windows
Однако сегодня можно ожидать новую сборку.
Автор: Ves
Дата сообщения: 22.06.2015 11:36
Понятно. Решил уточнить, чтобы не напутать с версиями GD.
Автор: BKSRU
Дата сообщения: 22.06.2015 12:03
GoldenDict на основе сборки 1.5RC479 - (не UI Revolution)
- Download: http://files.webfile.ru/5e5bce8a2ba650ad2267f3337abb0137 - инсталлятор GoldenDict на основе сборки 1.5RC476 - (не UI Revolution).
- Download: http://rghost.net/7ZndsMz8R - exe файл + обновленная библиотека.

New: Пофайловый пакетный режим статистического анализатора.

Пофайловый пакетный режим статистического анализатора
Запускается с помощью пункта Batch Word Stat by File контекстного меню Менеджера Контента:


Так же как и режим Batch Word Stat, режим Batch Word Stat by File позволяет обработать сразу несколько файлов субтитров, например сериала. Достаточно указать каталог содержащий субтитры. Не беда если в нем будут файлы иного типа, режим распознает нужные файлы.
Поиск файлов рекурсивный, т.е. если в каталоге есть подкаталоги с файлами субтитров, они так же будут обработаны.
В отличии от режима Batch Word Stat, результаты статистик не суммируются, а создается файл статистики для каждого обрабатывемого файла субтитров. Имя каждого файла статистики будет идентично имени файла субтитров, но с раширением .txt. Если в имени субтитров имеются точки, они будут заменены на нижнее подчеркивание.
Порядок слов в каждом файле статистики будет в порядке их появления в исходном файле субтитров.
Файлы статистик будут расположены в Менеджере Контента в алфавитном порядке. Причем в менеджере будет создан корневой каталог с именем по умолчанию WORDSTAT и возможностью переименовки. В корневом каталоге статистики будет создано полное дерево подкаталогов, если в выбранном каталоге были подкаталоги с субтитрами. В каждый каталог/подкаталог будут вложены соответствующие файлы статистики. Поэтому дерево каталогов будет более наглядным если исходные файлы субтитров и сами каталоги пронумерованы. Так что учтите эту полезную особенность:
Обновил ссылку на инсталлятор.
На самом деле собираю на основе текущей официальной сборки, поэтому можно копировать поверх нее. Но в данном случае наверное стоит рекомендовать использовать родной инсталлятор, поскольку компилирую с более новыми библиотеками.

Страницы: 12345678

Предыдущая тема: Выбор офиса-2013


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.