» ABBYY FineReader

Автор: alkis
Дата сообщения: 06.09.2011 14:49

Shangry
Спасибо! Спросил еще и потому, что встречал там же жалобу самого толкового тамошнего посетителя (Tim) на взаимопроникновение шрифтовых схем между, кажется, 8 и 9 корп. Еще раз спасибо!

Автор: Fafy
Дата сообщения: 06.09.2011 15:36

Подскажите пожалуйста, существует ли где словарь в электронном виде дореволюционной орфографии???

Автор: aarony
Дата сообщения: 06.09.2011 16:25

Цитата:

На оф. форуме не раз встречал заявления сотрудников ABBYY, что можно ставить рядом несколько версий и они будут крутиться независимо друг от друга.

Все работает без проблем.

Автор: Shangry
Дата сообщения: 06.09.2011 17:48

Fafy

Цитата:

Подскажите пожалуйста, существует ли где словарь в электронном виде дореволюционной орфографии???

Во-первых, есть словарь Виницкого - самое обстоятельное, что сделано на эту тему. Брать можно здесь - http://sourceforge.net/projects/oldrus-ispell/.
Основной недостаток - не юникодирован, сделан в какой-то хитромудрой codepage, поэтому подключаем к считанным редакторам.

Во-вторых, с этого лета он заряжен в программу AfterScan, вариант Antiqua. Я посмотрел разницу в проверке "старых" текстов между тем, что было и тем, что сейчас - земля и небо.

В-третьих, у меня есть юникодированный комплект словоформ из этого словаря. Когда разберусь, как из него делаются сами словари, можно будет скомпилировать во что-нибудь ходовое.

alkis

Цитата:

Спросил еще и потому, что встречал там же жалобу самого толкового тамошнего посетителя (Tim) на взаимопроникновение шрифтовых схем между, кажется, 8 и 9 корп.

Вполне возможная вещь.
Windows такая бездонная бочка, что в ней никогда и ни в чем нельзя быть уверенным на все сто. Всегда есть возможность какого-то редко-экзотического сочетания условий, которые никому в голову не приходили и никто их не проверял.

Но в общем и в целом работает без проблем. У меня несколько лет стояли одновременно и 9.0, и 8.0 - крутилось без малейших проблем.

Автор: Astra55
Дата сообщения: 06.09.2011 18:22

Shangry
У меня на компе есть от 7-ки до 11-й версии, и Pro, и CE, и любые другие варианты. При желании могу добавить начиная с 4-ки

Разумеется, все портабельное.

Автор: Fafy
Дата сообщения: 06.09.2011 18:42

Спасибо Shangry за информацию.
Но я никак не могу найти AfterScan Antiqua. Если у вас есть, то выложите пожалуйста куда-нибудь или подскажите где можно скачать. Из AfterScan Antiqua можно как-то вытянуть словарь старой орфографии? Хочу залить его в 11_ю версию FineReader, со словарной поддержкой намного качественнее распознает.

Автор: Astra55
Дата сообщения: 06.09.2011 19:24

Fafy

Цитата:

Из AfterScan Antiqua можно как-то вытянуть словарь старой орфографии?

Не думаю. Ни новой, ни старой. Там все слова идут подряд, без каких-либо разделителей. Править вручную - проще рехнуться.

Автор: zhe_zho
Дата сообщения: 07.09.2011 00:10

В 10 Professional Edition последнем билде не работает выравнивание страниц, в 9 работает, имею ввиду редактор изображений.
У 9 в опциях есть ещё автоматическое выравнивание, и оно по умолчанию включено, у 10 в опциях не нашёл.

Автор: Pafnutiy761
Дата сообщения: 07.09.2011 06:43

zhe_zho
Может это..
из справки FineReader

Цитата:

Автоматическая предобработка изображений

На качество распознавания могут отрицательно влиять искажение строк, перекос, наличие шумов и другие дефекты, которые свойственны отсканированным изображениям и цифровым снимкам.

Для устранения подобных дефектов в программе предусмотрена опция автоматической предобработки изображений. Если она включена, то, в зависимости от типа входного изображения, программа сама определит, какая корректировка необходима, и выполнит её: удалит шумы с цифровых фотографий, выровняет изображение при перекосе, выровняет документ по линиям текста, исправит искажение перспективы.

Автор: Fafy
Дата сообщения: 07.09.2011 13:25

Написал Сергею Виницкому и он мне прислал словарик дореволюционной орфографии в кодировке utf-8. При импорте в ФайнРидер получилась абра-кадабра, а при сохранении словаря в кодировке 1251 теряются некоторые символы, заметил на букве ЯТЬ. Причем заметил, если скопировать одно слово и вставить через кнопку Добавить, то оно нормально отображается, а через импорт - абра-кадабра.

Посоветуйте пожалуйста что-нибудь!!!

Делал я так. Создал новый язык распознавания на основе Русский (старая орфография) и в него импортировал присланный словарик.

А словарик получился увесистый - 19 МБ - 821728 словоформ.

Автор: unreal666
Дата сообщения: 07.09.2011 15:31

Fafy

Цитата:

в кодировке utf-8

может там utf-16 нужен?

Автор: Shangry
Дата сообщения: 07.09.2011 16:36

Astra55

Цитата:

У меня на компе есть от 7-ки до 11-й версии, и Pro, и CE, и любые другие варианты. При желании могу добавить начиная с 4-ки Разумеется, все портабельное.

В том-то и прелесть, что работать будет не только portable, но и нормально инсталлированная программа. Я как-то держал на машине четыре версии одновременно (надо было их сравнить) - работало без проблем.

Fafy

Цитата:

Если у вас есть, то выложите пожалуйста куда-нибудь или подскажите где можно скачать.

Выложить не могу, так что вам придется самому искать. Это должна быть версия 6.1, выпущенная не раньше августа.

Цитата:

Из AfterScan Antiqua можно как-то вытянуть словарь старой орфографии?

Можно - он живет там в отдельном файле, но смысла в том никакого. Скомпилировано непонятно в каком формате и скорее всего кроме самой AfterScan ни к чему не подключаемо.

Цитата:

Хочу залить его в 11_ю версию FineReader, со словарной поддержкой намного качественнее распознает.

А чем компилировать собираетесь? У FineReader свой собственный формат словарей.

Цитата:

Написал Сергею Виницкому и он мне прислал словарик дореволюционной орфографии в кодировке utf-8.

Уже готовый словарь или комплект словоформ?

Цитата:

При импорте в ФайнРидер получилась абра-кадабра, а при сохранении словаря в кодировке 1251 теряются некоторые символы, заметил на букве ЯТЬ.

Как я понимаю, это будет словарь в формате .DIC, а не полноценный FineReader-словарь. Работает соответственно - где-то да, а где-то нет.

Автор: Fafy
Дата сообщения: 07.09.2011 16:59

Открыл словарик в Notepad++ 5.6.3, в меню Кодировки стояло Кодировать в UTF-8 без (BOM). Я попробовал поставить просто Кодировать в UTF-8 и о, счастье - словарик импортировался нормально!!!

Кстати, а что такое UTF-8 без (BOM)?

Кому надо, Русский словарик (Старой орфографии) берём здесь

Shangry

На оф. сайте самая последняя верси 6.0. Где вы взяли 6.1 если не секрет?

Цитата:

Как я понимаю, это будет словарь в формате .DIC, а не полноценный FineReader-словарь. Работает соответственно - где-то да, а где-то нет.

Да, там только словоформы.

А есть кто из спецов чтобы из него сделать у родном FineReader_у формате???

Автор: U235
Дата сообщения: 07.09.2011 17:25

Fafy

Цитата:

Кстати, а что такое UTF-8 без (BOM)?

BOM три байта в начале файла, определяющие порядок следования байт. Соответственно UTF-8 файл может быть и без этих трех байтов.
http://ru.wikipedia.org/wiki/UTF-8

Автор: Shangry
Дата сообщения: 07.09.2011 17:53

Fafy

Цитата:

На оф. сайте самая последняя верси 6.0.

Странновато. Автор программы сказал, что после замены старого словаря на Виницкого он собирается сменить версию на 6.1. Инсталлятор у меня тоже пишет "ставлю 6.1.".
Тогда остается только критерий даты. То, что до конца июля, начала августа, д.б. со старым словарем. А то, что после - с новым.

Цитата:

Где вы взяли 6.1 если не секрет?

Уболтал начальство купить AfterScan

. У нас много вычитки по "старым" текстам, так что вполне себя оправдывает.

Цитата:

Кому надо, Русский словарик (Старой орфографии) берём здесь

Интересная вещь получается - то, что лежит у меня (юникодированный комплект словоформ), заметно отличается от того, что вы получили от Виницкого (разница примерно в 4 Мб). При том, что оба комплекта делались из его словаря и кроме текста ничего не содержат.

Fafy

Цитата:

А есть кто из спецов чтобы из него сделать у родном FineReader_у формате???

Увы, компилятор словарей есть только в ABBYY

. Я сейчас пытаюсь их сагитировать, чтобы они заменили свой словарь на Виницкого, но пока особых успехов нет.

Автор: Fafy
Дата сообщения: 07.09.2011 18:34

Цитата:

Я сейчас пытаюсь их сагитировать, чтобы они заменили свой словарь на Виницкого, но пока особых успехов нет.

А что, у ABBYY есть словарь старой орфографии??? Первый раз такое слышу. В новой версии FineReader нет словарной поддержки вообще!

Может как-то помочь с агитацией? Жаль смайлик почему-то не могу вставить, что за беда?

Может кто подскажет, к какой программе можно и лучше всего прикрутить словарь старой орфографии что бы потом пополнить для FineReader, потому что добавление слов при проверке правописания происходит почему-то очень долго и винчестер серьезно шуршит. Он что при добавлении одного слова перезаписывает полностью словарь???

Автор: Shangry
Дата сообщения: 07.09.2011 18:46

Цитата:

А что, у ABBYY есть словарь старой орфографии???

Виноват, имелось в виду - вместо сегодняшнего словаря, который поддерживает только современный русский, поставят поддержку обоих вариантов.

Сейчас у меня идет вяло-неспешная переписка с этой конторой (лето, однако

), которая может к чему-то да приведет. А если ничего не выйдет, то попытаюсь прицепить Виницкого к OpenOfice - там более открытая логика, да и базовый словарь русского более капитальный, чем в FineReader.

Автор: Fafy
Дата сообщения: 07.09.2011 18:53

Цитата:

попытаюсь прицепить Виницкого к OpenOfice

А в OpenOfice можно как-то добавить новый язык (Русский (старая орфография)) и прикрутить к нему словарик? Или там такой язык уже существует?

Автор: Shangry
Дата сообщения: 08.09.2011 13:24

Цитата:

А в OpenOfice можно как-то добавить новый язык (Русский (старая орфография)) и прикрутить к нему словарик?

В перечне функциональности такое вроде бы числится - и новый язык, и подключение словаря.
Но, как это часто бывает, внятно процесс добавления не документирован, а описание, которое есть на сайте, относится к старой версии. В новой (в смысле сегодняшней) версии инструкция уже не срабатывает. В общем надо садиться и разбираться самому.

Автор: zhe_zho
Дата сообщения: 08.09.2011 20:30

Pafnutiy761
Я проверял так, поставил обе версии, положил на сканер с небольшим перекосом книгу, изгибов на развороте не было, больше её не трогал.
Сначала сканировал одной потом второй версией. В 9 версии автоматически устраняло перекос, при отключении автоматического выравнивания, перекос убирается в редакторе изображений. В 10 перекос не устраняется ни автоматически ни в редакторе изображений.

Цитата:

Если она включена

Не могу её найти, в том месте где она у 9 её нет. Где в опциях находится эта функция и включена ли она по умолчанию?

Shangry
Fafy

Цитата:

Русский (старая орфография)

Может я вас неправильно понял, но в версиях 8, 9, 10 есть такой словарь, находится в дополнительных языках а не в основных. Или вы имеете ввиду что он слабый?

Автор: Fafy
Дата сообщения: 09.09.2011 08:15

zhe_zho
Там есть только сам язык распознавания, но без словарной поддержки.
В новой версии заметил, добавили словарную поддержку Латинского языка. В предыдущих версиях ее не было.

Автор: Pafnutiy761
Дата сообщения: 09.09.2011 08:16

zhe_zho

Цитата:

Не могу её найти, в том месте где она у 9 её нет. Где в опциях находится эта функция и включена ли она по умолчанию?

по моему тут (скрины настроек) [more=1]

[/more] [more=2]

[/more]

Автор: vvvvv2
Дата сообщения: 09.09.2011 22:56

По версии 11.0.102.481 Corporate Edition хочу поделиться как у меня в ней работает HotFolder...
Как и предыдущих версиях запустил для HotFolder задачу по папке с файлами. Раньше последовательно обрабатывались каждый файл по отдельности. А теперь найдено 284 файла и в папку "C:\Documents and Settings\....\Local Settings\Temp" HotFolder сейчас у меня начал кидать сразу более 90 тысяч страниц сразу всех файлов, хотя в опциях поставил "отдельный документ для каждого файла"...
В общем, чувствуется разработчики здорово намудрили...

Автор: KireevSasha
Дата сообщения: 10.09.2011 15:44

Интересует - только у меня проблема с ластиком в редакторе изображений?

Заметил, что из версии в версию Finereader передается беда инструмента "Ластик" в редакторе изображений.
При удалении части изображения в ч/б серых или цветных изображениях, в удаленной области цвет заменяется не на 255-255-255 (RGB), как следовало ожидать при работе с большинством документов (текст, смешанные документы текст/графика), а на цвет 254-254-254.
Это в дальнейшем приводит к тому, что при печати документа на ч/б принтере (в моем случае лазерный canon mf4150 и hp laserjet 3392), удаленные области "проступают" в виде прямоугольников с четко видной сеткой точек.
Принтер эту область считает не чисто белой, а градацией серого и печатает как область из редко посаженных точек.
В общем все это сразу портит картину. Вместо того, что бы удалить скажем точку или штрих на документе я после печати документа получаю область из точек, там где поработал ластик.
Может можно что-то поправить в настройках?

Автор: zhe_zho
Дата сообщения: 10.09.2011 21:39

Pafnutiy761
Чертовщина какая-то, ещё раз поставил, что в автоматическом режиме устраняет перекос, что в редакторе изображений.

Автор: ands555
Дата сообщения: 17.09.2011 00:39

Сравниваю версии 8-9-10-11. Самая корректная по сохранению форматирования документа 8 версия, начиная с 9 и по 11 сканируют не всегода корректно. Это у всех так?

Автор: AlViS
Дата сообщения: 17.09.2011 02:09

ands555 согласен на 100%, пробовал все версии но корректно работает только 8-ка, в настоящий момент работаю на ней

Автор: zhe_zho
Дата сообщения: 17.09.2011 16:02

Цитата:

сканируют не всегода корректно

Версия не влияет на результаты сканирования, она влияет только на результаты распознавания. Единственное что я заметил, из того чем 9 или 10 версия лучше 8 по распознаванию, так это вертикальное расположение текста в таблицах.

Автор: Antonij72
Дата сообщения: 17.09.2011 17:32

Вопросы к тем, кто сравнивал и знает.
Какие версии программы оптимально установить в систему? 8 и 11? 8, 9 и 11? И для распознавания каких типов файлов (много таблиц, много таблиц БЕЗ ГРАНИЦ, много картинок, и т.д.) какую версию программы оптимальнее использовать? Сам оценить не берусь.
Заранее благодарен за развернутый ответ.

Автор: vin10
Дата сообщения: 18.09.2011 13:09

Цитата:

Сравниваю версии 8-9-10-11. Самая корректная по сохранению форматирования документа 8 версия, начиная с 9 и по 11 сканируют не всегода корректно. Это у всех так?

У меня тоже самое, 9 и 10 работают хуже 8 версии.
Что же касается 11-той, то она у меня вообще не хочет распознавать текст, пишет :"Внутренняя программная ошибка...\Src\Cache\CachedFontFile cpp.543"
Причем, на 2х машинах с Win7Ulimate (32-bit и 64-bit)
Может, кто-нибудь в курсе как с эти бороться...

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104

Предыдущая тема: filesCatalog

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.