Ru-Board.club
← Вернуться в раздел «Программы»

» ABBYY FineReader

Автор: alkis
Дата сообщения: 06.09.2011 14:49
Shangry
Спасибо! Спросил еще и потому, что встречал там же жалобу самого толкового тамошнего посетителя (Tim) на взаимопроникновение шрифтовых схем между, кажется, 8 и 9 корп. Еще раз спасибо!
Автор: Fafy
Дата сообщения: 06.09.2011 15:36
Подскажите пожалуйста, существует ли где словарь в электронном виде дореволюционной орфографии???
Автор: aarony
Дата сообщения: 06.09.2011 16:25

Цитата:
На оф. форуме не раз встречал заявления сотрудников ABBYY, что можно ставить рядом несколько версий и они будут крутиться независимо друг от друга.


Все работает без проблем.
Автор: Shangry
Дата сообщения: 06.09.2011 17:48
Fafy

Цитата:
Подскажите пожалуйста, существует ли где словарь в электронном виде дореволюционной орфографии???

Во-первых, есть словарь Виницкого - самое обстоятельное, что сделано на эту тему. Брать можно здесь - http://sourceforge.net/projects/oldrus-ispell/.
Основной недостаток - не юникодирован, сделан в какой-то хитромудрой codepage, поэтому подключаем к считанным редакторам.

Во-вторых, с этого лета он заряжен в программу AfterScan, вариант Antiqua. Я посмотрел разницу в проверке "старых" текстов между тем, что было и тем, что сейчас - земля и небо.

В-третьих, у меня есть юникодированный комплект словоформ из этого словаря. Когда разберусь, как из него делаются сами словари, можно будет скомпилировать во что-нибудь ходовое.

alkis

Цитата:
Спросил еще и потому, что встречал там же жалобу самого толкового тамошнего посетителя (Tim) на взаимопроникновение шрифтовых схем между, кажется, 8 и 9 корп.

Вполне возможная вещь.
Windows такая бездонная бочка, что в ней никогда и ни в чем нельзя быть уверенным на все сто. Всегда есть возможность какого-то редко-экзотического сочетания условий, которые никому в голову не приходили и никто их не проверял.

Но в общем и в целом работает без проблем. У меня несколько лет стояли одновременно и 9.0, и 8.0 - крутилось без малейших проблем.
Автор: Astra55
Дата сообщения: 06.09.2011 18:22
Shangry
У меня на компе есть от 7-ки до 11-й версии, и Pro, и CE, и любые другие варианты. При желании могу добавить начиная с 4-ки Разумеется, все портабельное.
Автор: Fafy
Дата сообщения: 06.09.2011 18:42
Спасибо Shangry за информацию.
Но я никак не могу найти AfterScan Antiqua. Если у вас есть, то выложите пожалуйста куда-нибудь или подскажите где можно скачать. Из AfterScan Antiqua можно как-то вытянуть словарь старой орфографии? Хочу залить его в 11_ю версию FineReader, со словарной поддержкой намного качественнее распознает.
Автор: Astra55
Дата сообщения: 06.09.2011 19:24
Fafy

Цитата:
Из AfterScan Antiqua можно как-то вытянуть словарь старой орфографии?

Не думаю. Ни новой, ни старой. Там все слова идут подряд, без каких-либо разделителей. Править вручную - проще рехнуться.
Автор: zhe_zho
Дата сообщения: 07.09.2011 00:10
В 10 Professional Edition последнем билде не работает выравнивание страниц, в 9 работает, имею ввиду редактор изображений.
У 9 в опциях есть ещё автоматическое выравнивание, и оно по умолчанию включено, у 10 в опциях не нашёл.
Автор: Pafnutiy761
Дата сообщения: 07.09.2011 06:43
zhe_zho
Может это..
из справки FineReader

Цитата:
Автоматическая предобработка изображений

На качество распознавания могут отрицательно влиять искажение строк, перекос, наличие шумов и другие дефекты, которые свойственны отсканированным изображениям и цифровым снимкам.

Для устранения подобных дефектов в программе предусмотрена опция автоматической предобработки изображений. Если она включена, то, в зависимости от типа входного изображения, программа сама определит, какая корректировка необходима, и выполнит её: удалит шумы с цифровых фотографий, выровняет изображение при перекосе, выровняет документ по линиям текста, исправит искажение перспективы.


Автор: Fafy
Дата сообщения: 07.09.2011 13:25
Написал Сергею Виницкому и он мне прислал словарик дореволюционной орфографии в кодировке utf-8. При импорте в ФайнРидер получилась абра-кадабра, а при сохранении словаря в кодировке 1251 теряются некоторые символы, заметил на букве ЯТЬ. Причем заметил, если скопировать одно слово и вставить через кнопку Добавить, то оно нормально отображается, а через импорт - абра-кадабра.

Посоветуйте пожалуйста что-нибудь!!!

Делал я так. Создал новый язык распознавания на основе Русский (старая орфография) и в него импортировал присланный словарик.

А словарик получился увесистый - 19 МБ - 821728 словоформ.
Автор: unreal666
Дата сообщения: 07.09.2011 15:31
Fafy

Цитата:
в кодировке utf-8

может там utf-16 нужен?
Автор: Shangry
Дата сообщения: 07.09.2011 16:36
Astra55

Цитата:
У меня на компе есть от 7-ки до 11-й версии, и Pro, и CE, и любые другие варианты. При желании могу добавить начиная с 4-ки Разумеется, все портабельное.

В том-то и прелесть, что работать будет не только portable, но и нормально инсталлированная программа. Я как-то держал на машине четыре версии одновременно (надо было их сравнить) - работало без проблем.

Fafy

Цитата:
Если у вас есть, то выложите пожалуйста куда-нибудь или подскажите где можно скачать.

Выложить не могу, так что вам придется самому искать. Это должна быть версия 6.1, выпущенная не раньше августа.


Цитата:
Из AfterScan Antiqua можно как-то вытянуть словарь старой орфографии?

Можно - он живет там в отдельном файле, но смысла в том никакого. Скомпилировано непонятно в каком формате и скорее всего кроме самой AfterScan ни к чему не подключаемо.


Цитата:
Хочу залить его в 11_ю версию FineReader, со словарной поддержкой намного качественнее распознает.

А чем компилировать собираетесь? У FineReader свой собственный формат словарей.


Цитата:
Написал Сергею Виницкому и он мне прислал словарик дореволюционной орфографии в кодировке utf-8.

Уже готовый словарь или комплект словоформ?


Цитата:
При импорте в ФайнРидер получилась абра-кадабра, а при сохранении словаря в кодировке 1251 теряются некоторые символы, заметил на букве ЯТЬ.

Как я понимаю, это будет словарь в формате .DIC, а не полноценный FineReader-словарь. Работает соответственно - где-то да, а где-то нет.
Автор: Fafy
Дата сообщения: 07.09.2011 16:59
Открыл словарик в Notepad++ 5.6.3, в меню Кодировки стояло Кодировать в UTF-8 без (BOM). Я попробовал поставить просто Кодировать в UTF-8 и о, счастье - словарик импортировался нормально!!!

Кстати, а что такое UTF-8 без (BOM)?


Кому надо, Русский словарик (Старой орфографии) берём здесь


Shangry

На оф. сайте самая последняя верси 6.0. Где вы взяли 6.1 если не секрет?



Цитата:
Как я понимаю, это будет словарь в формате .DIC, а не полноценный FineReader-словарь. Работает соответственно - где-то да, а где-то нет.

Да, там только словоформы.

А есть кто из спецов чтобы из него сделать у родном FineReader_у формате???
Автор: U235
Дата сообщения: 07.09.2011 17:25
Fafy

Цитата:
Кстати, а что такое UTF-8 без (BOM)?

BOM три байта в начале файла, определяющие порядок следования байт. Соответственно UTF-8 файл может быть и без этих трех байтов.
http://ru.wikipedia.org/wiki/UTF-8
Автор: Shangry
Дата сообщения: 07.09.2011 17:53
Fafy

Цитата:
На оф. сайте самая последняя верси 6.0.

Странновато. Автор программы сказал, что после замены старого словаря на Виницкого он собирается сменить версию на 6.1. Инсталлятор у меня тоже пишет "ставлю 6.1.".
Тогда остается только критерий даты. То, что до конца июля, начала августа, д.б. со старым словарем. А то, что после - с новым.


Цитата:
Где вы взяли 6.1 если не секрет?

Уболтал начальство купить AfterScan . У нас много вычитки по "старым" текстам, так что вполне себя оправдывает.


Цитата:
Кому надо, Русский словарик (Старой орфографии) берём здесь

Интересная вещь получается - то, что лежит у меня (юникодированный комплект словоформ), заметно отличается от того, что вы получили от Виницкого (разница примерно в 4 Мб). При том, что оба комплекта делались из его словаря и кроме текста ничего не содержат.

Fafy

Цитата:
А есть кто из спецов чтобы из него сделать у родном FineReader_у формате???

Увы, компилятор словарей есть только в ABBYY . Я сейчас пытаюсь их сагитировать, чтобы они заменили свой словарь на Виницкого, но пока особых успехов нет.
Автор: Fafy
Дата сообщения: 07.09.2011 18:34

Цитата:
Я сейчас пытаюсь их сагитировать, чтобы они заменили свой словарь на Виницкого, но пока особых успехов нет.

А что, у ABBYY есть словарь старой орфографии??? Первый раз такое слышу. В новой версии FineReader нет словарной поддержки вообще!

Может как-то помочь с агитацией? Жаль смайлик почему-то не могу вставить, что за беда?

Может кто подскажет, к какой программе можно и лучше всего прикрутить словарь старой орфографии что бы потом пополнить для FineReader, потому что добавление слов при проверке правописания происходит почему-то очень долго и винчестер серьезно шуршит. Он что при добавлении одного слова перезаписывает полностью словарь???
Автор: Shangry
Дата сообщения: 07.09.2011 18:46

Цитата:
А что, у ABBYY есть словарь старой орфографии???

Виноват, имелось в виду - вместо сегодняшнего словаря, который поддерживает только современный русский, поставят поддержку обоих вариантов.

Сейчас у меня идет вяло-неспешная переписка с этой конторой (лето, однако ), которая может к чему-то да приведет. А если ничего не выйдет, то попытаюсь прицепить Виницкого к OpenOfice - там более открытая логика, да и базовый словарь русского более капитальный, чем в FineReader.
Автор: Fafy
Дата сообщения: 07.09.2011 18:53

Цитата:
попытаюсь прицепить Виницкого к OpenOfice

А в OpenOfice можно как-то добавить новый язык (Русский (старая орфография)) и прикрутить к нему словарик? Или там такой язык уже существует?
Автор: Shangry
Дата сообщения: 08.09.2011 13:24

Цитата:
А в OpenOfice можно как-то добавить новый язык (Русский (старая орфография)) и прикрутить к нему словарик?

В перечне функциональности такое вроде бы числится - и новый язык, и подключение словаря.
Но, как это часто бывает, внятно процесс добавления не документирован, а описание, которое есть на сайте, относится к старой версии. В новой (в смысле сегодняшней) версии инструкция уже не срабатывает. В общем надо садиться и разбираться самому.
Автор: zhe_zho
Дата сообщения: 08.09.2011 20:30
Pafnutiy761
Я проверял так, поставил обе версии, положил на сканер с небольшим перекосом книгу, изгибов на развороте не было, больше её не трогал.
Сначала сканировал одной потом второй версией. В 9 версии автоматически устраняло перекос, при отключении автоматического выравнивания, перекос убирается в редакторе изображений. В 10 перекос не устраняется ни автоматически ни в редакторе изображений.

Цитата:
Если она включена

Не могу её найти, в том месте где она у 9 её нет. Где в опциях находится эта функция и включена ли она по умолчанию?

Shangry
Fafy

Цитата:
Русский (старая орфография)

Может я вас неправильно понял, но в версиях 8, 9, 10 есть такой словарь, находится в дополнительных языках а не в основных. Или вы имеете ввиду что он слабый?
Автор: Fafy
Дата сообщения: 09.09.2011 08:15
zhe_zho
Там есть только сам язык распознавания, но без словарной поддержки.
В новой версии заметил, добавили словарную поддержку Латинского языка. В предыдущих версиях ее не было.
Автор: Pafnutiy761
Дата сообщения: 09.09.2011 08:16
zhe_zho

Цитата:
Не могу её найти, в том месте где она у 9 её нет. Где в опциях находится эта функция и включена ли она по умолчанию?

по моему тут (скрины настроек) [more=1] [/more] [more=2] [/more]
Автор: vvvvv2
Дата сообщения: 09.09.2011 22:56
По версии 11.0.102.481 Corporate Edition хочу поделиться как у меня в ней работает HotFolder...
Как и предыдущих версиях запустил для HotFolder задачу по папке с файлами. Раньше последовательно обрабатывались каждый файл по отдельности. А теперь найдено 284 файла и в папку "C:\Documents and Settings\....\Local Settings\Temp" HotFolder сейчас у меня начал кидать сразу более 90 тысяч страниц сразу всех файлов, хотя в опциях поставил "отдельный документ для каждого файла"...
В общем, чувствуется разработчики здорово намудрили...
Автор: KireevSasha
Дата сообщения: 10.09.2011 15:44
Интересует - только у меня проблема с ластиком в редакторе изображений?

Заметил, что из версии в версию Finereader передается беда инструмента "Ластик" в редакторе изображений.
При удалении части изображения в ч/б серых или цветных изображениях, в удаленной области цвет заменяется не на 255-255-255 (RGB), как следовало ожидать при работе с большинством документов (текст, смешанные документы текст/графика), а на цвет 254-254-254.
Это в дальнейшем приводит к тому, что при печати документа на ч/б принтере (в моем случае лазерный canon mf4150 и hp laserjet 3392), удаленные области "проступают" в виде прямоугольников с четко видной сеткой точек.
Принтер эту область считает не чисто белой, а градацией серого и печатает как область из редко посаженных точек.
В общем все это сразу портит картину. Вместо того, что бы удалить скажем точку или штрих на документе я после печати документа получаю область из точек, там где поработал ластик.
Может можно что-то поправить в настройках?
Автор: zhe_zho
Дата сообщения: 10.09.2011 21:39
Pafnutiy761
Чертовщина какая-то, ещё раз поставил, что в автоматическом режиме устраняет перекос, что в редакторе изображений.
Автор: ands555
Дата сообщения: 17.09.2011 00:39
Сравниваю версии 8-9-10-11. Самая корректная по сохранению форматирования документа 8 версия, начиная с 9 и по 11 сканируют не всегода корректно. Это у всех так?
Автор: AlViS
Дата сообщения: 17.09.2011 02:09
ands555 согласен на 100%, пробовал все версии но корректно работает только 8-ка, в настоящий момент работаю на ней
Автор: zhe_zho
Дата сообщения: 17.09.2011 16:02

Цитата:
сканируют не всегода корректно

Версия не влияет на результаты сканирования, она влияет только на результаты распознавания. Единственное что я заметил, из того чем 9 или 10 версия лучше 8 по распознаванию, так это вертикальное расположение текста в таблицах.
Автор: Antonij72
Дата сообщения: 17.09.2011 17:32
Вопросы к тем, кто сравнивал и знает.
Какие версии программы оптимально установить в систему? 8 и 11? 8, 9 и 11? И для распознавания каких типов файлов (много таблиц, много таблиц БЕЗ ГРАНИЦ, много картинок, и т.д.) какую версию программы оптимальнее использовать? Сам оценить не берусь.
Заранее благодарен за развернутый ответ.
Автор: vin10
Дата сообщения: 18.09.2011 13:09

Цитата:
Сравниваю версии 8-9-10-11. Самая корректная по сохранению форматирования документа 8 версия, начиная с 9 и по 11 сканируют не всегода корректно. Это у всех так?


У меня тоже самое, 9 и 10 работают хуже 8 версии.
Что же касается 11-той, то она у меня вообще не хочет распознавать текст, пишет :"Внутренняя программная ошибка...\Src\Cache\CachedFontFile cpp.543"
Причем, на 2х машинах с Win7Ulimate (32-bit и 64-bit)
Может, кто-нибудь в курсе как с эти бороться...

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104

Предыдущая тема: filesCatalog


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.