ABBYY FineReader

Автор: ALEX666999
Дата сообщения: 14.11.2014 23:57

Цитата:

А если программа при этом еще и честно куплена, так вообще никаких проблем.

Угу, до первой тщательной проверки.
А обнаружат — первым спишут (c последущим, вероятно, увольнением)
из ЗП "умника", принесшего на флешке "лекарство", напару с сисадмином, дозволившим установку.
Штрафы, думаю, за такие "фиксы" приличные.

Автор: hogu77
Дата сообщения: 15.11.2014 00:20

Цитата:

Shangry
<...> боюсь, что здесь ничего не сделаешь, кроме как лигатуру сооружать.

Зачем же сразу "лигатуру сооружать"? Это же Вам, поди, не санскрит где верхние и нижние индексы, или как там это называется, прописывать надо. В ФР есть лимит на количество лигатур, если текст с всякими прибамбасами то не сил не возможностей может не хватить.
Почему нельзя сделать напр. вот так?:

текст всё равно будет векторизированным, насколько я понял из сообщения выше.

Автор: Shangry
Дата сообщения: 25.11.2014 17:19

hogu77

Цитата:

Почему нельзя сделать напр. вот так?:

Ну и какими символами по вашему должны будут распознаваться с одной стороны огрызок "f", а с другой "y" с непонятного происхождения хвостиком? С учетом того, что здесь вы не распознаете, а делаете обучение FR внешнему виду этих символов.

Для обучения ведь надо задавать типичные ситуации, которые далее многократно воспроизводятся. А здесь скорее всего разовое сочетание. Можно конечно и так попробовать, но в отношении результатов я больше скептик, чем оптимист.

Цитата:

В ФР есть лимит на количество лигатур, если текст с всякими прибамбасами то не сил не возможностей может не хватить.

Ну, а варианты?
Лигатурой, согласен, не очень. Так и показанной вами разбивкой тоже не особо лучше.

Здесь надо уже разработчикам отписывать, чтобы на будущее подкорректировали разметку на символы.

Автор: hogu77
Дата сообщения: 25.11.2014 19:43

Цитата:

Shangry
Ну и какими символами по вашему должны будут распознаваться с одной стороны огрызок "f", а с другой "y" с непонятного происхождения хвостиком?

Очевидно что "f" и "y"!)
К сожалению Ves не уточнил что в итоге он хочет увидеть, или векторизированный PDF, fb2 и пр. пр. виды форматированного текста, или же PDF/А, DjVu, т.е. просто добавить OCR к документу. Но даже в случае с последним, клятвенно вас заверяю, текст в djvu чувствует себя нормально. Несколько раз попадались и мне такие вот, размашистые фонты.

Цитата:

А здесь скорее всего разовое сочетание.

Оригинал смотреть надо, а не часть слова, не могу утверждать обратное, разовое это сочетание или абзац, весь текст.

Цитата:

Здесь надо уже разработчикам отписывать, чтобы на будущее подкорректировали разметку на символы.

И как вы себе это представляете, разраб будет грузить и обучать программу всеми возможными начертаниями всех возможных фонтов?

О чём говорить когда ФР иероглифы в ариале не сходу узнаёт, "переспрашивает" столбцом, а мы здесь про каллиграфические шрифты.

ПС. Да, у "y" хвостика может и не быть, ничего не мешает потянуть верхнюю горизонтальную линию вниз.

Автор: Shangry
Дата сообщения: 26.11.2014 16:31

hogu77

Цитата:

Очевидно что "f" и "y"!)

Причем с уверенностью, что и в следующий раз эта связочка, слитно набранные "fy", тоже будут распознаны именно как "f" и "y". Что в данном раскладе увы не гарантируется.

Цитата:

К сожалению Ves не уточнил что в итоге он хочет увидеть,

Для начала, думаю, он хочет увидеть нормально распознанный текст

. Как и во что потом выводить распознанное - это уже вторично.
Для чего в свою очередь надо FR обучить этому курсивному шрифту, с чем как видите проблемы.

Цитата:

И как вы себе это представляете,

Очень даже просто - вместо сегодняшнего вертикального прямоугольника дать рамке для выделения символа возможность превращаться в ромб. Тогда с захватом курсивных символов не будет никаких проблем.

Цитата:

Да, у "y" хвостика может и не быть, ничего не мешает потянуть верхнюю горизонтальную линию вниз.

Тогда в слове скорее всего появится лишний символ - FR будет пытаться хоть как-то интерпретировать хвостик, оставшийся от "f".
Тоже не фонтан.

ALEX666999

Цитата:

Угу, до первой тщательной проверки

Пришли, проверили. Документы на покупку FineReader есть, в соответствующем окошке программы прописано, что это серийник такой-то, зарегистрированный на покупателя такого, активация выполнена.
Лезть после этого еще и в Program Files, чтобы сверить хэши двух файлов (да еще надо знать каких именно) одной из многих установленных на компе программ будут только завзятые параноики

. Которых среди проверяющих обычно не водится.

Автор: ALEX666999
Дата сообщения: 26.11.2014 20:18

Ещё раз: вы надеетесь на "авсоь", а это любительский подход.
Если у вас ООО "Рога/Копыта", и с проверяющим вы вообще "на Вась-Вась",
то тут и распыляться не стоит. А если серьёзная контора, то идея с заменой - говно.

Автор: hogu77
Дата сообщения: 26.11.2014 23:03

Цитата:

Shangry
<...> в данном раскладе увы не гарантируется.

ФР последних моделей вообще мало что гарантирует, иногда съедает целый абзац распознанного текста, при сохранении в fb2.

Цитата:

Для начала, думаю, он хочет увидеть нормально распознанный текст

Тогда пусть запасается временем и терпением. Весь вопрос в том что дольше, набрать текст самому или горбатиться над ФР-кой.

Цитата:

Тогда в слове скорее всего появится лишний символ <...>

Да, ваша правда, так и есть.

Автор: Shangry
Дата сообщения: 27.11.2014 11:21

ALEX666999

Цитата:

А если серьёзная контора, то идея с заменой - говно.

Достаточно серьезная - федеральный уровень. И тем не менее особо выраженной паранойи у проверяющих не наблюдается.

Опять же говорится это не в смысле "все дружными рядами и немедленно"

. Да и момент этот совсем к другой теме относится, здесь чисто случайно всплыл.
Просто оцениваю такой вариант, как вполне проходимый - опять же с учетом конкретной ситуации.

Цитата:

Ещё раз: вы надеетесь на "авсоь", а это любительский подход.

Ни на что я особенно не надеюсь

. Просто не раз приходилось видеть разнообразные проверки и проверяющих. И наблюдать за тем, как они работают, на что обращают внимание, а на что не особо смотрят.

Возможно у вас другой опыт, здесь спорить не буду.

hogu77

Цитата:

Тогда пусть запасается временем и терпением.

На обучение его всегда изрядно уходит - здесь уж ничего не поделаешь.
Да и переносимость полученного шаблона на другие машины часто из разряда "как выйдет, так и получится".

Автор: 1ANP
Дата сообщения: 29.11.2014 10:43

Друзья, подскажите, падает ли качество фотографий при сканировании их в ABBYY FineReader 11 и последующем сохранении их в Tiff без сжатия. Просто где-то читал, что лучше сканировать фото сразу в Tiff софтом сканера, а FineReader типа пережимает фото.

Автор: Shangry
Дата сообщения: 01.12.2014 11:17

1ANP
Фотографии сканируются не столько в "ABBYY FineReader", сколько на сканере таком-то, с настройками такими-то.
Так что ответ на вопрос будет зависеть именно от этих двух пунктов - технические возможности сканера и настройки, которые вы выставите.

Цитата:

Просто где-то читал, что лучше сканировать фото сразу в Tiff софтом сканера, а FineReader типа пережимает фото.

Единственная разница между первым и вторым вариантом - у сканерного софта набор настроек сканирования и сохранения обычно богаче, чем у FR.
В остальном же все, как обычно - что выставишь, то и получишь. Выставишь форматом сохранения явно пережатый JPEG, ну так он и получится

. В любом сканирующем софте.

Сохранять же всегда практичнее именно в несжатый TIFF (или LZW-сжатый) - если конечно хватает места на винте. Если места таки маловато, то в JPEG с Q=80-90-100.
Тем более, что при создании FR-пакета исходные изображения все одно будет преобразованы в какой-то несжатый bitmap.

Автор: luxor
Дата сообщения: 08.12.2014 14:59

Подскажите, как сделать?
Что-бы при сканировании, например в .pdf, после окончания не запускалось автоматом распознавание.
Искал в настройках, не нашёл...

Автор: vrogin
Дата сообщения: 09.12.2014 07:25

Цитата:

Искал в настройках, не нашёл...

а разве не здесь
Настройки>Сканировать/Открыть
сними флажок Автоматически обрабатывать добавленные страницы

Автор: Ves
Дата сообщения: 10.12.2014 11:28

Цитата:

Для обучения ведь надо задавать типичные ситуации, которые далее многократно воспроизводятся. А здесь скорее всего разовое сочетание. Можно конечно и так попробовать, но в отношении результатов я больше скептик, чем оптимист.

Это сочетание букв воспроизводится довольно часто. Распознаваемый текст - большой шведский словарь.

Цитата:

Оригинал смотреть надо, а не часть слова, не могу утверждать обратное, разовое это сочетание или абзац, весь текст.

Сочетание далеко не разовое. Оригинал есть здесь:
http://rghost.ru/59533872

Цитата:

Да и переносимость полученного шаблона на другие машины часто из разряда "как выйдет, так и получится".

Мне как раз нужно передавать эталон на другие машины. Можно подробнее? Переносимость эталона остаётся плохой даже если на машинах установлены одинаковые версии FR?

Автор: araka
Дата сообщения: 14.12.2014 15:09

А с Office 2013x64 эта прога работает???

Автор: Shangry
Дата сообщения: 17.12.2014 14:59

Ves

Цитата:

Это сочетание букв воспроизводится довольно часто.

Здесь дело не столько в том, какое повторяется сочетание самих букв, сколько в повторяемости именно пиксельного рисунка этого сочетания. Обучение производится для того, чтобы в дальнейшем на странице отлавливалось именно это характерное сочетание пикселов.
Соответственно если буквы те же, а их пиксельный рисунок от раза к разу плавает, то обучение потребует большего времени. Да и точность дальнейшего отлавливания, уже на автомате, тоже может плавать.

Цитата:

Мне как раз нужно передавать эталон на другие машины. Можно подробнее? Переносимость эталона остаётся плохой даже если на машинах установлены одинаковые версии FR?

Не знаю, как в этом смысле у 12-й версии, но у 11-й перенос шаблонов был сделан изрядно бестолково.
Шаблон, как таковой, перенести было нельзя, только сочетание "шаблон + набор текущих настроек". Заработает как надо или нет все это на новой машине - иногда да, иногда нет. По причинам, мало кому понятным.

araka

Цитата:

А с Office 2013x64 эта прога работает???

В смысле генерирует ли она файлы формата DOCX? Давно уже умеет.

Автор: cuneiform
Дата сообщения: 18.12.2014 19:48

Кто плиз может сказать почему все 4 портабельные версии ФР12 перестали запускаться на ХР СП3 с диагнозом при запуске class not registered.

Антивирус ничего не находит.

Сайт ABBYY утверждает:

The following error message appears when the program starts: Class not registered.
Reason
MSXML is not installed on your computer.

Но они ведь запускались раньше! Как это может быть?

Автор: laprad
Дата сообщения: 18.12.2014 21:05

cuneiform
Я не в первый раз встречаю замечания что старые версии файнридера лучше распознают материал,чем новые, но еще ни разу никто не предоставил доказательств. Или хранят молчание, или пишут что никому ничего не обязаны доказывать.
То, чем гугл распознает по миллиону книг в день - нашел упоминание про Google Tesseract OCR. Гугл продвигает свои разработки (например, http://habrahabr.ru/post/219767/) Не сочти за труд кинуть ссылку на пруф про то что гугл принципиально использует 8-ю версию файнридера

Автор: cuneiform
Дата сообщения: 19.12.2014 00:07

laprad

Скачай статистически необходимое количество любых книг N с гугла.
В каждой распознанной книге написано, чем она распознана.
Далее берешь книгу со сложной полиграфией 3-4 шрифта разной конфигурации (типа, без засечек и с засечками, курсив и нормальный, и жирный, 2-3 столбца текста на страницу - типа, словарь). Сканируешь 400 дпи. Далее распознаешь сам лично нужной версией ФР и смотришь, что получилось -- войдет ли 1 распознанная страница на А4 (ок) или только на А3. Делаешь выводы. Всё. Вопрос решен. Надеюсь.

Автор: oshizelly
Дата сообщения: 19.12.2014 10:44

cuneiform 00:07 19-12-2014
Цитата:

Сканируешь 400 дпи.

Разве рекомендуемое разрешение при сканировании книг не 300 DPI?

Автор: cuneiform
Дата сообщения: 19.12.2014 11:25

oshizelly

Цитата:

Разве рекомендуемое разрешение при сканировании книг не 300 DPI?

Книги ж разные по шрифту. А 300 дпи это для А4 офиса - там основной шрифт 12 пунктов.
А в книгах ссылки могут быть и мелким шрифтом.
Поэтому считаю крайний минимум для книг будет как раз 400 дпи.

Автор: duckbill07
Дата сообщения: 19.12.2014 11:39

Для книг - исключительно 451!

Автор: Shangry
Дата сообщения: 19.12.2014 15:00

cuneiform

Цитата:

Кто плиз может сказать почему все 4 портабельные версии ФР12 перестали запускаться на ХР СП3 с диагнозом при запуске class not registered.

Если сначала какое-то время работали, а потом началось вот это, то диагноз стандартный - накопилось что-то в песочнице и не дает нормально запускаться. Лекарство в таких случаях тоже стандартное - полностью удалить песочницу и запустить программу, что называется, с нуля.

Еще может быть, что образовался какой-то вывих в ХР и он вообще теперь не даст FR работать на этой машине. Но это можно понять только после проверки на удаление песочницы.

laprad

Цитата:

Я не в первый раз встречаю замечания что старые версии файнридера лучше распознают материал,чем новые

Мне одно время тоже это интересно стало - как изменяется качество распознавания от версии к версии.
Сделал подборку сканов со страницами наиболее типичного вида (чистый текст, текст со сложной версткой, текст с иллюстрациями разного вида и т.д.), прогнал ее сквозь FR, начиная не то с 8-й, не то с 9-й версии и посчитал сколько получается ошибок. Количество ошибок от версии к версии обычно уменьшалось - особенно хорошо это было видно на страницах со сложной версткой.

oshizelly

Цитата:

Разве рекомендуемое разрешение при сканировании книг не 300 DPI?

Для массовой литературы, в основном худлита, годится и 300 точек. "Академические" тексты с большим объемом примечаний мелким шрифтом требуют уже 400 точек. Аналогично если много таблиц, тоже с мелким шрифтом, подписей под рисунками и т.д.
В старых изданий часто встречаются гравюрные и карандашные рисунки с мелкой деталировкой - здесь часто вообще на 600 точек приходится делать.

duckbill07

Цитата:

Для книг - исключительно 451!

Убивец!

Читать Брэдбери - вредно для здоровья (книг).

Автор: cuneiform
Дата сообщения: 19.12.2014 16:51

Shangry

Цитата:

Если сначала какое-то время работали, а потом началось вот это, то диагноз стандартный - накопилось что-то в песочнице и не дает нормально запускаться. Лекарство в таких случаях тоже стандартное - полностью удалить песочницу и запустить программу, что называется, с нуля.

Сделал на С папку, в нее положил 4 разные портабельные сборки ФР12 в подпапках, теперь 3 перестали запускаться. 1 еще пока работает. Вот это и удивительно.

Автор: Habib2302
Дата сообщения: 20.12.2014 22:18

Доброе время суток. Я пытаюсь распаковать прогу через Universal Extractor и вот что получилось

Автор: Shangry
Дата сообщения: 22.12.2014 13:58

cuneiform

Цитата:

Сделал на С папку, в нее положил 4 разные портабельные сборки ФР12 в подпапках, теперь 3 перестали запускаться. 1 еще пока работает. Вот это и удивительно.

Значит у ОС совсем крыша поехала.

Такое иногда лечится если перенакатать систему поверх имеющейся, в режиме обновления. Но это можно сделать лишь в ХР, в "семерке", увы, такую возможность отменили.

Автор: VadimirTT
Дата сообщения: 22.12.2014 20:45

oshizelly

Цитата:

Разве рекомендуемое разрешение при сканировании книг не 300 DPI?

Тут одно маленькое, но важное уточнение, в градациях серого.

Автор: Foxhak28
Дата сообщения: 30.12.2014 17:21

Привет всем, FineReader - сканирует только 1/3 страницы, чё делать?
Операционка: Win7 Enterprise x64.
Принтер: Canon PIXMA MP210
Установленные драйвера: Драйвер MP серии MP210, версия 1.01 (Windows 8.1 x64_8 x64_7 x64_Vista64)
(новее дров нет) Canon Inkjet Printer Driver Add-On Module.
Версия проги: FineReader 11 (выпуск 11.0.113.144).
При сканировании через интерфейс сканера всё проходит хорошо и максимально полно, но это жутко не удобно.
Спасибо.

Автор: niccolo
Дата сообщения: 30.12.2014 21:51

ghosty

Цитата:

Пришлось плюнуть на этого сферического коня и уйти к австрийцам

О каком продукте речь, если не секрет конечно? Можно в личку.

Цитата:

Если б Вы знали, какой там феерический бардак творится! У меня опыт и общения с ними, и инсайдерская инфа.

Тоже к такому выводу пришёл после некоторых попыток достучаться до Абби.

PS Из другого топика - может кому и тут пригодится

Набросал небольшой (3 стр.) мануальчик по малоизвестной функции Файнридер, позволяющей быстро улучшить результаты (не путать с качеством) распознавания книг. Мануальчик специально предназначен для оцифровщиков.

http://rghost.ru/59413574

Автор: Shangry
Дата сообщения: 19.01.2015 16:50

niccolo
С одной стороны хорошая идея - отслеживать проблемные места разметки по проценту ошибок распознавания. С другой стороны, для этого надо сначала распознать книгу, а если там приличный объем, то и времени может занять немало. С третьей стороны, при распознавании все одно приходится делать предпросмотр сделанной разметки, особенно на книгах со сложной версткой.

А вот для окончательной доводки вполне может пригодиться.

Что же до настроек предобработки, то не очень понятно, зачем распознавать эту книгу именно разворотами.
В FineReader давно уже есть вполне прилично работающее разрезание разворотов на страницы. Ставим галочку на "Делить разворот книги" и количество ошибок еще поуменьшится.

Автор: niccolo
Дата сообщения: 19.01.2015 17:00

Цитата:

С одной стороны хорошая идея - отслеживать проблемные места разметки по проценту ошибок распознавания. С другой стороны для этого надо сначала распознать книгу, а если там приличный объем, то и времени может занять немало.
Так что подозреваю, что будет плюс-минус одинаково с обычным предпросмотром сделанной разметки. Который все одно делать приходится, особенно на книгах со сложной версткой.

Что же до настроек предобработки, то не очень понятно, зачем распознавать эту книгу именно разворотами.
В FineReader давно уже есть вполне прилично работающее разрезание разворотов на страницы. Ставим галочку на "Делить разворот книги" и количество ошибок еще поуменьшится.

Цель данного руководства - дать новичкам простой и быстрый (без доп. обработки) способ улучшения качества распознавания, например у книг оцифровываемых для поиска с послед. сохранением в pdf или djvu.

Поэтому все «художественные» настройки ФР я отключил. Я уже столкнулся с работой данной функции и не столь оптимистичен в её оценке, особенно на книгах с растровыми рисунками — схемами, диаграммами и т.п. Не прикрутить в ней проверку конечного размера страниц на такие случаи (если конечный размер выбивается из общего ряда - скорее всего разбивка неверная) только говорит об уровне владения или использования собственного продукта специалистами Абби.

Что касается распознавания - так ведь его всегда надо делать. Вы же не плачете, что это займёт много времени, когда надо.

» ABBYY FineReader