Если в Viste работает, то в XP тоже будет работать.
» ABBYY FineReader
Подскажите как реализовать пакетную конвертацию PDF в HTML с использованием FineReader.
Danil_Lab
Сканов или векторных pdf? Если векторные, то ФР не лучший выбор. Если сканы, то загляните сюда:
http://www.alexrey036.narod.ru
Сканов или векторных pdf? Если векторные, то ФР не лучший выбор. Если сканы, то загляните сюда:
http://www.alexrey036.narod.ru
Спасибо,
реализовал через AutoIt3, кривое конечно решение но работает
реализовал через AutoIt3, кривое конечно решение но работает

Цитата:
2dark2
Если кому не трудно посмотрите к новому ABBYY Screenshot Reader можно ли прикрутить от 9.0.0.882 распознования ероглифов?
Программа распознает тексты на 179 языках и поддерживает 14 языков интерфейса.
Подскажите есть ли уже какое-нибудь решение для нелицензионной установки ABBYY FineReader 9.0.0.882?
vitaly1
Нет, не совсем туда. Ему в шапку варезной темы и вдумчиво читать выделенный красным текст. Вплоть до полного его понимания
.
Нет, не совсем туда. Ему в шапку варезной темы и вдумчиво читать выделенный красным текст. Вплоть до полного его понимания

Ну я в топик отправлял 

Нередко на форумах попадаются предложения использовать FR в качестве инструмента редактирования текста в PDF.
То есть, по идее, берем созданный тем же самым FR (или другим похожим софтом) комбинированный файл PDF (изображение + текстовый слой), засовываем его в FR - и в окне "Text Window" видим в качестве "распознанного" текста оригинальный текст из текстового слоя PDF-файла. Теперь этот можно отредактировать (букву там дописать) и снова сохранить в PDF...
Звучит заманчиво, вот только непонятно, как именно такое сделать. Подскажите плиз.
З.Ы.
В 8-й версии в настройках есть специальная опция (Read -> PDF Recognition -> Extract text from PDF), но никакой разницы от ее включения не заметно
А в 9-ке этой опции в настройках вообще нет.
То есть, по идее, берем созданный тем же самым FR (или другим похожим софтом) комбинированный файл PDF (изображение + текстовый слой), засовываем его в FR - и в окне "Text Window" видим в качестве "распознанного" текста оригинальный текст из текстового слоя PDF-файла. Теперь этот можно отредактировать (букву там дописать) и снова сохранить в PDF...
Звучит заманчиво, вот только непонятно, как именно такое сделать. Подскажите плиз.
З.Ы.
В 8-й версии в настройках есть специальная опция (Read -> PDF Recognition -> Extract text from PDF), но никакой разницы от ее включения не заметно

мм - хочется узнать про работу FR 9 - как-то тупит при сканировании и добавлении страниц - хотя в настройках стоит галочка не распознавать? Вначале перед моими настройками все было более менее быстрее - поэтому хотелось бы сбить настройки полностью - т.е. удалить файл настройки - только какой?
Второй вопрос. Есть проект сделанный в FR неизвестной версии. Собственно как эту версию определить?
Третий вопрос - открываю этот неизвестныый проект в своей девятке - оно мне пишет, что сделано в более старой версии и надо преобразовать. Ок? Соглашаюсь - и все проект из 4 мб становится 20 мб - нифига себе !!! Разница в 5 раз и так необоснованно! Что это может быть и как с этим бороться.
Какая версия Fr наиболее лучше подойдет, если распознавать хорошо читаемые документы, т.е. хорошие супер-пупер алгоритмы 9-ки не нужны? Подойдет 7ка, 8ка?
Второй вопрос. Есть проект сделанный в FR неизвестной версии. Собственно как эту версию определить?
Третий вопрос - открываю этот неизвестныый проект в своей девятке - оно мне пишет, что сделано в более старой версии и надо преобразовать. Ок? Соглашаюсь - и все проект из 4 мб становится 20 мб - нифига себе !!! Разница в 5 раз и так необоснованно! Что это может быть и как с этим бороться.
Какая версия Fr наиболее лучше подойдет, если распознавать хорошо читаемые документы, т.е. хорошие супер-пупер алгоритмы 9-ки не нужны? Подойдет 7ка, 8ка?
bruteALEX
Цитата:
Хорошо читаемые документы с простым форматированием, практически одинаково распознаются во все версиях Ридера, отличия начинаются при распознавании всяких сложных таблиц и т.п., здесь старшие версии справляются немного лучше.
Цитата:
Какая версия Fr наиболее лучше подойдет, если распознавать хорошо читаемые документы, т.е. хорошие супер-пупер алгоритмы 9-ки не нужны? Подойдет 7ка, 8ка?
Хорошо читаемые документы с простым форматированием, практически одинаково распознаются во все версиях Ридера, отличия начинаются при распознавании всяких сложных таблиц и т.п., здесь старшие версии справляются немного лучше.
bruteALEX
Цитата:
Попробуйте другие софты - CuneiForm, OmniPage, ReadIris. FR ведет себя не лучшим образом в таких случаях, параноик-с
Цитата:
если распознавать хорошо читаемые документы
Попробуйте другие софты - CuneiForm, OmniPage, ReadIris. FR ведет себя не лучшим образом в таких случаях, параноик-с

При сканировании и сохранении в pdf страницы разных глав, иногда и в пределах одной главы, получаются разного размера. Как заставить FineReader делать страницы одинакового размера? Пересканирование на размер не влияет.
Цитата:
При сканировании и сохранении в pdf страницы разных глав, иногда и в пределах одной главы, получаются разного размера. Как заставить FineReader делать страницы одинакового размера? Пересканирование на размер не влияет.
мне только такая последовательность действий помогает:
1. перед сканированием замеряю рамеры книги (если длина меньше длины A4 быстрее сканируется однако

2. сканирую от начала до конца без деления разворота пополам
3. вручную делю все развороты (автоматом FR так и не научили делить точно по- середине)
4. обрезаю все страницы под один формат.
5. затем сохраняю - параметры страницы задаю вручную (обычно по параметрам обложки)
только по выполнению вышеперечисленного получаю все страницы одинаковыми. времени улетает вагон.
bolvanchik
Может тогда воспользоваться СканКромсатор-ом для обрезки и центровки сканов. Им намного удобнее проделывать все такие операции, очень много делается на автомате. А в пдф потом перегнать можно чем захотите, хоть тем же ФР.
Может тогда воспользоваться СканКромсатор-ом для обрезки и центровки сканов. Им намного удобнее проделывать все такие операции, очень много делается на автомате. А в пдф потом перегнать можно чем захотите, хоть тем же ФР.
Цитата:
Может тогда воспользоваться СканКромсатор-ом для обрезки и центровки сканов. Им намного удобнее проделывать все такие операции, очень много делается на автомате. А в пдф потом перегнать можно чем захотите, хоть тем же ФР.
не всегда, даже после вручную разбитого разворота, получаются симметричные страницы (границы от центра и от краев не совпадают, страницы бывает склеены и границы естественно разыные, про клеенные книги вообще молчу). мне лучше потерять минут 5 на 100 страниц, чем снова переделывать всё. при просмотре сразу смотрю что ровнять, чистить и пр. а кромсатор давно уж не пробовал. в свое время результаты не особо вдохновили на его дальнейшее использование
Попробуйте, думаю не пожалеете. Сейчас это очень мощный инструмент для автоматической обрезки, чистки и т. д.
Astra55
Цитата:
Попробуйте другие софты - CuneiForm, OmniPage, ReadIris. FR ведет себя не лучшим образом в таких случаях, параноик-с
Цитата:
Цитата: Цитата:если распознавать хорошо читаемые документы
Попробуйте другие софты - CuneiForm, OmniPage, ReadIris. FR ведет себя не лучшим образом в таких случаях, параноик-с
СканКромсатор пробовал, не понравился совсем. FineReader в общем-то сам довольно толково работает, проблемы из-за того что в книге у некоторых глав меньшие поля и, главное, шире текст. Сама нарезка и обрезка страниц никак на размер страницы не влияет. Современные издатели стандарты не особенно соблюдают. Попробую плагины.
oshizelly
Для распознания текста, особенно сложного или с низкокачественного скана OmniPage на голову выше FineReaderа, но это если вам достаточен text only. В оформлении FineReader при всех своих недостатках лучше. Кстати модуль PDF у FineReaderа как и у OmniPage не свой, но на два порядка лучше чем у последнего.
oshizelly
Для распознания текста, особенно сложного или с низкокачественного скана OmniPage на голову выше FineReaderа, но это если вам достаточен text only. В оформлении FineReader при всех своих недостатках лучше. Кстати модуль PDF у FineReaderа как и у OmniPage не свой, но на два порядка лучше чем у последнего.
Хотел бы обратиться к вам за таким советом, сканирую текст (файнридер 7), потом ставлю на сайт и получается что некоторые слова разрывает пополам, как от этого избавиться? Очень нужно, спасибо
laliroseba
Цитата:
А какая взаимосвязь с FR? Открыть текст в любом приличном текстовом редакторе и поглядеть в чем дело. Если текст выглядит нормально, а на сайте искажается, то претензии к себе и сайту.
Цитата:
получается что некоторые слова разрывает пополам
А какая взаимосвязь с FR? Открыть текст в любом приличном текстовом редакторе и поглядеть в чем дело. Если текст выглядит нормально, а на сайте искажается, то претензии к себе и сайту.
rex
Astra55
Цитата:
Ясно... А почему все-таки "параноик-с"?
Цитата:
И опять тот же самый вопрос: чем лучше-то
Быстрее работает? Или выдает более компактные файлы? Или ещё что?
Astra55
Цитата:
Для распознания текста, особенно сложного или с низкокачественного скана OmniPage на голову выше FineReaderа, но это если вам достаточен text only.
Ясно... А почему все-таки "параноик-с"?
Цитата:
Кстати модуль PDF у FineReaderа как и у OmniPage не свой, но на два порядка лучше чем у последнего.
И опять тот же самый вопрос: чем лучше-то

я конвертирую pdf-файл (там много слов переносятся), и у меня такая проблема, у меня по какой-то причине при распознавании выходит что каждая строка отдельно от другой, как это исправить?
Цитата:
А почему все-таки "параноик-с"?
Наверно потому что парсер файнридера подозревает ошибки (неуверенно распознаные символы) там где их очевидно нет и вариантов в словаре тоже нет. В результате требуется куча абсолютно лишних телодвижений при проверке и правке текста. Многие из-за этого вообще не проверяют текст после распознавания, а это плохо, так как ошибки даже в русском языке встречаются. Зато о существовании римских цифр программисты Abbyy похоже вообще не знают, и Ш П вместо III и II или Vi вместо VI пропускает без малейших подозрений и предупреждений, хотя в словаре таких "слов" явно нет.
Кстати проблема выравнивания страниц по размеру решилась путем установки в опциях - "размер страницы - авто". Масштаб шрифта правда при этом прыгает, но пока FineReader будет создавать по 65000 стилей для 400 страниц, единообразия ожидать не приходится.
Если мне нужно оставить в проекте чистые листы, как заставить FR (использую 9.0) не воспринимать их за ошибку?
oshizelly
Цитата:
"За всю Одессу" не скажу, но одна приятная мелочь в PDF-экспорте e 9.0 появилась - технология MRC.
Теперь можно на цветном и "сером" выводе в режиме "Текст под изображением" не создавать файлы-монстры по несколько гигов, а получать что-то сравнительно компактное.
MRC-модуль пока еще с "шероховатостями", но в следующих версиях обещают почистить огрехи.
Добавлено:
rex
Цитата:
Да и наоборот тоже - с полнейшей уверенностью (то есть даже не помечая как сомнительное место) опознает один символ, как совсем другой.
В результате приходится просматривать не только выделенные цветом места, но и весь текст всплошную - кто его знает, где ему захромать вздумается.
Так что действительно параноик, причем "советского" образца - подозревает всех и в половине случаев не по делу
.
Цитата:
Цитата:
Кстати модуль PDF у FineReaderа как и у OmniPage не свой, но на два порядка лучше чем у последнего.
И опять тот же самый вопрос: чем лучше-то Быстрее работает? Или выдает более компактные файлы? Или ещё что?
"За всю Одессу" не скажу, но одна приятная мелочь в PDF-экспорте e 9.0 появилась - технология MRC.
Теперь можно на цветном и "сером" выводе в режиме "Текст под изображением" не создавать файлы-монстры по несколько гигов, а получать что-то сравнительно компактное.
MRC-модуль пока еще с "шероховатостями", но в следующих версиях обещают почистить огрехи.
Добавлено:
rex
Цитата:
Наверно потому что парсер файнридера подозревает ошибки (неуверенно распознаные символы) там где их очевидно нет и вариантов в словаре тоже нет.
Да и наоборот тоже - с полнейшей уверенностью (то есть даже не помечая как сомнительное место) опознает один символ, как совсем другой.
В результате приходится просматривать не только выделенные цветом места, но и весь текст всплошную - кто его знает, где ему захромать вздумается.
Так что действительно параноик, причем "советского" образца - подозревает всех и в половине случаев не по делу

Подскажите, поставил последнюю версию, что ни делаю, возникают вот такие ошибки:
Внутренняя программная ошибка. \FineReader9\Build\0\Ocr\Shared\RecTools\Contourizer.cpp, 228.
Внутренняя программная ошибка. \FineReader9\Build\0\Ocr\Shared\RecTools\Bound.cpp, 480.
ЗЫ.
Раньше работать с прогой не приходилось
Внутренняя программная ошибка. \FineReader9\Build\0\Ocr\Shared\RecTools\Contourizer.cpp, 228.
Внутренняя программная ошибка. \FineReader9\Build\0\Ocr\Shared\RecTools\Bound.cpp, 480.
ЗЫ.
Раньше работать с прогой не приходилось
Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104
Предыдущая тема: filesCatalog
Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.