Ru-Board.club
← Вернуться в раздел «Программы»

» ABBYY FineReader

Автор: ALEX666999
Дата сообщения: 20.02.2014 07:45
Значит до 450 уменьшить.
Откуда я знаю, какие у вас там «картинки», может 5000x5000.

Цитата:
Есть полно программ которые жрут не меньше и не зависают при этом.

Ни о чём не говорит. Они не по распознаванию текста с изображений такого кол-ва, надо полагать.
Автор: bolvanchik
Дата сообщения: 20.02.2014 08:51
inapht

Цитата:
а выше это где? Я не вижу их.


здесь


Цитата:
Есть полно программ которые жрут не меньше и не зависают при этом.


Неизвестно в каких условиях и с какими предустановками FR вы загружаете (антивирус, память, проц, своп и тд). FR очень сильно кушает ресурсы (у меня единственная прога, которая "укладывает" 4-х ядерник)

В FR при загрузке все изображения конвертируются в свой формат. Обязательно создается временный пакет. А это еще большая куча файлов.

Как вариант, в дополнение к вышесказанному - отключите антивирус и автоматический анализ страницы с предобработкой.
Автор: inapht
Дата сообщения: 20.02.2014 11:35
bolvanchik
Проц i5 3.2 ГГц 8ГБ RAM
Автоматический анализ отключен, предобработка включена. Картинки это 16-bit скриншоты 1250х880 с минимумом текста и картинок на чистом фоне. После открытия разрешение стало 2000 с чемто. Сделал редактирование - DPI 52, иначе текст пропускает и инверсию цвета. Затем наложил шаблон областей. Каждая из этих стадий занимала по 1-2 часа. Теперь вот уже третьи сутки идет анализ.
Настройки языков: авто рус, нем, инглиш, все без словарей. Распознавание штрихкодов отключил. Вывод в простой текст. Остальное по умолчанию.
Антивирь микрософт, добавил в исключения все что нужно.

Сейчас непонятно толи работает толи завис совсем. FineReader.exe грузит проц на 24-25% но вроде все ядра помаленьку. FineCmd.exe и три FineExec.exe проц не грузят.
Все процессы занимают памяти от 80 до 180 МБ очень медленно числа меняются.

В мониторе ресурсов, память на половину не использована, диск почти простаивает. FineReader.exe постоянно читает и пишет на диск несколько байт в секунду всего.


Добавлено:
Пока писал сообщение развисло окно прогресса. Было около 65% оно сразу перестало отвечать. Надо ждать.
Автор: bolvanchik
Дата сообщения: 20.02.2014 12:49
inapht

Цитата:
После открытия разрешение стало 2000 с чемто


попробуйте 1000 страниц без всякой предобработки.
предобработка - это уже коррекция изображения. тем более цвет. на это ресурсов нужно много.
при этом не забываем, что в последних версиях пакет у FR сильно раздут. и каждое изображение представлено группой из 9-10 файлов.

Провел небольшой эксперимент
по ссылке скрин размеров пакета

открытие цветного файла 72 dpi, 3096x2304 6 мб
0001 - с предобработкой ~50 мб - стало 144 dpi (6200x4619)
0002 - без предобработки ~20мб - те же 72 dpi ( 3096x2304) коррекцию изображений до нужного dpi можно провести после, по частям

вопрос по открытию файлов в fr, надеюсь, закрыли



Цитата:
Затем наложил шаблон областей

по шаблонам я работал мало - где то с 1000 идеально одинаковых изображений. в остальном ручная разметка. (вас я так понял это не устроит)

по скорости: в любом случае, даже если вы загрузили все возможные изображения (9999) в пакет, рекомендую накладывать шаблон на 200-300 (500). Здесь один принцип: тихо едешь - быстрее приедешь

С инверсией - это к 8 fr. он распознает такие изображения вполне сносно. а иногда идеально.
Автор: oleg1660
Дата сообщения: 22.02.2014 20:25
ABBYY Screenshot Reader установить и пройти регистрацию для получения ключа до 10.00 23 февраля (по Москв.)
Автор: anderlipkin
Дата сообщения: 25.02.2014 00:53
Как всё-таки активировать 11.0.113.164 Professional Edition ?
Автор: Astra55
Дата сообщения: 25.02.2014 04:34
anderlipkin
Цитата:
Как всё-таки активировать 11.0.113.164 Professional Edition?
Очень легко. Первый способ - купить программу. Второй способ - прочесть шапку. Выбирайте сами.
Автор: Kommunist
Дата сообщения: 25.02.2014 12:39

Цитата:
anderlipkin
Как всё-таки активировать  11.0.113.164 Professional Edition ?

Даже всю шапку читать не надо. Нужно лишь кликнуть в шапке на текст "Вопросы по доставанию и лечению - в Варезнике".
Автор: iya_grisho
Дата сообщения: 25.02.2014 14:30
Обзор обновленного ABBYY FineReader 12!
Автор: ALEX666999
Дата сообщения: 25.02.2014 14:42
Статья проплачена? Прям сплошной елей и шоколад, ни слова о косяках.
Автор: Yevgenijz
Дата сообщения: 27.02.2014 09:00
ALEX666999
Цитата:
Статья проплачена? Прям сплошной елей и шоколад, ни слова о косяках.
Не знаю, проплачена или нет, но ударения распознаёт, в отличие от.



Добавлено:
Dracula
http://forum.ru-board.com/topic.cgi?forum=5&topic=6373&start=2760#3
Вообще-то лучше всего для конкретных областей задать конкретный язык распознавания, тогда и путаницы не будет. "Русский и английский" может не прокатить, даже и с обучением, в других латинских языках могут встретиться такие символы, которых нет в английском, так что лучше вручную указать на конкретную область и задать язык этой области, а не сваливать все языки в кучу.
Автор: hogu77
Дата сообщения: 01.03.2014 14:58
ALEX666999

Цитата:
Мне интересно теперь проверить другие языки,


С языками вообще прикол: "Кабардино-черкесский" и "Карачаево-балкарский")
ПС. Касательно проверки других языков то мне весьма понравилось что дореформку прикрутили, со словарём, до этого, на 11-ой приходилось словарь миллионный подгружать. Разницы пока особой не заметил (прогнал один и тот же текст в двенадцатке и одинадцатке) - примерно один и тот же результат засинения неуверенно распознанных букв/слов, а так, радует конечно что новые слова в словарь добавляются легче и быстрее, чем это делать через миллионный текст-лист.
Автор: alkis
Дата сообщения: 01.03.2014 15:45
hogu77

Странно - Вы говорите: "дореформку прикрутили, со словарём", а в их списке ( http://help.abbyy.com/FineReader/FineReader12/Russian/Appendix/SupportedLanguages.htm ) ни слова про словарную поддержку языка "Русский (Старая Орфография)". Вы уверены?
Автор: ALEX666999
Дата сообщения: 01.03.2014 15:52
hogu77
Я затестил FR12 на убогом материале. Плюс — хорошо осветляет, уменьшает шум, устраняет перекосы.
Минус — почему-то при копипасте в режиме точной копии (или форматированного текста, забыл)
курсор улетает куда-то вверх, короче с копипастой проблемы. Ну да, и ударения — в плюс.
Автор: hogu77
Дата сообщения: 01.03.2014 16:15
alkis

Цитата:
Странно - Вы говорите: "дореформку прикрутили, со словарём", а в их списке ( http://help.abbyy.com/FineReader/FineReader12/Russian/Appendix/SupportedLanguages.htm ) ни слова про словарную поддержку языка "Русский (Старая Орфография)". Вы уверены?


Да - http://www.abbyy.ru/finereader-professional/new/
Посмотрите в группе "Языки со словарной поддержкой". (только у меня не Проф а Корпорат) а ещё лучше - скачайте тридцатидневку - http://fr7.abbyy.com/fr12/ABBYY_FineReader_12_Professional.exe что я и сделал сегодня.

ALEX666999

Цитата:
Ну да, и ударения — в плюс.

А не подскажите, в плане ликбеза, зачем вообще нужны эти ударения?
Первым в списке всплывает оцифровка словарей. А ещё?)
Автор: ALEX666999
Дата сообщения: 01.03.2014 16:33

Цитата:
у меня не Проф а Корпорат

Для Корпората триал не предусмотрен...

Цитата:
Первым в списке всплывает оцифровка словарей

Вот для этого. Для точной передачи исходника.
А также, чтобы ошибок распознавания было меньше ( o > 6 ).
Автор: hogu77
Дата сообщения: 01.03.2014 16:41
ALEX666999

Цитата:
Для Корпората триал не предусмотрен...


Простите за телеграфный стиль, я хотел сказать что в примере-сравнении, по ссылке стоит ABBYY FineReader 11 Professional Edition а у меня 11.0.113.164 Corporate Edition.
Автор: alkis
Дата сообщения: 01.03.2014 19:56
hogu77
Спасибо! Последовал Вашему совету, вот избранные места для сравнения:
11: изгь народныхъ пѣсенъ 12: изъ народныхъ пѣсенъ
11: покрыгіе которыхъ Коммиссія 12: покрытіе которыхъ Коммиссія
11: урожденной Бѣлооельской—Бѣлозерокой 12: урожденной Бѣлооельской—Бѣлозерской
11: костюмы изъ Брянскаго, Карачевскаго, Мцепскаго, Елецкаго
12: костюмы изъ Брянскаго, Карачевскаго, Мцеискаго, Елецкаго
11: находящнхся въ Музеѣ, можгю только 12: находящихся въ Музеѣ, .можно только
11: предсѣдатсля настоящаго засѣданія, совмѣстно съ другимп чле
12: предсѣдателя настоящаго засѣданія, совмѣстно съ другими чле
11: оперы, человѣческое горло, ішѣгоіцое, 12: оперы, человѣческое горло, имѣющее,
11: На эту безсистемность указывали многіе. Напримѣръ,
12: На эту безсистемность указывали многіе. Напримѣръ,
11: нагромождалпсь въ Музеѣ іі смѣшнвались съ остальны.ми.
12: нагромождались въ Музеѣ іі смѣшивались съ остальными.
11: Ѳ. Ѳ. ІІохвалинскій высказалъ сомиѣніе, нмѣетъ ли
12: Ѳ. Ѳ. Иохвалинскій высказалъ сомнѣніе, имѣетъ ли
11: ТЬмъ не меиѣе, въ виду могущихъ потребоваться ыа
12: Тѣмъ не менѣе, въ виду могущихъ потребоваться на

То есть словарь реально помогает, во внесловарных словах 12-й делает чуть меньше ошибок. Получается, что имеет смысл переходить на 12.

ЗЫ. Сорри, "&#1123" это так браузер интерпретирует ять, а &#1123 - это фита.









Автор: hogu77
Дата сообщения: 01.03.2014 23:01
alkis

Цитата:
Спасибо! Последовал Вашему совету, вот избранные места для сравнения:
<...>


Пожалуйста. Правда следовать пока рано, надо подождать излечения "пациента".
Автор: DNS07
Дата сообщения: 02.03.2014 08:25
Необходимо отсканировать и внести изменения в чек сбербанк.онлайн сохранённый в формате tiff. Сканирую чек из формата тифф, распознаю, появляется два окошка, слева оригинал распознанный чек, справа могу редактировать и вносить изменения. Изменения внёс, открываю в просмотрщике PDF и вижу что чек оригинал, никакие изменения не сохранились. Объясните, что делаю не так. Спасибо
Автор: hogu77
Дата сообщения: 02.03.2014 11:37

Цитата:
Необходимо отсканировать и внести изменения в чек сбербанк.онлайн сохранённый в формате tiff. Сканирую чек из формата тифф, распознаю, появляется два окошка, слева оригинал распознанный чек, справа могу редактировать и вносить изменения. Изменения внёс, открываю в просмотрщике PDF и вижу что чек оригинал, никакие изменения не сохранились. Объясните, что делаю не так.


Может Вы сохранили в формате PDF/A а не PDF?
Я занимался подобными "процедурами" с корешками на коммуналку ("коммунальщики до того офигели что надо самим гражданам бланки печатать"), правда делал это в Photoshop'е, так лучше, наверно. Советую и Вам перейти на удобный Вам 2D редактор с поддержкой набора текста.
Автор: DNS07
Дата сообщения: 03.03.2014 06:21
hogu77
Точно, такие дела в фотошопе делаются
Автор: ixet
Дата сообщения: 04.03.2014 21:56
Вопрос по правильному сохранению колонок текста. В этой теме он уже поднимался, но ответа толкового нет. Суть описана на старой странице офиц.форума:
http://finereader.abbyy.ru/forum/actualthread.aspx?tid=877
Дело в том, что при передаче текста в Ворд порядок текстовых блоков из колонок нарушается во всех вариантах передачи, кроме "простого текста".
Проверял на разных версиях сабжа.
Есть лечение? А то с нуля делать всё форматирование очень лениво...
Автор: JekaKot
Дата сообщения: 10.03.2014 16:53
Глюк:

При передаче в Word картинки не отображаются.
FR 11.0.113.164 PRO
Win7-64 Enterprise SP1 со всеми обновами
HP Photosmart C4483

в FR8.0 PRO все нормально
Автор: smersh2012
Дата сообщения: 10.03.2014 22:05

Цитата:
При передаче в Word картинки не отображаются.
FR 11.0.113.164 PRO

та же версия сабжа в Word нормально картинки любые переносит ... копайте в системе
Автор: bolvanchik
Дата сообщения: 11.03.2014 12:27
JekaKot
В опциях по сохранению (на вкладке DOCX/ODT/RTF) не выставили галку "Сохранять рисунки". это видно по вашему скрину. если галка выставлена, то воспользуйтесь советом smersh2012
Автор: JekaKot
Дата сообщения: 12.03.2014 21:33
bolvanchik
Цитата:
В опциях по сохранению (на вкладке DOCX/ODT/RTF) не выставили галку "Сохранять рисунки".

Слетела, значит... Спасибо.
Автор: ALEX666999
Дата сообщения: 22.03.2014 10:28
Первое: проекты FR сроду не брались «в обратную сторону» (билды не в счёт).
То есть новым старые открыть можно (не исключено, что криво сконвертировав), но не наоборот.
В FR12 то же самое, проверено. Если речь НЕ о проектах, то нужно смотреть.
Вряд ли экспорт в DOC/PDF будет в нечитаемой для 11-й, например, форме.

Второе, по поводу проблемной копипасты, про которую я писал выше:
кажется, это ловится, когда две текстовых области страницы чуть-чуть пересечены.
После ручной обработки нормально.
Автор: n2000z
Дата сообщения: 26.03.2014 17:40
А 5-тки sprint ни у кого нет?
Автор: MKN
Дата сообщения: 27.03.2014 10:37
Обзор Abbyy FineReader 12 Professional
http://www.ixbt.com/soft/abbyy-finereader-12.shtml


Цитата:
Резюме
Несмотря на то, что новый Abbyy FineReader 12 Professional не обещал ничего революционного, по крайней мере несколько изменений в нем заслуживают всяческой похвалы.
Прежде всего, это усовершенствования технологии ADRT в части распознавания таблиц, диаграмм и вообще логической структуры страниц, что в некоторых случаях позволяет получать кардинально лучшие результаты, а также фоновый режим обработки, который открывает новые возможности для интерактивной работы с большими документами.


Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104

Предыдущая тема: filesCatalog


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.