Ru-Board.club
← Вернуться в раздел «Программы»

» ABBYY FineReader

Автор: Nikollay
Дата сообщения: 29.10.2009 15:13
А кто подскажет где можно посмотреть, так называемый ChangeLog , то есть изменения по сравнению с девяткой
Автор: Lesmo
Дата сообщения: 29.10.2009 21:28
Всем привет! Народ, так все же объективно, какая версия лучше 8, 9 или 10, если книги да журналы сканировать?

bolvanchik, вот ты писал, что "по анализу страницы 10 обходит 8", а в чем конкретно выражается это и насколько это критично вообще? "В основном я сам сканирую книги" - и как в сравнении качества распознаного?

Дело в том, что у меня 9ка стоит... а до этого стояла 7ка (пропустил 8ку за ненадобность FR в свое время, а теперь снова понадобился). Так на чем мне остановиться .... только с обоснованием, если не сложно
Автор: PMRaven666
Дата сообщения: 29.10.2009 22:58
FR 10 распознает страницу как альбомную, а мне нужна обычная, не могу найти как её развернуть.
Автор: shengjeng
Дата сообщения: 30.10.2009 00:58
PMRaven666

Может в окне "Открыть изображение" нужно снять галочки "Определять ориентацию страницы" и "Выполнять предобработку изображений" ?
Автор: PMRaven666
Дата сообщения: 30.10.2009 03:09
shengjeng

Цитата:
Может в окне "Открыть изображение" нужно снять галочки "Определять ориентацию страницы"

снята
Автор: shengjeng
Дата сообщения: 30.10.2009 13:03
PMRaven666

Да, попробовал распознать страницу, у которой ширина больше, чем высота - при сохранении в Word у нее определяеться альбомная ориентация.
Думаю, можна пойти обходным путем - сохранять в формате HTML и затем копировать в Word или просто копипейстить в Word из окна "Текст".
Автор: PMRaven666
Дата сообщения: 30.10.2009 13:30
shengjeng

Цитата:
Да, попробовал распознать страницу, у которой ширина больше, чем высота

Книга стандартная (415) страниц, FR одну часть сделал альбомом другую в оригинале. Вот и супер распознавалка.
Автор: ireg
Дата сообщения: 30.10.2009 13:38

Цитата:
Пока 10ю версию не спёрли, есть несколько вопросов по поводу 9й версии.
1. Как увеличить масштаб страницы в "Редактировании изображения"? (надо аккуратно подчистить мусор ластиком, а изображение очень мелкое)

Если так нужен ластик - добавьте кастомайзом эту команду на тулбар и пользуйтесь ей в не в редакторе изображений а в окне изображение.
Автор: PMRaven666
Дата сообщения: 30.10.2009 16:29
Заметил такую фишку: если образ страницы положить набок и задать повернутый текст, то формат страницы распознается как положено.
Автор: Pawo
Дата сообщения: 30.10.2009 18:28
ireg
Спасибо за совет - реально можно добавить кнопку.

В 10й версии, надеюсь, всё так же делается, или еще сюрпризов ждать?
Автор: 0SHV
Дата сообщения: 31.10.2009 05:19
Lesmo

Цитата:
какая версия лучше 8, 9 или 10, если книги да журналы сканировать?

В 9 + что добавили поддержку формата DjVu (поддержка Висты)
В 10 кто-то считает, что с камер лучше распознает. (поддержка Win 7)
А так особой разницы между ними тремя не вижу. ИМХО.
Автор: djshkiper
Дата сообщения: 02.11.2009 11:04
Разница есть, и очень большая. Для этого достаточно один и тот же сложный документ (картинки в тексте, таблицы, графики и т.п.), желательно еще снятый не очень хорошо прогнать по очереди на этих трех версиях.

10 дает лучшие из этих трех вариантов результаты, сам неоднократно проверил.
Автор: Shangry
Дата сообщения: 02.11.2009 17:01
djshkiper

Цитата:
Для этого достаточно один и тот же сложный документ (картинки в тексте, таблицы, графики и т.п.), желательно еще снятый не очень хорошо прогнать по очереди на этих трех версиях.

То есть наконец-то довели до ума разбивку изображения на блоки.

А как 10-я обрабатывает тексты из физматики с формулами?
Если она в состоянии более или менее аккуратно выделять куски страницы с формулами, как картинки, то я с ней дружу. :-)
Автор: bolvanchik
Дата сообщения: 02.11.2009 22:05
Lesmo

Цитата:
bolvanchik, вот ты писал, что "по анализу страницы 10 обходит 8", а в чем конкретно выражается это и насколько это критично вообще? "В основном я сам сканирую книги" - и как в сравнении качества распознаного?

Дело в том, что у меня 9ка стоит... а до этого стояла 7ка (пропустил 8ку за ненадобность FR в свое время, а теперь снова понадобился). Так на чем мне остановиться .... только с обоснованием, если не сложно



Если нужно распознавать плохой скан, то тут ghosty прав - 8-ка справляется на ура. в 9 и 10 - приходится увеличивать разрешение, и то в этом случае неуверенно распознанных символов гораздо больше чем у 8-ки

в 9 изменили интерфейс работы. с большими сканами (более 500 с) работа пошла быстрее (это единственное улучшение, DJVU не считаю, ибо не лениво было разложить его предварительно). чуть-чуть в 9 ухудшился анализ страницы, пропала нужная мне функция - Анализ структуры таблицы (ранее ее можно было делать на текстовом блоке сразу, не определяя тип блока как таблица.

в 10 анализ работает на ура, если объекты крупные (картинки, схемы). если мелкие - то далеко не всегда. хотя и здесь без косяков не обходится. их меньше по сранвнению с остальными версиями

так же в десятке появилась непрятность - при использовании режимов "Точная копия" и "Форматированный текст" очередность блоков в распознанном меняется (при просмотре в Word или Wriiter), по непоятной причине. в остальных двух режимах - все идет гладко. кстати блоки в десятке не нумеруются, а если быть точным - номер виден только в свойствах.
Еще один неприятный момент - теперь при сканировании в десятке невозможно работать с пакетом, в 9 такая возможность была.

Удобство работы является не самым главным показателем, главное ведь в программе - это распознавание

Если нужно что-нибудь проверить - пишите - проверю

Автор: vvvvv2
Дата сообщения: 08.11.2009 02:00
10-версия очень огорчила с таблицами.... Она совершенно игнорирует вручную размеченные таблицы (на строки и столбцы) - многое сваливает в кучу, будто нет отдельных горизонтальных и вертикальных границ разметки... Глюк серьезный.
В целом прога работает мощно - грузит на полную Core i7 и, как минимум, 1 Гб оперативки. Создает 8 потоков на каждый проц. А, вот еще, после обработки и удаления задания, при новой задаче память будто бы не освобождается, т.е. забрав, например, 1,5 Гб при новой задаче начинает увеличиваться от этого значения. А если перезапустить прогу, то начинает с минимума. Так не всегда, но нередко...
Нужно ждать новой сборки...
Автор: domo22
Дата сообщения: 09.11.2009 15:14
Когда я добавляю кучу картинок для последующего распознавания в FineReader 9, то они на ленте выстраиваются правильно - по порядку - 1, 2, 3, и т.д. Когда же смотрю сохраненный проект, там полный беспорядок - только первый файл всегда первый. А вот немного дальше может идти 22, 21 (а не 21, 22) и подобное. Как уберечься от этой ерунды и заставить сабж размещать файлы в каталоге проекта именно по порядку, а не вразброс? Команда "Перенумеровать файлы" не действует или может действует, но на один лишь файл, а меня их сотни и тысячи. Помогите.
Автор: ALEX666999
Дата сообщения: 09.11.2009 16:00

Цитата:
Nikollay: А кто подскажет где можно посмотреть, так называемый ChangeLog , то есть изменения по сравнению с девяткой

Авторы не выкладывают чейнжлоги, пишут, что он есть, но только для внутреннего пользования.

Цитата:
bolvanchik: Если нужно что-нибудь проверить - пишите - проверю

У тебя лицензионная, зарегистрированная версия? Нужно проверить как быстро сохраняются результаты больших пакетов, страниц 100 и более.
Автор: Lesmo
Дата сообщения: 09.11.2009 16:19
0SHV, djshkiper, bolvanchik спасибо большое!

В принципе впечатление от 9-ки у меня по сравнению с той же 7 такое, будто суеты прибавилось при распознавании небольших (5-15 стр) текстов с каждого источника. И никак от этого отделаться не могу. Может я так и не смог полностью "принять" новый интерфейс.

Как сказал vvvvv2, для 10-ки нужен 4 ядерник с гигом-полутора ОП??? Но системные требования-то на сайте производителя - ...Процессор: Компьютер с тактовой частотой процессора 1ГГц или выше. Объем оперативной памяти: не менее 512 Мб, дополнительно для каждого ядра процессора 256 Мб... Минимальные конечно, но не настолько же. Мой PentIV 1,8 ГГц и 512 ОП с WinXP загнется в раз?

Еще такой вопрос: имеем толстую книгу (3-4 см), бумага сероватая, размер шрифта 10. Берем разворот по середине. Как правило, плотно к сканеру приложить всю поверхность разворота не получается и зона переплета по всей высоте книги распознается похуже с неверно распознанными символами. Так как в данном случае 8-ка справляется? 9-ка вроде как почти все видит. Но может косячить в практически безобидной ситуации с более четкими на мой субъективный взгляд символами.

bolvanchik, если не трудно, не мог бы ты снять реальные затраты ЦП и ОП в 9-ке и 8-ке на одних и тех же страницах для сравнения.
Автор: bolvanchik
Дата сообщения: 10.11.2009 11:36

Lesmo


Цитата:
Мой PentIV 1,8 ГГц и 512 ОП с WinXP загнется в раз?

не загнется.

при распознавании FR (любой) проц забивает на 100%

по выделению памяти:
8-ка - 120-150 мб (один процесс)
9-ка - 220-300 мб (три процесса)
10-ка - 250-350 мб (три процесса)
книга - 330 страниц. скорость распознавания не измерял

по распознаванию "загибов" страниц - тут 9 и 10 рельно лучше справляются
Автор: Shangry
Дата сообщения: 10.11.2009 13:12
bolvanchik
Вы уже смотрели, как 10-я распознает технические тексты - с формулами, графиками, диаграммами?
Точнее даже не как распознает, а насколько аккуратно нарезает на блоки?

Если бы FineReader наконец научился аккуратно отделять то, что распознать можно, от того, что пока распознать нельзя - это сняло бы немало проблем. Особенно в текстах набитых мат. формулами.
Пока что во всех версиях на месте "формульных" кусков страницы дикая каша из паршивой разметки на блоки.
Автор: bolvanchik
Дата сообщения: 10.11.2009 13:59
Shangry

Хотел написать много букв, да передумал.
ниже ссылка на архив - сравнивайте. Разрешение - 600dpi.
Во всех случаях использовался набор: Простые химические формулы, Русский и Английский, Греческий языки. (для 8 - Русский, Английский, Греческий)
для выделения блоков использовалось автоопределение

Onlinedisk
Автор: Shangry
Дата сообщения: 10.11.2009 15:26
bolvanchik
Спасибо.

Картинки и таблицы действительно выделяются несколько лучше.
С многоэтажными формулами практически ничего не изменилось - как прежние версии считали их обычным текстом, так и 10-я то же самое.
Формулы идущие внутри текста распознаются немного лучше, но именно немного - без серьезной правки практически не обойдешься.
Символы с верхними и нижними индексами - тоже прежний гармыдр, править надо в трех случаях из четырех.

Спасибо за хорошую идею. Давать, как результат тестирования, вот такие скриншоты похоже гораздо продуктивнее, чем просто описывать происходящее при распознавании.

Еще любопытно - изменили в 10-й что-нибудь, в смысле многочисленных FontStyle*** и Style***, которыми форматировался распознанный текст и которые потом, при экспорте, всей своей свалкой переезжали в Word.
Меня уже изрядно достает переформатирование этого "стихийного бедствия" при копировании куска распознанного в другой документ.
Автор: bolvanchik
Дата сообщения: 10.11.2009 17:20

Цитата:
Еще любопытно - изменили в 10-й что-нибудь, в смысле многочисленных FontStyle*** и Style***, которыми форматировался распознанный текст и которые потом, при экспорте, всей своей свалкой переезжали в Word.
Меня уже изрядно достает переформатирование этого "стихийного бедствия" при копировании куска распознанного в другой документ.


В десятке, в режиме простой текст можно задать свой шрифт. на счёт стиля увы
это не так страшно - можно одним выделением в ворде привести к одному стилю.
Страшнее всего когда передача идет из режима "точная копия". что в 9, что в 10 каждая страница в рамке. это "добивает" иногда.
Автор: PopovSergej
Дата сообщения: 10.11.2009 17:28
bolvanchik 18:20 10-11-2009
Цитата:
Страшнее всего когда передача идет из режима "точная копия". что в 9, что в 10 каждая страница в рамке. это "добивает" иногда.

Действительно раздражает. Неужели никак нельзя избавиться ?
Автор: bolvanchik
Дата сообщения: 10.11.2009 17:50

Цитата:
Действительно раздражает. Неужели никак нельзя избавиться ?


Можно.
1. Выделить весь текст.
2. Формат -Стили и форматирование - на том стиле что выбран - выбрать "очистить формат"
вот только результат будет отображаться по вашему стилю, т.е как настроены они у вас
почти аналогично тексту переданному из режима "простой текст".


Добавлено:
ALEX666999

просмотрел твое сообщение.
нормально сохраняются. тут скорость то не важна. главное - сохранить
p.s. пакет 10-ки меньше, чем у 9 на 6-7%
Автор: ALEX666999
Дата сообщения: 10.11.2009 18:30

Цитата:
bolvanchik: просмотрел твое сообщение.
нормально сохраняются. тут скорость то не важна. главное - сохранить
p.s. пакет 10-ки меньше, чем у 9 на 6-7%

Интересует время сохранения TXT-результата в секундах и именно на лицензионной версии. По моим тестам 9-ка нормально "вылеченная" сохраняет результат пакета 310 файлов за ~7 сек, а 10-ка "сыро-вылеченная" за ~49 сек, то есть в 7 раз дольше + назойливо при этом хрумтит винт, чего не наблюдается на 9-ке. Хочется понять где собака порылась. Я думаю дело в пилюле, продвинутые же во врачевании товарищи говорят, что скорей всего не в ней.
Автор: Lesmo
Дата сообщения: 10.11.2009 18:55
bolvanchik, большое спасибо за тестирование, выручил.

В итоге прихожу к выводу, что оставаться мне надо на 9-ке.
Вопрос тут новый возникает: на какой? У меня сейчас 9.0.0.662. Стгоит ли мне обновляться и на какую именно ревизию. Я слышал, что это имеет значение в FR, как собственно и почти везде. Какая же ревизия в FR в v9 оптимальная?
Автор: ALEX666999
Дата сообщения: 10.11.2009 19:04

Цитата:
Lesmo: Какая же ревизия в FR в v9 оптимальная?

"Оптимальность" - субъективизм. Я бы на твоём месте ставил 9.0.0.1042 и никого не слушал.
Автор: bolvanchik
Дата сообщения: 10.11.2009 19:04

Цитата:
Интересует время сохранения TXT-результата в секундах и именно на лицензионной версии. По моим тестам 9-ка нормально "вылеченная" сохраняет результат пакета 310 файлов за ~7 сек, а 10-ка "сыро-вылеченная" за ~49 сек, то есть в 7 раз дольше + назойливо при этом хрумтит винт, чего не наблюдается на 9-ке. Хочется понять где собака порылась. Я думаю дело в пилюле, продвинутые же во врачевании товарищи говорят, что скорей всего не в ней.


с учётом того, что текст уже сохранялся ранее в doc, получились следующие результаты
330 страниц
9-ка - 24 сек
10-ка - 11 сек
Автор: zhe_zho
Дата сообщения: 10.11.2009 22:36

Цитата:
Я бы на твоём месте ставил 9.0.0.1042 и никого не слушал.

Ну если нужно чтобы работала передача из Screenshot Reader в FineReader то тогда 9.0.0.724, если не обязательно то 9.0.0.1042 (Screenshot Reader для 1042 придётся ставить отдельно).

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104

Предыдущая тема: filesCatalog


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.