» ABBYY FineReader

Автор: Nikollay
Дата сообщения: 29.10.2009 15:13

А кто подскажет где можно посмотреть, так называемый ChangeLog , то есть изменения по сравнению с девяткой

Автор: Lesmo
Дата сообщения: 29.10.2009 21:28

Всем привет! Народ, так все же объективно, какая версия лучше 8, 9 или 10, если книги да журналы сканировать?

bolvanchik, вот ты писал, что "по анализу страницы 10 обходит 8", а в чем конкретно выражается это и насколько это критично вообще? "В основном я сам сканирую книги" - и как в сравнении качества распознаного?

Дело в том, что у меня 9ка стоит... а до этого стояла 7ка (пропустил 8ку за ненадобность FR в свое время, а теперь снова понадобился). Так на чем мне остановиться .... только с обоснованием, если не сложно

Автор: PMRaven666
Дата сообщения: 29.10.2009 22:58

FR 10 распознает страницу как альбомную, а мне нужна обычная, не могу найти как её развернуть.

Автор: shengjeng
Дата сообщения: 30.10.2009 00:58

PMRaven666

Может в окне "Открыть изображение" нужно снять галочки "Определять ориентацию страницы" и "Выполнять предобработку изображений" ?

Автор: PMRaven666
Дата сообщения: 30.10.2009 03:09

shengjeng

Цитата:

Может в окне "Открыть изображение" нужно снять галочки "Определять ориентацию страницы"

снята

Автор: shengjeng
Дата сообщения: 30.10.2009 13:03

PMRaven666

Да, попробовал распознать страницу, у которой ширина больше, чем высота - при сохранении в Word у нее определяеться альбомная ориентация.
Думаю, можна пойти обходным путем - сохранять в формате HTML и затем копировать в Word или просто копипейстить в Word из окна "Текст".

Автор: PMRaven666
Дата сообщения: 30.10.2009 13:30

shengjeng

Цитата:

Да, попробовал распознать страницу, у которой ширина больше, чем высота

Книга стандартная (415) страниц, FR одну часть сделал альбомом другую в оригинале. Вот и супер распознавалка.

Автор: ireg
Дата сообщения: 30.10.2009 13:38

Цитата:

Пока 10ю версию не спёрли, есть несколько вопросов по поводу 9й версии.
1. Как увеличить масштаб страницы в "Редактировании изображения"? (надо аккуратно подчистить мусор ластиком, а изображение очень мелкое)

Если так нужен ластик - добавьте кастомайзом эту команду на тулбар и пользуйтесь ей в не в редакторе изображений а в окне изображение.

Автор: PMRaven666
Дата сообщения: 30.10.2009 16:29

Заметил такую фишку: если образ страницы положить набок и задать повернутый текст, то формат страницы распознается как положено.

Автор: Pawo
Дата сообщения: 30.10.2009 18:28

ireg
Спасибо за совет - реально можно добавить кнопку.

В 10й версии, надеюсь, всё так же делается, или еще сюрпризов ждать?

Автор: 0SHV
Дата сообщения: 31.10.2009 05:19

Lesmo

Цитата:

какая версия лучше 8, 9 или 10, если книги да журналы сканировать?

В 9 + что добавили поддержку формата DjVu (поддержка Висты)
В 10 кто-то считает, что с камер лучше распознает. (поддержка Win 7)
А так особой разницы между ними тремя не вижу. ИМХО.

Автор: djshkiper
Дата сообщения: 02.11.2009 11:04

Разница есть, и очень большая. Для этого достаточно один и тот же сложный документ (картинки в тексте, таблицы, графики и т.п.), желательно еще снятый не очень хорошо прогнать по очереди на этих трех версиях.

10 дает лучшие из этих трех вариантов результаты, сам неоднократно проверил.

Автор: Shangry
Дата сообщения: 02.11.2009 17:01

djshkiper

Цитата:

Для этого достаточно один и тот же сложный документ (картинки в тексте, таблицы, графики и т.п.), желательно еще снятый не очень хорошо прогнать по очереди на этих трех версиях.

То есть наконец-то довели до ума разбивку изображения на блоки.

А как 10-я обрабатывает тексты из физматики с формулами?
Если она в состоянии более или менее аккуратно выделять куски страницы с формулами, как картинки, то я с ней дружу. :-)

Автор: bolvanchik
Дата сообщения: 02.11.2009 22:05

Lesmo

Цитата:

bolvanchik, вот ты писал, что "по анализу страницы 10 обходит 8", а в чем конкретно выражается это и насколько это критично вообще? "В основном я сам сканирую книги" - и как в сравнении качества распознаного?

Дело в том, что у меня 9ка стоит... а до этого стояла 7ка (пропустил 8ку за ненадобность FR в свое время, а теперь снова понадобился). Так на чем мне остановиться .... только с обоснованием, если не сложно

Если нужно распознавать плохой скан, то тут ghosty прав - 8-ка справляется на ура. в 9 и 10 - приходится увеличивать разрешение, и то в этом случае неуверенно распознанных символов гораздо больше чем у 8-ки

в 9 изменили интерфейс работы. с большими сканами (более 500 с) работа пошла быстрее (это единственное улучшение, DJVU не считаю, ибо не лениво было разложить его предварительно). чуть-чуть в 9 ухудшился анализ страницы, пропала нужная мне функция - Анализ структуры таблицы (ранее ее можно было делать на текстовом блоке сразу, не определяя тип блока как таблица.

в 10 анализ работает на ура, если объекты крупные (картинки, схемы). если мелкие - то далеко не всегда. хотя и здесь без косяков не обходится. их меньше по сранвнению с остальными версиями

так же в десятке появилась непрятность - при использовании режимов "Точная копия" и "Форматированный текст" очередность блоков в распознанном меняется (при просмотре в Word или Wriiter), по непоятной причине. в остальных двух режимах - все идет гладко. кстати блоки в десятке не нумеруются, а если быть точным - номер виден только в свойствах.
Еще один неприятный момент - теперь при сканировании в десятке невозможно работать с пакетом, в 9 такая возможность была.

Удобство работы является не самым главным показателем, главное ведь в программе - это распознавание

Если нужно что-нибудь проверить - пишите - проверю

Автор: vvvvv2
Дата сообщения: 08.11.2009 02:00

10-версия очень огорчила с таблицами.... Она совершенно игнорирует вручную размеченные таблицы (на строки и столбцы) - многое сваливает в кучу, будто нет отдельных горизонтальных и вертикальных границ разметки... Глюк серьезный.
В целом прога работает мощно - грузит на полную Core i7 и, как минимум, 1 Гб оперативки. Создает 8 потоков на каждый проц. А, вот еще, после обработки и удаления задания, при новой задаче память будто бы не освобождается, т.е. забрав, например, 1,5 Гб при новой задаче начинает увеличиваться от этого значения. А если перезапустить прогу, то начинает с минимума. Так не всегда, но нередко...
Нужно ждать новой сборки...

Автор: domo22
Дата сообщения: 09.11.2009 15:14

Когда я добавляю кучу картинок для последующего распознавания в FineReader 9, то они на ленте выстраиваются правильно - по порядку - 1, 2, 3, и т.д. Когда же смотрю сохраненный проект, там полный беспорядок - только первый файл всегда первый. А вот немного дальше может идти 22, 21 (а не 21, 22) и подобное. Как уберечься от этой ерунды и заставить сабж размещать файлы в каталоге проекта именно по порядку, а не вразброс? Команда "Перенумеровать файлы" не действует или может действует, но на один лишь файл, а меня их сотни и тысячи. Помогите.

Автор: ALEX666999
Дата сообщения: 09.11.2009 16:00

Цитата:

Nikollay: А кто подскажет где можно посмотреть, так называемый ChangeLog , то есть изменения по сравнению с девяткой

Авторы не выкладывают чейнжлоги, пишут, что он есть, но только для внутреннего пользования.

Цитата:

bolvanchik: Если нужно что-нибудь проверить - пишите - проверю

У тебя лицензионная, зарегистрированная версия? Нужно проверить как быстро сохраняются результаты больших пакетов, страниц 100 и более.

Автор: Lesmo
Дата сообщения: 09.11.2009 16:19

0SHV, djshkiper, bolvanchik спасибо большое!

В принципе впечатление от 9-ки у меня по сравнению с той же 7 такое, будто суеты прибавилось при распознавании небольших (5-15 стр) текстов с каждого источника. И никак от этого отделаться не могу. Может я так и не смог полностью "принять" новый интерфейс.

Как сказал vvvvv2, для 10-ки нужен 4 ядерник с гигом-полутора ОП??? Но системные требования-то на сайте производителя - ...Процессор: Компьютер с тактовой частотой процессора 1ГГц или выше. Объем оперативной памяти: не менее 512 Мб, дополнительно для каждого ядра процессора 256 Мб... Минимальные конечно, но не настолько же. Мой PentIV 1,8 ГГц и 512 ОП с WinXP загнется в раз?

Еще такой вопрос: имеем толстую книгу (3-4 см), бумага сероватая, размер шрифта 10. Берем разворот по середине. Как правило, плотно к сканеру приложить всю поверхность разворота не получается и зона переплета по всей высоте книги распознается похуже с неверно распознанными символами. Так как в данном случае 8-ка справляется? 9-ка вроде как почти все видит. Но может косячить в практически безобидной ситуации с более четкими на мой субъективный взгляд символами.

bolvanchik, если не трудно, не мог бы ты снять реальные затраты ЦП и ОП в 9-ке и 8-ке на одних и тех же страницах для сравнения.

Автор: bolvanchik
Дата сообщения: 10.11.2009 11:36

Lesmo

Цитата:

Мой PentIV 1,8 ГГц и 512 ОП с WinXP загнется в раз?

не загнется.

при распознавании FR (любой) проц забивает на 100%

по выделению памяти:
8-ка - 120-150 мб (один процесс)
9-ка - 220-300 мб (три процесса)
10-ка - 250-350 мб (три процесса)
книга - 330 страниц. скорость распознавания не измерял

по распознаванию "загибов" страниц - тут 9 и 10 рельно лучше справляются

Автор: Shangry
Дата сообщения: 10.11.2009 13:12

bolvanchik
Вы уже смотрели, как 10-я распознает технические тексты - с формулами, графиками, диаграммами?
Точнее даже не как распознает, а насколько аккуратно нарезает на блоки?

Если бы FineReader наконец научился аккуратно отделять то, что распознать можно, от того, что пока распознать нельзя - это сняло бы немало проблем. Особенно в текстах набитых мат. формулами.
Пока что во всех версиях на месте "формульных" кусков страницы дикая каша из паршивой разметки на блоки.

Автор: bolvanchik
Дата сообщения: 10.11.2009 13:59

Shangry

Хотел написать много букв, да передумал.
ниже ссылка на архив - сравнивайте. Разрешение - 600dpi.
Во всех случаях использовался набор: Простые химические формулы, Русский и Английский, Греческий языки. (для 8 - Русский, Английский, Греческий)
для выделения блоков использовалось автоопределение

Onlinedisk

Автор: Shangry
Дата сообщения: 10.11.2009 15:26

bolvanchik
Спасибо.

Картинки и таблицы действительно выделяются несколько лучше.
С многоэтажными формулами практически ничего не изменилось - как прежние версии считали их обычным текстом, так и 10-я то же самое.

Формулы идущие внутри текста распознаются немного лучше, но именно немного - без серьезной правки практически не обойдешься.
Символы с верхними и нижними индексами - тоже прежний гармыдр, править надо в трех случаях из четырех.

Спасибо за хорошую идею. Давать, как результат тестирования, вот такие скриншоты похоже гораздо продуктивнее, чем просто описывать происходящее при распознавании.

Еще любопытно - изменили в 10-й что-нибудь, в смысле многочисленных FontStyle*** и Style***, которыми форматировался распознанный текст и которые потом, при экспорте, всей своей свалкой переезжали в Word.
Меня уже изрядно достает переформатирование этого "стихийного бедствия" при копировании куска распознанного в другой документ.

Автор: bolvanchik
Дата сообщения: 10.11.2009 17:20

Цитата:

Еще любопытно - изменили в 10-й что-нибудь, в смысле многочисленных FontStyle*** и Style***, которыми форматировался распознанный текст и которые потом, при экспорте, всей своей свалкой переезжали в Word.
Меня уже изрядно достает переформатирование этого "стихийного бедствия" при копировании куска распознанного в другой документ.

В десятке, в режиме простой текст можно задать свой шрифт. на счёт стиля увы
это не так страшно - можно одним выделением в ворде привести к одному стилю.
Страшнее всего когда передача идет из режима "точная копия". что в 9, что в 10 каждая страница в рамке. это "добивает" иногда.

Автор: PopovSergej
Дата сообщения: 10.11.2009 17:28

bolvanchik 18:20 10-11-2009
Цитата:

Страшнее всего когда передача идет из режима "точная копия". что в 9, что в 10 каждая страница в рамке. это "добивает" иногда.

Действительно раздражает. Неужели никак нельзя избавиться ?

Автор: bolvanchik
Дата сообщения: 10.11.2009 17:50

Цитата:

Действительно раздражает. Неужели никак нельзя избавиться ?

Можно.
1. Выделить весь текст.
2. Формат -Стили и форматирование - на том стиле что выбран - выбрать "очистить формат"
вот только результат будет отображаться по вашему стилю, т.е как настроены они у вас
почти аналогично тексту переданному из режима "простой текст".

Добавлено:
ALEX666999

просмотрел твое сообщение.
нормально сохраняются. тут скорость то не важна. главное - сохранить
p.s. пакет 10-ки меньше, чем у 9 на 6-7%

Автор: ALEX666999
Дата сообщения: 10.11.2009 18:30

Цитата:

bolvanchik: просмотрел твое сообщение.
нормально сохраняются. тут скорость то не важна. главное - сохранить
p.s. пакет 10-ки меньше, чем у 9 на 6-7%

Интересует время сохранения TXT-результата в секундах и именно на лицензионной версии. По моим тестам 9-ка нормально "вылеченная" сохраняет результат пакета 310 файлов за ~7 сек, а 10-ка "сыро-вылеченная" за ~49 сек, то есть в 7 раз дольше + назойливо при этом хрумтит винт, чего не наблюдается на 9-ке. Хочется понять где собака порылась. Я думаю дело в пилюле, продвинутые же во врачевании товарищи говорят, что скорей всего не в ней.

Автор: Lesmo
Дата сообщения: 10.11.2009 18:55

bolvanchik, большое спасибо за тестирование, выручил.

В итоге прихожу к выводу, что оставаться мне надо на 9-ке.
Вопрос тут новый возникает: на какой? У меня сейчас 9.0.0.662. Стгоит ли мне обновляться и на какую именно ревизию. Я слышал, что это имеет значение в FR, как собственно и почти везде. Какая же ревизия в FR в v9 оптимальная?

Автор: ALEX666999
Дата сообщения: 10.11.2009 19:04

Цитата:

Lesmo: Какая же ревизия в FR в v9 оптимальная?

"Оптимальность" - субъективизм. Я бы на твоём месте ставил 9.0.0.1042 и никого не слушал.

Автор: bolvanchik
Дата сообщения: 10.11.2009 19:04

Цитата:

Интересует время сохранения TXT-результата в секундах и именно на лицензионной версии. По моим тестам 9-ка нормально "вылеченная" сохраняет результат пакета 310 файлов за ~7 сек, а 10-ка "сыро-вылеченная" за ~49 сек, то есть в 7 раз дольше + назойливо при этом хрумтит винт, чего не наблюдается на 9-ке. Хочется понять где собака порылась. Я думаю дело в пилюле, продвинутые же во врачевании товарищи говорят, что скорей всего не в ней.

с учётом того, что текст уже сохранялся ранее в doc, получились следующие результаты
330 страниц
9-ка - 24 сек
10-ка - 11 сек

Автор: zhe_zho
Дата сообщения: 10.11.2009 22:36

Цитата:

Я бы на твоём месте ставил 9.0.0.1042 и никого не слушал.

Ну если нужно чтобы работала передача из Screenshot Reader в FineReader то тогда 9.0.0.724, если не обязательно то 9.0.0.1042 (Screenshot Reader для 1042 придётся ставить отдельно).

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104

Предыдущая тема: filesCatalog

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.