А кто подскажет где можно посмотреть, так называемый ChangeLog , то есть изменения по сравнению с девяткой
» ABBYY FineReader
Всем привет! Народ, так все же объективно, какая версия лучше 8, 9 или 10, если книги да журналы сканировать?
bolvanchik, вот ты писал, что "по анализу страницы 10 обходит 8", а в чем конкретно выражается это и насколько это критично вообще? "В основном я сам сканирую книги" - и как в сравнении качества распознаного?
Дело в том, что у меня 9ка стоит... а до этого стояла 7ка (пропустил 8ку за ненадобность FR в свое время, а теперь снова понадобился). Так на чем мне остановиться .... только с обоснованием, если не сложно
bolvanchik, вот ты писал, что "по анализу страницы 10 обходит 8", а в чем конкретно выражается это и насколько это критично вообще? "В основном я сам сканирую книги" - и как в сравнении качества распознаного?
Дело в том, что у меня 9ка стоит... а до этого стояла 7ка (пропустил 8ку за ненадобность FR в свое время, а теперь снова понадобился). Так на чем мне остановиться .... только с обоснованием, если не сложно
FR 10 распознает страницу как альбомную, а мне нужна обычная, не могу найти как её развернуть.
PMRaven666
Может в окне "Открыть изображение" нужно снять галочки "Определять ориентацию страницы" и "Выполнять предобработку изображений" ?
Может в окне "Открыть изображение" нужно снять галочки "Определять ориентацию страницы" и "Выполнять предобработку изображений" ?
shengjeng
Цитата:
снята
Цитата:
Может в окне "Открыть изображение" нужно снять галочки "Определять ориентацию страницы"
снята
PMRaven666
Да, попробовал распознать страницу, у которой ширина больше, чем высота - при сохранении в Word у нее определяеться альбомная ориентация.
Думаю, можна пойти обходным путем - сохранять в формате HTML и затем копировать в Word или просто копипейстить в Word из окна "Текст".
Да, попробовал распознать страницу, у которой ширина больше, чем высота - при сохранении в Word у нее определяеться альбомная ориентация.
Думаю, можна пойти обходным путем - сохранять в формате HTML и затем копировать в Word или просто копипейстить в Word из окна "Текст".
shengjeng
Цитата:
Книга стандартная (415) страниц, FR одну часть сделал альбомом другую в оригинале. Вот и супер распознавалка.
Цитата:
Да, попробовал распознать страницу, у которой ширина больше, чем высота
Книга стандартная (415) страниц, FR одну часть сделал альбомом другую в оригинале. Вот и супер распознавалка.
Цитата:
Пока 10ю версию не спёрли, есть несколько вопросов по поводу 9й версии.
1. Как увеличить масштаб страницы в "Редактировании изображения"? (надо аккуратно подчистить мусор ластиком, а изображение очень мелкое)
Если так нужен ластик - добавьте кастомайзом эту команду на тулбар и пользуйтесь ей в не в редакторе изображений а в окне изображение.
Заметил такую фишку: если образ страницы положить набок и задать повернутый текст, то формат страницы распознается как положено.
ireg
Спасибо за совет - реально можно добавить кнопку.
В 10й версии, надеюсь, всё так же делается, или еще сюрпризов ждать?
Спасибо за совет - реально можно добавить кнопку.
В 10й версии, надеюсь, всё так же делается, или еще сюрпризов ждать?
Lesmo
Цитата:
В 9 + что добавили поддержку формата DjVu (поддержка Висты)
В 10 кто-то считает, что с камер лучше распознает. (поддержка Win 7)
А так особой разницы между ними тремя не вижу. ИМХО.
Цитата:
какая версия лучше 8, 9 или 10, если книги да журналы сканировать?
В 9 + что добавили поддержку формата DjVu (поддержка Висты)
В 10 кто-то считает, что с камер лучше распознает. (поддержка Win 7)
А так особой разницы между ними тремя не вижу. ИМХО.
Разница есть, и очень большая. Для этого достаточно один и тот же сложный документ (картинки в тексте, таблицы, графики и т.п.), желательно еще снятый не очень хорошо прогнать по очереди на этих трех версиях.
10 дает лучшие из этих трех вариантов результаты, сам неоднократно проверил.
10 дает лучшие из этих трех вариантов результаты, сам неоднократно проверил.
djshkiper
Цитата:
То есть наконец-то довели до ума разбивку изображения на блоки.
А как 10-я обрабатывает тексты из физматики с формулами?
Если она в состоянии более или менее аккуратно выделять куски страницы с формулами, как картинки, то я с ней дружу. :-)
Цитата:
Для этого достаточно один и тот же сложный документ (картинки в тексте, таблицы, графики и т.п.), желательно еще снятый не очень хорошо прогнать по очереди на этих трех версиях.
То есть наконец-то довели до ума разбивку изображения на блоки.
А как 10-я обрабатывает тексты из физматики с формулами?
Если она в состоянии более или менее аккуратно выделять куски страницы с формулами, как картинки, то я с ней дружу. :-)
Lesmo
Цитата:
Если нужно распознавать плохой скан, то тут ghosty прав - 8-ка справляется на ура. в 9 и 10 - приходится увеличивать разрешение, и то в этом случае неуверенно распознанных символов гораздо больше чем у 8-ки
в 9 изменили интерфейс работы. с большими сканами (более 500 с) работа пошла быстрее (это единственное улучшение, DJVU не считаю, ибо не лениво было разложить его предварительно). чуть-чуть в 9 ухудшился анализ страницы, пропала нужная мне функция - Анализ структуры таблицы (ранее ее можно было делать на текстовом блоке сразу, не определяя тип блока как таблица.
в 10 анализ работает на ура, если объекты крупные (картинки, схемы). если мелкие - то далеко не всегда. хотя и здесь без косяков не обходится. их меньше по сранвнению с остальными версиями
так же в десятке появилась непрятность - при использовании режимов "Точная копия" и "Форматированный текст" очередность блоков в распознанном меняется (при просмотре в Word или Wriiter), по непоятной причине. в остальных двух режимах - все идет гладко. кстати блоки в десятке не нумеруются, а если быть точным - номер виден только в свойствах.
Еще один неприятный момент - теперь при сканировании в десятке невозможно работать с пакетом, в 9 такая возможность была.
Удобство работы является не самым главным показателем, главное ведь в программе - это распознавание
Если нужно что-нибудь проверить - пишите - проверю
Цитата:
bolvanchik, вот ты писал, что "по анализу страницы 10 обходит 8", а в чем конкретно выражается это и насколько это критично вообще? "В основном я сам сканирую книги" - и как в сравнении качества распознаного?
Дело в том, что у меня 9ка стоит... а до этого стояла 7ка (пропустил 8ку за ненадобность FR в свое время, а теперь снова понадобился). Так на чем мне остановиться .... только с обоснованием, если не сложно
Если нужно распознавать плохой скан, то тут ghosty прав - 8-ка справляется на ура. в 9 и 10 - приходится увеличивать разрешение, и то в этом случае неуверенно распознанных символов гораздо больше чем у 8-ки
в 9 изменили интерфейс работы. с большими сканами (более 500 с) работа пошла быстрее (это единственное улучшение, DJVU не считаю, ибо не лениво было разложить его предварительно). чуть-чуть в 9 ухудшился анализ страницы, пропала нужная мне функция - Анализ структуры таблицы (ранее ее можно было делать на текстовом блоке сразу, не определяя тип блока как таблица.
в 10 анализ работает на ура, если объекты крупные (картинки, схемы). если мелкие - то далеко не всегда. хотя и здесь без косяков не обходится. их меньше по сранвнению с остальными версиями
так же в десятке появилась непрятность - при использовании режимов "Точная копия" и "Форматированный текст" очередность блоков в распознанном меняется (при просмотре в Word или Wriiter), по непоятной причине. в остальных двух режимах - все идет гладко. кстати блоки в десятке не нумеруются, а если быть точным - номер виден только в свойствах.
Еще один неприятный момент - теперь при сканировании в десятке невозможно работать с пакетом, в 9 такая возможность была.
Удобство работы является не самым главным показателем, главное ведь в программе - это распознавание
Если нужно что-нибудь проверить - пишите - проверю
10-версия очень огорчила с таблицами.... Она совершенно игнорирует вручную размеченные таблицы (на строки и столбцы) - многое сваливает в кучу, будто нет отдельных горизонтальных и вертикальных границ разметки... Глюк серьезный.
В целом прога работает мощно - грузит на полную Core i7 и, как минимум, 1 Гб оперативки. Создает 8 потоков на каждый проц. А, вот еще, после обработки и удаления задания, при новой задаче память будто бы не освобождается, т.е. забрав, например, 1,5 Гб при новой задаче начинает увеличиваться от этого значения. А если перезапустить прогу, то начинает с минимума. Так не всегда, но нередко...
Нужно ждать новой сборки...
В целом прога работает мощно - грузит на полную Core i7 и, как минимум, 1 Гб оперативки. Создает 8 потоков на каждый проц. А, вот еще, после обработки и удаления задания, при новой задаче память будто бы не освобождается, т.е. забрав, например, 1,5 Гб при новой задаче начинает увеличиваться от этого значения. А если перезапустить прогу, то начинает с минимума. Так не всегда, но нередко...
Нужно ждать новой сборки...
Когда я добавляю кучу картинок для последующего распознавания в FineReader 9, то они на ленте выстраиваются правильно - по порядку - 1, 2, 3, и т.д. Когда же смотрю сохраненный проект, там полный беспорядок - только первый файл всегда первый. А вот немного дальше может идти 22, 21 (а не 21, 22) и подобное. Как уберечься от этой ерунды и заставить сабж размещать файлы в каталоге проекта именно по порядку, а не вразброс? Команда "Перенумеровать файлы" не действует или может действует, но на один лишь файл, а меня их сотни и тысячи. Помогите.
Цитата:
Nikollay: А кто подскажет где можно посмотреть, так называемый ChangeLog , то есть изменения по сравнению с девяткой
Авторы не выкладывают чейнжлоги, пишут, что он есть, но только для внутреннего пользования.
Цитата:
bolvanchik: Если нужно что-нибудь проверить - пишите - проверю
У тебя лицензионная, зарегистрированная версия? Нужно проверить как быстро сохраняются результаты больших пакетов, страниц 100 и более.
0SHV, djshkiper, bolvanchik спасибо большое!
В принципе впечатление от 9-ки у меня по сравнению с той же 7 такое, будто суеты прибавилось при распознавании небольших (5-15 стр) текстов с каждого источника. И никак от этого отделаться не могу. Может я так и не смог полностью "принять" новый интерфейс.
Как сказал vvvvv2, для 10-ки нужен 4 ядерник с гигом-полутора ОП??? Но системные требования-то на сайте производителя - ...Процессор: Компьютер с тактовой частотой процессора 1ГГц или выше. Объем оперативной памяти: не менее 512 Мб, дополнительно для каждого ядра процессора 256 Мб... Минимальные конечно, но не настолько же. Мой PentIV 1,8 ГГц и 512 ОП с WinXP загнется в раз?
Еще такой вопрос: имеем толстую книгу (3-4 см), бумага сероватая, размер шрифта 10. Берем разворот по середине. Как правило, плотно к сканеру приложить всю поверхность разворота не получается и зона переплета по всей высоте книги распознается похуже с неверно распознанными символами. Так как в данном случае 8-ка справляется? 9-ка вроде как почти все видит. Но может косячить в практически безобидной ситуации с более четкими на мой субъективный взгляд символами.
bolvanchik, если не трудно, не мог бы ты снять реальные затраты ЦП и ОП в 9-ке и 8-ке на одних и тех же страницах для сравнения.
В принципе впечатление от 9-ки у меня по сравнению с той же 7 такое, будто суеты прибавилось при распознавании небольших (5-15 стр) текстов с каждого источника. И никак от этого отделаться не могу. Может я так и не смог полностью "принять" новый интерфейс.
Как сказал vvvvv2, для 10-ки нужен 4 ядерник с гигом-полутора ОП??? Но системные требования-то на сайте производителя - ...Процессор: Компьютер с тактовой частотой процессора 1ГГц или выше. Объем оперативной памяти: не менее 512 Мб, дополнительно для каждого ядра процессора 256 Мб... Минимальные конечно, но не настолько же. Мой PentIV 1,8 ГГц и 512 ОП с WinXP загнется в раз?
Еще такой вопрос: имеем толстую книгу (3-4 см), бумага сероватая, размер шрифта 10. Берем разворот по середине. Как правило, плотно к сканеру приложить всю поверхность разворота не получается и зона переплета по всей высоте книги распознается похуже с неверно распознанными символами. Так как в данном случае 8-ка справляется? 9-ка вроде как почти все видит. Но может косячить в практически безобидной ситуации с более четкими на мой субъективный взгляд символами.
bolvanchik, если не трудно, не мог бы ты снять реальные затраты ЦП и ОП в 9-ке и 8-ке на одних и тех же страницах для сравнения.
Lesmo
Цитата:
Мой PentIV 1,8 ГГц и 512 ОП с WinXP загнется в раз?
не загнется.
при распознавании FR (любой) проц забивает на 100%
по выделению памяти:
8-ка - 120-150 мб (один процесс)
9-ка - 220-300 мб (три процесса)
10-ка - 250-350 мб (три процесса)
книга - 330 страниц. скорость распознавания не измерял
по распознаванию "загибов" страниц - тут 9 и 10 рельно лучше справляются
bolvanchik
Вы уже смотрели, как 10-я распознает технические тексты - с формулами, графиками, диаграммами?
Точнее даже не как распознает, а насколько аккуратно нарезает на блоки?
Если бы FineReader наконец научился аккуратно отделять то, что распознать можно, от того, что пока распознать нельзя - это сняло бы немало проблем. Особенно в текстах набитых мат. формулами.
Пока что во всех версиях на месте "формульных" кусков страницы дикая каша из паршивой разметки на блоки.
Вы уже смотрели, как 10-я распознает технические тексты - с формулами, графиками, диаграммами?
Точнее даже не как распознает, а насколько аккуратно нарезает на блоки?
Если бы FineReader наконец научился аккуратно отделять то, что распознать можно, от того, что пока распознать нельзя - это сняло бы немало проблем. Особенно в текстах набитых мат. формулами.
Пока что во всех версиях на месте "формульных" кусков страницы дикая каша из паршивой разметки на блоки.
Shangry
Хотел написать много букв, да передумал.
ниже ссылка на архив - сравнивайте. Разрешение - 600dpi.
Во всех случаях использовался набор: Простые химические формулы, Русский и Английский, Греческий языки. (для 8 - Русский, Английский, Греческий)
для выделения блоков использовалось автоопределение
Onlinedisk
Хотел написать много букв, да передумал.
ниже ссылка на архив - сравнивайте. Разрешение - 600dpi.
Во всех случаях использовался набор: Простые химические формулы, Русский и Английский, Греческий языки. (для 8 - Русский, Английский, Греческий)
для выделения блоков использовалось автоопределение
Onlinedisk
bolvanchik
Спасибо.
Картинки и таблицы действительно выделяются несколько лучше.
С многоэтажными формулами практически ничего не изменилось - как прежние версии считали их обычным текстом, так и 10-я то же самое.
Формулы идущие внутри текста распознаются немного лучше, но именно немного - без серьезной правки практически не обойдешься.
Символы с верхними и нижними индексами - тоже прежний гармыдр, править надо в трех случаях из четырех.
Спасибо за хорошую идею. Давать, как результат тестирования, вот такие скриншоты похоже гораздо продуктивнее, чем просто описывать происходящее при распознавании.
Еще любопытно - изменили в 10-й что-нибудь, в смысле многочисленных FontStyle*** и Style***, которыми форматировался распознанный текст и которые потом, при экспорте, всей своей свалкой переезжали в Word.
Меня уже изрядно достает переформатирование этого "стихийного бедствия" при копировании куска распознанного в другой документ.
Спасибо.
Картинки и таблицы действительно выделяются несколько лучше.
С многоэтажными формулами практически ничего не изменилось - как прежние версии считали их обычным текстом, так и 10-я то же самое.
Формулы идущие внутри текста распознаются немного лучше, но именно немного - без серьезной правки практически не обойдешься.
Символы с верхними и нижними индексами - тоже прежний гармыдр, править надо в трех случаях из четырех.
Спасибо за хорошую идею. Давать, как результат тестирования, вот такие скриншоты похоже гораздо продуктивнее, чем просто описывать происходящее при распознавании.
Еще любопытно - изменили в 10-й что-нибудь, в смысле многочисленных FontStyle*** и Style***, которыми форматировался распознанный текст и которые потом, при экспорте, всей своей свалкой переезжали в Word.
Меня уже изрядно достает переформатирование этого "стихийного бедствия" при копировании куска распознанного в другой документ.
Цитата:
Еще любопытно - изменили в 10-й что-нибудь, в смысле многочисленных FontStyle*** и Style***, которыми форматировался распознанный текст и которые потом, при экспорте, всей своей свалкой переезжали в Word.
Меня уже изрядно достает переформатирование этого "стихийного бедствия" при копировании куска распознанного в другой документ.
В десятке, в режиме простой текст можно задать свой шрифт. на счёт стиля увы
это не так страшно - можно одним выделением в ворде привести к одному стилю.
Страшнее всего когда передача идет из режима "точная копия". что в 9, что в 10 каждая страница в рамке. это "добивает" иногда.
bolvanchik 18:20 10-11-2009
Цитата:
Действительно раздражает. Неужели никак нельзя избавиться ?
Цитата:
Страшнее всего когда передача идет из режима "точная копия". что в 9, что в 10 каждая страница в рамке. это "добивает" иногда.
Действительно раздражает. Неужели никак нельзя избавиться ?
Цитата:
Действительно раздражает. Неужели никак нельзя избавиться ?
Можно.
1. Выделить весь текст.
2. Формат -Стили и форматирование - на том стиле что выбран - выбрать "очистить формат"
вот только результат будет отображаться по вашему стилю, т.е как настроены они у вас
почти аналогично тексту переданному из режима "простой текст".
Добавлено:
ALEX666999
просмотрел твое сообщение.
нормально сохраняются. тут скорость то не важна. главное - сохранить
p.s. пакет 10-ки меньше, чем у 9 на 6-7%
Цитата:
bolvanchik: просмотрел твое сообщение.
нормально сохраняются. тут скорость то не важна. главное - сохранить
p.s. пакет 10-ки меньше, чем у 9 на 6-7%
Интересует время сохранения TXT-результата в секундах и именно на лицензионной версии. По моим тестам 9-ка нормально "вылеченная" сохраняет результат пакета 310 файлов за ~7 сек, а 10-ка "сыро-вылеченная" за ~49 сек, то есть в 7 раз дольше + назойливо при этом хрумтит винт, чего не наблюдается на 9-ке. Хочется понять где собака порылась. Я думаю дело в пилюле, продвинутые же во врачевании товарищи говорят, что скорей всего не в ней.
bolvanchik, большое спасибо за тестирование, выручил.
В итоге прихожу к выводу, что оставаться мне надо на 9-ке.
Вопрос тут новый возникает: на какой? У меня сейчас 9.0.0.662. Стгоит ли мне обновляться и на какую именно ревизию. Я слышал, что это имеет значение в FR, как собственно и почти везде. Какая же ревизия в FR в v9 оптимальная?
В итоге прихожу к выводу, что оставаться мне надо на 9-ке.
Вопрос тут новый возникает: на какой? У меня сейчас 9.0.0.662. Стгоит ли мне обновляться и на какую именно ревизию. Я слышал, что это имеет значение в FR, как собственно и почти везде. Какая же ревизия в FR в v9 оптимальная?
Цитата:
Lesmo: Какая же ревизия в FR в v9 оптимальная?
"Оптимальность" - субъективизм. Я бы на твоём месте ставил 9.0.0.1042 и никого не слушал.
Цитата:
Интересует время сохранения TXT-результата в секундах и именно на лицензионной версии. По моим тестам 9-ка нормально "вылеченная" сохраняет результат пакета 310 файлов за ~7 сек, а 10-ка "сыро-вылеченная" за ~49 сек, то есть в 7 раз дольше + назойливо при этом хрумтит винт, чего не наблюдается на 9-ке. Хочется понять где собака порылась. Я думаю дело в пилюле, продвинутые же во врачевании товарищи говорят, что скорей всего не в ней.
с учётом того, что текст уже сохранялся ранее в doc, получились следующие результаты
330 страниц
9-ка - 24 сек
10-ка - 11 сек
Цитата:
Я бы на твоём месте ставил 9.0.0.1042 и никого не слушал.
Ну если нужно чтобы работала передача из Screenshot Reader в FineReader то тогда 9.0.0.724, если не обязательно то 9.0.0.1042 (Screenshot Reader для 1042 придётся ставить отдельно).
Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104
Предыдущая тема: filesCatalog
Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.