» ABBYY FineReader

Автор: Ovsyan
Дата сообщения: 24.02.2011 12:35

KChernov
lucky_Luk
Спасибо за советы, попробую....но всё же очень дискомфортно...особенно когда одна грамота по 100 рублей =(

lucky_Luk
Просто всё время разные грамоты бывают, в год около 10 разновидностей, поэтому каждую подбирать в Ворде около часа уйдёт, а время ой как дорого...сегодня дали, через 1 час извольте подать на подпись 30 штук......

Автор: KChernov
Дата сообщения: 24.02.2011 12:50

Ovsyan

Цитата:

в год около 10 разновидностей, поэтому каждую подбирать в Ворде около часа уйдёт

Потратить 10 часов в год (по часу на разновидность) на макеты - это много?
Как вариант, можно попробовать поискать эти грамоты в виде версий для полиграфии.
Хотя не уверен, что с этим будет проще (и как минимум нужна будет какая-то полиграфическая прога/векторный графический редактор).

Автор: bolvanchik
Дата сообщения: 24.02.2011 14:03

грамотный секретарь делает это в ворде за 10 минут как объяснил KChernov.
контрольный отпечаток на A4. правка (если необходимо) ... и 30 грамот "улетают" как горячие пирожки

Автор: Ovsyan
Дата сообщения: 24.02.2011 16:30

Ребят, а можете ли подсказать программу (полиграфическая прога/векторный графический редактор). Зарание огромное спасибо!!!! А то роюсь уже 3 дня и ничего.....а студенту ой как нужна подработка, особенно секретарём

Автор: KChernov
Дата сообщения: 24.02.2011 22:49

Ovsyan
Adobe InDesign устроит?

Автор: Ovsyan
Дата сообщения: 25.02.2011 15:27

KChernov
Ох...спасибо, попробую Ваш совет (если не разберусь, то отпишусь). Всем большое спасибо, за помощь!!!!!

Автор: PGT
Дата сообщения: 03.03.2011 09:28

Блин поставил ФР10 только потому что прочитал о сканировании разворотов без затемнений , ток в самой проге никак не найду как это сделать .

Автор: Astra55
Дата сообщения: 03.03.2011 10:18

PGT
Где это Вы такое чудо обнаружили? Не верю! (с) Этого не может быть, потому что не может быть никогда.

Автор: Shangry
Дата сообщения: 03.03.2011 13:32

Astra55

Цитата:

Этого не может быть, потому что не может быть никогда

А что здесь особо невозможного?
Обыкновенная доводка скана на предмет зачистки заданных областей. Во многих профессиональных скан-программах такое уж не помню сколько лет имеется, как штатная функция.

Автор: Astra55
Дата сообщения: 03.03.2011 14:16

Shangry
Не путайте кислое с мягким, то бишь, железо с софтом. Профессиональные софты идут с профессиональными сканерами, а ФР работает с чем попало.

Автор: Shangry
Дата сообщения: 03.03.2011 17:57

Цитата:

Профессиональные софты идут с профессиональными сканерами, а ФР работает с чем попало.

Я у ABBYY на "кухню" не заглядывал, так что судить не берусь.

Но если какая-то возможность была реализована в сканирующих программах (именно в программах, а не в микрокоде сканеров) еще в конце 90-х, то не вижу что может помешать народу реализовать ее еще раз сейчас.

Это вполне мог бы даже Болега у себя в Сканкромсаторе сделать, если бы вдруг такое в голову пришло (а м.б. и сделал - там много чего заряжено). А уж большая софт-контора - и подавно.

Автор: Jans
Дата сообщения: 05.03.2011 06:57

подскажите, ни с того, ни с сего, при сканинге и дальнейшей передаче в M$Word(2010) прога стала вываливать ошибку

то же и в 10-ке

Автор: Shangry
Дата сообщения: 09.03.2011 16:53

Так обычно выглядят окошки про ошибки отработки кода программы. Поэтому кроме самих разработчиков вряд ли кто разберется.

От себя могу предложить не "передавать в Word", а сохранить распознанное в DOC/RTF/DOCX, а потом открыть в том же Word.

Автор: Arech
Дата сообщения: 09.03.2011 21:31

Здравствуйте!

Распознаю документы и хочу сохранять их в виде "картинка поверх текста", т.к. очень часто субж не распознаёт то, что человек прекрасно понимает. Т.е. я хочу, чтобы читатель видел исходную картинку, а локальный поисковик бы ещё видел распознаный текст, который можно индексировать. Допустим, картиночный pdf -> pdf "картинка+текст" или djvu->pdf "картинка+текст".

Но совершенно не устраивает то, как в дефолтном виде сохраняет документы субж версии 10...130. Он почему-то сохраняет в качестве картинки преобразованное однобитное изображение, которое видимо поступает на вход алгоритма распознавания. Соответственно, для человека качество такой картинки в высшей степени мерзостное, вместо полутонов - рваные края. Уже, по моему, все 100500 вариантов настроек перепробовал, чтобы заставить субж сохранять исходную картинку, но никакого результата

Подскажите, пожалуйста, как сделать так, чтобы в качестве картинки сохранялся бы исходник, а не рваная порнография?

Автор: Shangry
Дата сообщения: 10.03.2011 13:32

Цитата:

Подскажите, пожалуйста, как сделать так, чтобы в качестве картинки сохранялся бы исходник, а не рваная порнография?

Поставить в настройках выводного формата нужную разновидность графики. Сейчас там похоже что-нибудь вроде TIFF G4, ну так замените его на то, что вам требуется.

Автор: Collapse Troll
Дата сообщения: 10.03.2011 16:06

Добрый день!

Подскажите пожалуйста - можно прикрутить Finereader к своей собственной программулине? или для этого нужно использовать только Engine

Автор: Arech
Дата сообщения: 10.03.2011 16:08

Цитата:

Поставить в настройках выводного формата нужную разновидность графики. Сейчас там похоже что-нибудь вроде TIFF G4, ну так замените его на то, что вам требуется.

Где это?
Опции/Сохранить/PDF/Качество картинок ? Пробовал все варианты ставить - результат одинаковый... (формат сохранения - "текст под изображением страницы" - картинка страницы нужна наверху, её должен видеть юзер)

Если сделать формат "текст поверх изображения страницы", то для глаза, конечно, приятно, но вылазят все косяки распознавания, а мне распознавание нужно только для возможности индексации поисковиком и этот вариант не подходит.

Автор: Shangry
Дата сообщения: 10.03.2011 17:14

Где-то рядом с "Опции/Сохранить/PDF/Качество картинок" должно быть окошко для выбора формата (оно обычно так и подписано "Формат").

Автор: Arech
Дата сообщения: 10.03.2011 19:06

Цитата:

Где-то рядом с "Опции/Сохранить/PDF/Качество картинок" должно быть окошко для выбора формата (оно обычно так и подписано "Формат").

Нет у меня такого... Есть только дропдаун "Качество картинок", где 4 варианта - низкое/среднее/высокое/пользовательское. При выборе "пользовательского" появляется диалог где можно указать разрешение картинок (96/200/300dpi/оригинал) и формат. В формате стоит "JPEG, цветной (для фотографий)", ползунок качество - 80%.
И в результате всё равно, текст который я ожидаю видеть качественной картинкой, отображается рваной однобитной низкокачественной картинкой. Если сделать увеличение побольше, то четкие границы пикселей, составляющих буквы, становятся очень хорошо видны. А должны быть - полутоновые переходы.

Что тут не так? Скрины настроек и результата сделать?

Добавлено:
ADD: причём даже цветный картинки он при это сохраняет черно-белыми однобитными. Что за *&$&#%*&@$ !!!

Автор: zhe_zho
Дата сообщения: 10.03.2011 23:57

Arech Скрин из 8 версии

http://s008.radikal.ru/i305/1103/8a/05e5c4a76f6b.png

Автор: Arech
Дата сообщения: 11.03.2011 09:58

Цитата:

zhe_zho

, спасибо, у меня иначе:

Настройки ( http://i064.radikal.ru/1103/1f/72e8ed742bcd.jpg )

Исходная картинка текста и результат даю ссылкой http://s19.radikal.ru/i192/1103/de/75a60b5e7bce.jpg , 84кб, но широкая, может порвать разметку форума.

Причём, ЧСХ, так поганит она только области текста (такое впечатление, что в качестве картинки оно сохраняет специально подготовленное однобитное изображение, которое скармливается распознавателю. Реальные картинки, которые и были в исходном тексте картинками передаются нормально, с теми настройками, что указаны. А на отображение картинкой текста похоже настройки вообще никак не влияют.

Либо я что-то не так делаю, либо глюк в программе. Но раз никто больше не ругается, видимо это я где-то косячу, вопрос где?

Добавлено:
Бииииип... Кажется нашёл...
Очень говорящая настройка:
---------------
Использовать смешанное растровое содержание (MRC)
Отметьте эту опцию, если вы хотите, чтобы при сильном сжатии документа сохранилось высокое качество текста и изображений. В результате размер конечного файла будет небольшим, а качество текста и иллюстраций будет высоким.
--------------
Как это я сразу не догадался? Ну очевидно же, хочешь нормальное качество картинки текста - отключай настройку, которая это качество типа повышает!

Она и есть главное зло. Отключил её и стало сохраняться нормально с полутонами, теперь глаза не режет.

Большое все спасибо за участие, может кому мой опыт пригодится, нигде о таком не видел.

------------------------------------------------------------

Другой вопрос по распознаванию

У меня есть довольно странные документы в PDF, в которых есть страницы полностью распознанные, а есть не распознанные вообще. Вопрос: а есть ли тулзы чтобы программно прошерстить всю библиотеку и хотя бы просто отобрать подобные документы? Глазками я умру их выискивать....

Автор: Shangry
Дата сообщения: 11.03.2011 14:44

Arech

Цитата:

Нет у меня такого...

Значит это проблема версии.
В восьмой есть, в девятой - точно не помню, но вроде должен быть, десятую не смотрел. Если там нет, значит ABBYY в неизмеримой мудрости своей, решила, что пользователю такое усложнение интерфейса нафиг не нужно.

Цитата:

Использовать смешанное растровое содержание (MRC)

Это появилось начиная с девятой версии. Что-то вроде DjVu или LDF, только в зачаточном состоянии (в смысле качества деления на слои). Выходной результат - обычно так себе (в чем вы наглядно убедились).
Причем то, что на приведенной вами картинке - это еще из разряда "очень прилично".

Добавлено:

Цитата:

У меня есть довольно странные документы в PDF, в которых есть страницы полностью распознанные, а есть не распознанные вообще. Вопрос: а есть ли тулзы чтобы программно прошерстить всю библиотеку и хотя бы просто отобрать подобные документы?

На предмет чего?
В смысле, может ваша задача решаема и без такой рассортировки.

Автор: Arech
Дата сообщения: 11.03.2011 16:20

Цитата:

Цитата:
У меня есть довольно странные документы в PDF, в которых есть страницы полностью распознанные, а есть не распознанные вообще. Вопрос: а есть ли тулзы чтобы программно прошерстить всю библиотеку и хотя бы просто отобрать подобные документы?

На предмет чего?
В смысле, может ваша задача решаема и без такой рассортировки.

Я хочу иметь полный поиск по своей библиотеке. Для этого нужно, чтобы весь текст в документах был бы индексируемым. Соответственно, в тех документах, где есть нераспознанные страницы - текст на таких страницах идексирован не будет и поиска по ним тоже не будет, а это не айс.
Поэтому, в идеале, мне надо найти только нераспознанные страницы во всех документах библиотеки, распознать их и вставить обратно на своё место уже вместе с подложенным текстом. Ну или хотя бы просто отобрать документы с нераспознанными страницами из всего массива документов в библиотеке, о чём я и спрашиваю

Я понимаю, что задачка на самом деле совсем не такая простая, как кажется, ибо требуется программно различить наличие текста на странице (ведь на странице может быть, например, фотография, которую и не надо распознавать), но совершенно уверен, что она решаема с приемлемой точностью (собсно файнридер решает её в процессе препроцессинга при определении текстовых зон на картинке).

Альтернативой является полный прогон распознавалки по всей библиотеке, но что-то мне не хочется на неделю комп загружать, да и размер уже правильно распознанных или чисто текстовых файлов от этой операции только разбухнет (ибо придётся сохранять в виде "текст под картинкой").

Что думаете?

Автор: regist123
Дата сообщения: 11.03.2011 17:24

решил с помощью FR10 распознать отсканированный текст с нестарным шрифтом (имитация рукописного английского), разумеется на автомате на выходе практически чушь. Запустил режим обучения пользовательского эталона обучил его одной странице, запускаю опять на автомате эту же страницу указываю использовать только пользовальский эталон, распознал но опять довольно скверно. В чем дело не подскажете?

Потом ещё вопрос (он интересует ещё больше) шрифт хоть и имитация под рукописный, но печатный, тоесть все буквы написаны одинаковые. Следовательно по идее я ему раз десять к примеру должен указать, что это буква "а", а это буква "б" а на он уже должен ведь сам её распознавать ? а пока он просто мне подставляет вариант этой буквы и мне надо жать обучить, я уже даже практически не смотрюна автомате жму обучить, он довольно грамотно их узнаёт но спрашивает у меня. Как сделать чтоб те буквы которые о уже запомнил (наверно есть у программы возможность отличить уверенно распознанные буквы от сомнительно) и чтоб он меня про эти буквы уже не спрашивал а автоматом их опознавал. Заранее спасибо ответ.

Добавлено:
и ещё один вопрос, можно ли как-то во время обучения программы сохранить промежуточный результат, а потом продолжить её обучать с этого места.

Автор: Shangry
Дата сообщения: 11.03.2011 17:55

Arech
Вообще-то подобные задачи решаемы и другими способами. Например, находите PDF-софт со встроенной распознавалкой и умеющий работать в пакетном режиме, скармливаете ему ваши запасы и через какое-то время задача решена.
Времени на это уходит от 20-30 минут на книгу средней толщины (300-400 стр).

Плюс - никакой ручной возни с выяснением "это уже делалось или нет?". Минус - текст получается без вычитки.

А такой софт, чтобы проверил весь ваш PDF-запасник и на каждой странице поставил пометку "распознана/не распознана" IMHO вряд ли существует.
Если же надо просто отделить PDF, в которых вообще не делалось OCR, от PDF, в которых хоть что-то распознано, то проще всего просмотреть код файла в поисках модуля распознанного текста (TC/Far --> F3, дальше запускаете поиск). За час-другой думаю вполне разберетесь.

Автор: freesmart
Дата сообщения: 29.03.2011 10:45

Имеется связка - МФУ Samsung SCX4201 - принт сервер TP-Link - FineReader9 при сканировании в режиме "черно-белое" сканирование происходит нормально, при попытке отсканировать цветное изображение (в настройках указывается "цветное изображение") изображение заливается неравномерным фоном. При сканировании штатным средством сканируется нормально хоть цветное хоть черно белое. для примера выкладываю примеры сканов:
http://s49.radikal.ru/i123/1103/86/2803062a5ecb.jpg - скан в черно белом режиме
http://s39.radikal.ru/i085/1103/b1/e02e1784cbf2.jpg - скан в режиме "цветное изображение"
пробовал менять другие параметры сканироваия (разрешение например) не помогает.
если принтер подключить локально к ПК то FineReader сканирует нормально. Подскажите куда копать, хотелось бы сканировать через fineReader

Автор: LacettiRED
Дата сообщения: 02.04.2011 11:47

Как мне распознать книгу (E-book)? запускается как ехе файл (500Мб); имеет много страниц; каждая страница размером больше экрана;естественно не копируется обычным копи-пастом; есть способ распознать книгу автоматически всю или хотя бы постранично?
книга создана так:сначала отформатирована в html с помощью программы Adobe Dreamweaver и оформлена окончательная версия книги в txt формате – Activ E-Book Compiler. Вот как подготовить для печати отдельные её страницы? Надо сначала распознать всю книгу и выборочно распечатать страницы; как распознать? можно конечно SNAGIT'om или подобным, но мб есть возможность открыть книгу и снять защиту от копирования?

Автор: Astra55
Дата сообщения: 02.04.2011 12:42

LacettiRED
http://forum.xakep.ru/m_773207/tm.htm

Автор: LacettiRED
Дата сообщения: 02.04.2011 15:14

Astra55
запускаю epr07.rar и сбрасываю пароли, но при попытке Открыть книгу,выдаёт ошибку и завершает работу
правда в 1й раз ошибку не выдавала, а зависла надолго;пришлось принудительно сбросить; а потом ошибки стала выдавать; косяк )

Автор: Astra55
Дата сообщения: 02.04.2011 16:51

LacettiRED
http://forum.ru-board.com/topic.cgi?forum=55&topic=4450&start=1080#1

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104

Предыдущая тема: filesCatalog

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.