» ABBYY FineReader

Автор: popop
Дата сообщения: 10.11.2010 10:09

Astra55

Спасибо, ознакомлюсь.

Shangry

Да, со ссылкой ошибся. Вот рабочая:
http://rutracker.org/forum/viewtopic.php?t=2329060

Да, "как книгой" - не вполне корректное выражение: подразумевается пользование содержанием, алфавитным указателем и т.п., т.е. сохранение нумерации страниц. В отсальном, полагаю, похожесть на оригинал даже вредна. Мне, в целом, нравится вариант, используемый в онлайн-библиотеках ( pedlib.ru ).

Автор: popop
Дата сообщения: 10.11.2010 22:37

З..Ы. Надо поясненить следующее: выше я описал проблематику очень философски глобально. Начав читать Г. Неимущего, понял, что занимаюсь немного другим. Лично я сторонник djvu с текстовым слоем (и аудиокниг). Остальные форматы создаются как побочный продукт при получении текстового слоя в файнридере (до освоения технологии внедрения текстового слоя - как вспомогательные файлы для поиска по тексту).
Недавно сам столкнулся с единственно нужным мне свойством doc-файлов - удобство заимствования. Сделанными автоматически текстовыми файлами пользоваться побоялся - перераспознал экспортированные из djvu страницы и проверил всё неуверенно распознанное... Т.е. этот мой опыт и жалобы скачавших в doc-формате требуют от меня либо полностью отказаться от создания бесполезных файлов либо найти способ сделать их полезными. Вычитка, понятно, будет проводиться...
*отправился дочитывать Г. Неимущего*

Автор: Vivien
Дата сообщения: 11.11.2010 23:52

Господа, давно не пользовалась. Какая-нибудь версия на Win 7 работает?

Автор: Shangry
Дата сообщения: 12.11.2010 15:05

Цитата:

Какая-нибудь версия на Win 7 работает?

Десятая должна работать вполне официально, девятая - де-юре не обещано, но де-факто вроде бы реально.

popop
PDF/DjVu "текст под изображением" гарантируют две основные для удобной работы вещи. Во-первых, я увижу книгу, точно такой же, как она вышла из типографии (а значит буду застрахован от любых возможных вывихов разметки/распознавания). Во-вторых, я буду иметь возможность скопировать любой кусок распознанного текста, вместо того, чтобы набирать его от руки.
Все остальное, IMHO технические детали. Можно делать вычитку, а можно, для ускорения процесса не делать ее. Можно переразмечать блоки вручную, а можно (если много "мусора") не тратить на это время.

Автор: DoXeR
Дата сообщения: 19.11.2010 20:46

есть ли какие-то рекомендации по распознаванию текста, какие-то лучшие настройки?
скармливаю изображение - куча нераспознованного..
из настроек нажимаю кнопка "текст" вверху, и в правом окне выбираю текст "русский"..
п.с. изображение текста - с фотоаппарата

Добавлено:
версия финридера 9

Добавлено:
ширина высота 3000х2000 получается, а вот
dpi 200-300 только ( ... как увеличить?

Автор: PoziaSergey
Дата сообщения: 21.11.2010 11:27

У меня ABBYY FineReader PE 10.0.102.109 на Seven x64 не сканирует. Выдает ошибку - Неустранимая ошибка сканера. WIA сервер сканирования недоступен. Как исправить?

Автор: Shangry
Дата сообщения: 22.11.2010 13:32

DoXeR

Цитата:

есть ли какие-то рекомендации по распознаванию текста, какие-то лучшие настройки?

Рекомендации есть и даже не в одном варианте. Например то, на что недавно сослался Astra55.
"Лучших настроек" для какого угодно скана, непонятно какого качества IMHO не может существовать по определению.

Автор: Margusha
Дата сообщения: 22.11.2010 15:28

Здравствуйте, у меня стоит Abbyy FineReader версия 10.0.102.130
Программа работала хорошо, но на днях стала возникать ошибка при распознавании текста -
Внутренняя программная ошибка. .\Src\FontMetricsInfo.cpp, 255.

Программа сканирует и открывает файлы хорошо, а распознавать не хочет.
Пробовала переустановку, чистила реестр. Не помогает. Искала что-то об этой ошибке в инете и ничего не нашла. На вас последняя надежда, помогите, пожалуйста

Автор: Shangry
Дата сообщения: 22.11.2010 18:27

Судя по коду ошибки, это какая-то заморочка со шрифтами.
Поменяйте шрифты распознавания (полностью обновите, убрав все старые), может быть вылечится.

Автор: amaid
Дата сообщения: 25.11.2010 09:05

FR 8 и 9 оба вдруг стали выдавать табличку "Нет доступа к файлу E:\FineReader\[Папка проекта]". Восьмерка только при включении фонового распознавания ее выдает, девятка просто так. Никаких неприятных последствий не происходит, просто сама табличка задолбала. В чем тут дело, кто знает?

Автор: timsky
Дата сообщения: 28.11.2010 15:33

Народ, ссылка в шапке
Цитата:

Языки интерфейса, входные и выходные форматы файлов и прочая техническая информация.

ведет на бесполезную страницу. Весь сайт перерыл, не могу найти русский интерфейс для FineReader 10.102.105 Corporate Edition?
Или для Pro версии. Где они вообще обитают?

Автор: SergFM
Дата сообщения: 01.12.2010 18:45

всем привет, такая неувязка...текст немецко-русский при распознавании - все символы в немецком языке распознаются и отображаются в abbyy нормально ( такие как ä ö ü ß) если выбрать сохранение в Word то вместо этих букв вставлены русские буквы, однако при сохранении в pdf эти буквы нормально видны и не изменяются на русские...
пробовал и на 8 и на 10 версиях...в настройках ничего не заметил..
может кто сталкивался с таким????

Автор: Astra55
Дата сообщения: 01.12.2010 19:38

timsky
Да, на указанной странице ничего нет. У меня на Pro и Corp языки меняются без проблем, может поставили какую-нибудь урезанную версию? Надеюсь, через меню заходили, туда, где меняется язык интерфейса? И файлы FineUI (если склероз не подводит) в директории софта имеются в полном комплекте? С нулем для аглицкого, с единицей для русского?

Автор: timsky
Дата сообщения: 01.12.2010 20:19

Astra55
Скачал вот это когда-то назад: [more]Abbyy Finereader 10 Corporate Edition v.10.0.102.105 Multilanguage (Feb.2010)

Languages: CZ, EN, BG, T-CN, S-CN, DK, FR, NL, IT, KR, LV, HU, PL, DE, GR, RU, POR, SK, ES, SE, TR, UA

--- = All functions are activated & works! = ---

--- = Only Install & Run application! = ---

******************************
Packed: Danilko Ltd. 2010
******************************[/more]

Цитата:

Надеюсь, через меню заходили, туда, где меняется язык интерфейса?

А можно чуть подробнее, где искать настройки фейса?

Автор: Astra55
Дата сообщения: 01.12.2010 20:37

timsky
Сервис - Опции - Дополнительно

Автор: timsky
Дата сообщения: 01.12.2010 21:37

Astra55
Спасибо

Есть там русский.

Автор: Shangry
Дата сообщения: 02.12.2010 16:13

SergFM

Цитата:

если выбрать сохранение в Word то вместо этих букв вставлены русские буквы, однако при сохранении в pdf эти буквы нормально видны и не изменяются на русские...

Похоже на глюк "распознавали в одних шрифтах, сохраняли в других". Попробуйте синхронизировать, чтобы и распознавалось и сохранялось в одних и тех же шрифтах, тогда скорее всего пропадет.

Автор: DoXeR
Дата сообщения: 04.12.2010 17:07

Цитата:

DoXeR

Цитата:
есть ли какие-то рекомендации по распознаванию текста, какие-то лучшие настройки?

Рекомендации есть и даже не в одном варианте. Например то, на что недавно сослался Astra55.
"Лучших настроек" для какого угодно скана, непонятно какого качества IMHO не может существовать по определению.

книгу отсканировать надо!

Добавлено:
вообще без ошибок реально сделать чтобы распознавалось?

Автор: Shangry
Дата сообщения: 06.12.2010 11:25

DoXeR

Цитата:

книгу отсканировать надо!

Ясно, что не кинокартину.

Книг с разным качеством бумаги и полиграфии может быть от "великолепно" до "почти нечитаемо". То, как ту или иную книгк отсканят, гуляет в примерно таких же пределах.
В результате вопрос "какие лучшие настройки для распознавания?" имеет такой же смысл, что и вопрос "с какими настройками мне лучше всего записывать музыку".

Цитата:

вообще без ошибок реально сделать чтобы распознавалось?

Нереально. И вряд ли когда-нибудь станет реально.

Автор: PetrasK
Дата сообщения: 13.12.2010 21:19

Кто нибудь пользовался ABBYY FineReader Engine 10 с дополнительным модулем FineReader XIX для распознавания текстов на европейских языках XVII-XIX ст.? Или для этих целей вполне хватает простого ABBYY FineReader'а? Заранее благодарю за ответ.

Автор: JekaKot
Дата сообщения: 13.12.2010 22:20

DoXeR
Цитата:

вообще без ошибок реально сделать чтобы распознавалось?

Реально при следующих условиях:
1. Белая "свежая" бумага без каких-либо помарок и сгибов; снимок высокого качества;
2. Четкий черный шрифт (чем дальше от Times New Roman, черного цвета и мельче шрифт, тем хуже);
3. Сканирование отдельных листов;
4. Распознаваемый материал "однороден" (один язык, только текст или только таблицы).

Если серьезно, то вряд ли когда-нибудь добьются принципа идентичности оригинала и распознанного ("То, что вижу в оригинале, то и получаю в электронке"). Реальных подвижек в "светлое будущее" нет, имхо. Результаты видны лишь в удобстве пользования программой...

Распознавание химических формул - уже караул, математические формулы можно даже не пытаться...
Два языка - проблема.
Рисунки с графиками или текстовой информацией вручную приходится определять, иначе такая х...я на выходе

Ну если элементарно - не всегда сохраняет размер шрифта чистого текста и его "похожесть" на оригинал, о какой "безошибочности" может идти речь?

Автор: zhe_zho
Дата сообщения: 13.12.2010 22:37

Цитата:

Кто нибудь пользовался ABBYY FineReader Engine 10

Engine - движок или SDK, пишут что можно использовать как консоль, но без гуи использовать такую программу нереально, необходим контроль со стороны пользователя, если неправильно определит тип блока то такого нараспознаёт, подробнее у JekaKot в предыдущем комментарии описано проблемы.

Автор: Shangry
Дата сообщения: 14.12.2010 15:42

JekaKot

Цитата:

Реально при следующих условиях ...

Мои знакомые как-то пробовал и такой вариант. Выяснилось, что ошибки все равно появляются, только уже по причине каких-то внутренних заморочек программы.

Цитата:

Распознавание химических формул

Линейных хим. формул (не структурных) - вполне реально. Надо только сначала немного натаскать на индексы, после чего распознавание идет с качеством, соответствующим изображению.

Цитата:

Два языка - проблема

Если много диакритики. А так вполне нормально.
Смесь русского, английского и монгольского как-то пережевалась достаточно успешно, чистили не больше, чем пришлось бы за одним только русским.

Автор: vvvvv2
Дата сообщения: 19.12.2010 02:17

1. Считаю, что в форуме "в программах" (и не только) нужно ввести к каждой программе некую таблицу безусловных ошибок или недостатков программ или как-то это оформить в шапке - по ссылке на отдельной странице или типа того. Там же можно было бы постить новые ошибки и удалять исчерпанные. Т.е. только пункты с кратким, но достаточным описанием и безо всякого флуда. Для чего все это - объяснять не нужно, надеюсь, - юзеры постят, а для адекватных авторов - это халявные результаты тестирования.
Ибо нужно понимать, что всегда есть некая "критическая масса", когда недостатки перевешивают и происходит переход на конкурентный софт...
2. Пример ошибки (по ABBYY FineReader). Меня она задолбала и вижу пока решение в виде самодельной фичи, ожидающей окно ошибки и обрабатывающей ее при возникновении, т.к. авторы модуля "HotFolder" (версии Корпорейт) об этом не позаботились и вообще смысл этого модуля данная ошибка сводит на нет... (Сейчас сижу и жду ее появления, т.к. прежде не делал ее скринов и описаний). Вижу эту ошибку, к слову, уже несколько лет и во всех версиях и сборках где есть "HotFolder".
Скрин первого окна ошибки

выключается нажатием "отмена".
Скрин второго окна ошибки

выключается нажатием "да".
Дальше программа нормально продолжает работу.
Но ошибка не обрабатывается самой программой автоматически. Т.е. если вы утром хотели проснуться и увидеть выполненную работу, то это как повезет... Может выскочить ошибка как только вы отошли от компьютера...

Для "forum.ru-board": если п.1 не поддержится, то больше время тратить на это не буду.

3. Неадекватное использование ресурсов компьютера - грузит только на 100% память и процессор.
Мой ПК глухо "висит" на Core i7 920 с 3Гб 3-х канальной памяти.

Автор: U235
Дата сообщения: 19.12.2010 06:27

Цитата:

Меня она задолбала и вижу пока решение в виде самодельной фичи, ожидающей окно ошибки и обрабатывающей ее при возникновении

Вот примерный AutoIt-скрипт для этого:

Код: $i=1
While 1
    WinWait('ABBYY Fine Reader 10 FineExec','Документ')
    Send('{ESC}')
    WinWait('ABBYY Fine Reader 10 FineExec','Невозможно')
    Send('{ENTER}')
    ToolTip('Error '&$i,0,0)
    $i=$i+1
WEnd

Автор: Astra55
Дата сообщения: 19.12.2010 07:05

Совет по распознаванию файлов DjVu [more=Читать] Как известно, начиная с версии 9, в FineReader появилась возможность прямого импорта файлов DjVu. Однако, время на импорт таких файлов совершенно неприемлемое, оно на порядки больше, чем требуется для файлов tif/jpg. Поэтому, намного быстрее будет конвертировать DjVu файл с помощью бесплатной утилиты DjVuToy, а полученные графические файлы открыть в FR, причем, любой версии. Утилиту можно скачать здесь - http://www.comicer.com/stronghorse/software/exe/DjVuToy_eng.zip
Она небольшого размера и не требует инсталляции, интерфейс английский.[/more]

Автор: amaid
Дата сообщения: 20.12.2010 11:21

Цитата:

vvvvv2

можно обойтись без скриптов, есть такая программка KillOK, закрывает такие окна автоматически либо по указанию в списке
http://www.motorocker.ru/download/killok.zip

Добавлено:
А для решения проблем с памятью советую перейти на более раннюю версию Файна либо установить две разных версии для разных задач. Восьмерка будет летать и качественные тексты она распознает не хуже.

Автор: monday2000
Дата сообщения: 23.12.2010 16:10

В шапке топика написано:

Цитата:

Версии FR для Linux пока не существует, только Engine, который вам явно не нужен.

А разве в состав этого Engine не входит консольный командно-строчный интерфейс (именуемый "CLI", насколько я понял)?

http://www.ocr4linux.com/en:download

http://www.opennet.ru/opennews/art.shtml?num=25800

Цитата:

Компания ABBYY подготовила работающую в режиме командной строки версию своей системы распознавания текстов для Linux. От ранее выпущенного продукта ABBYY FineReader Engine 8.0, CLI-версия отличается использованием простого интерфейса командной строки, вместо замысловатого API. Программа поддерживает обработку документов в формате PDF, RTF, HTML, TXT, XLS, DBF, XML, позволяет переводить содержимое таблиц, распознавать штрих-коды, обрабатывать документы с текстом на нескольких языках.

С сайта проекта можно загрузить пробную версию, которая позволяет бесплатно распознать 100 страниц за 10 дней. Стоимость коммерческой версии составляет 149 евро с ограничением в 12 тыс. страниц в год и 999 евро с ограничением 120 тыс. страниц в год.

http://www.h-online.com/open/news/item/ABBYY-brings-command-line-power-to-its-Linux-OCR-954972.html

Цитата:

ABBYY Europe, makers of FineReader OCR software, has announced a command line version of its FineReader Engine 8.0. Previous versions have required use of ABBYY's SDK version to create applications which make use of the company's proprietary OCR technology, but the new command line version can be driven from the console or incorporated in shell scripts or web server processing for a simpler integration process. ABBYY have had an OCR offering on Linux since 2003, and brought its FineReader Engine 8.0 SDK to the open source operating system in 2007.

ABBYY's command line tools are documented on ABBYY's OCR4Linux.com site, including details of image processing, table analysis and bar-code scanning capabilities in the OCR tool chain.

Похоже, информация в шапке устарела.

Автор: Shangry
Дата сообщения: 24.12.2010 18:12

monday2000

Цитата:

А разве в состав этого Engine не входит консольный командно-строчный интерфейс (именуемый "CLI", насколько я понял)?

Входить-то он входит, да толку с того.

Консольное управление софтом класса FineReader - это считайте, что на уровне пользователя управления попросту не существует (разве что методом тыка "набрал команду, запустил, подождал, посмотрел, что на выходе вывалилось").

Автор: Shadow_From_XZone
Дата сообщения: 24.12.2010 19:08

Помогите найти папку с временными файлами FR10.
при расопзновании закончился диск.. и прога вылетела.. отожрав около 9 ГБ.. а где лежат файлики найти не могу ;-(((
подскажите плииииззззззззз

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104

Предыдущая тема: filesCatalog

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.