» ABBYY FineReader

Автор: IndianaJonESS
Дата сообщения: 17.04.2008 18:01

Подскажите, как включить распознавание кривых строчек?

Автор: unreal666
Дата сообщения: 19.04.2008 20:50

Такой вопрос.
Сабж при распознавании и сохранении PDF-файлов удаляет предыдущий (существовавший до распознавания) текст из PDF-файла или нет?

Автор: matheiiv
Дата сообщения: 23.04.2008 22:28

кривые строчки, матформулы, текст пишущей машинки от удара дилетанта -- это та тема о которой "программисты" ABBYY говорить не желают.
Им язык эскимосов легче интегрировать в пакет. чем обучить программу не ставить знаки доллара в русском тексте и заставить программу ставить "нормальные" знаки переноса, а не "г"-лежачее.

"Коммерция" заведет в тупит FineReader...

Автор: Serabu
Дата сообщения: 28.04.2008 21:14

zvi
могем помочь для какой версии нужно , елси нужно пиши serabu@yandex.ru

Автор: Drusus
Дата сообщения: 29.04.2008 20:28

Не в восторге я от 9-ки, предпочитаю 8-ку. Недавно сканил вполне внятный двухколоночный текст (белый фон, черные буквы) - 9-ка представила его таблицей, пришлось вручную указывать тип блока на 15 стр. из 50.

Сейчас мучаюсь с другим косяком:
Отсканировал 2 книги одного психолога, первую в 8-ке, вторую в 9-ке. В итоге хочу получить форматированный doc со стилевым оглавлением.
Книги по стилю и оформлению похожи: текст (прямой Таймс) регулярно перемежается цитатами, анекдотами и т.п., которые оформлены отдельным абзацем (по ширине страницы, жирный курсив), снизу автор цитаты (равнение вправо, жирный).

Первую книгу из 8-ки передал в Вод в режиме "Таблицы, абзацы, шрифты" - всё прилично, оформление есть и число стилей в пределах нормы.
Вторую книгу из 9-ки пробовал передавать во всех форматах - либо голый текст, либо стилей под 60 штук! Чуть ли не каждая цитата своим стилем. Причём разница между ними - лишь отступ отличается на пару миллиметров!

В Ворде 2003 нет средств для оптимизации числа стилей. В сабже нет опции Сохранить пакет в формате предыдущей версии. Как облегчить подготовку книги? Голый текст форматировать долго.

Автор: unreal666
Дата сообщения: 29.04.2008 21:39

Сохрани страницы как изображения, и распознай их заново в 8-ке.

Автор: Drusus
Дата сообщения: 29.04.2008 22:15

спасибо, конечно за ценный совет

но похерить долгие труды по ручному выделению блоков и исправлению неуверенных символов желания нет...

Автор: unreal666
Дата сообщения: 29.04.2008 23:50

Ну значит программируй макрос для Word'а для удаления/преобразования стилей по твоим критериям.

Автор: Drusus
Дата сообщения: 30.04.2008 08:08

не силён я в программировании

а банальный макрос - запись нажатий клавиш здесь не пойдёт, поищу готовый макрос

Автор: Drusus
Дата сообщения: 30.04.2008 14:33

вот нашёл что-то похожее

Автор: bdfy
Дата сообщения: 07.05.2008 00:35

Хочу сделать пользовательский язык с минимумом встречающихся в тексте спец. символов. в основном это греческие дельты и тп.
Создаю новый словарь а там в греческом одни квадратики

c этим что можно сделать ?

Автор: Shulhan
Дата сообщения: 08.05.2008 01:49

Народ, я обычно стараюсь доходить до всего своим умом, порой даже получается, но сейчас времени нет совершенно. ТАк что прошу совет.

Есть девятый ABBYY FineReader. Есть Word-2007 английский. Всё установлено под WIN XP русский . Есть несколько более-менее качественно отсканированных книг в форматах pdf и в djvu. Языков в книгах два и в больших количествах - русский и иврит (ну, живу я здесь..)Открыватся они, распознаются и сохраняются в формат pdf без явных проблем. Иврит не распознаётся, но он и не должен. Сложности начинаются позже, когда я пытаюсь сделать из нх документ Word. Документ-то получается, но вместо всего иврита получаются не какие-то там "нераспознанные символы", а абракадабра на кириллице. С преобразованием документа в формат html те же грабли. Мне крайне желаемо получить эти книги в редактируемых форматах для русского языка . Вопрос - ошибки появляются в результате моих личных глупостей и незнания матчасти? Или подобное преобразование не относится к элементарно простым?

Натравить на книги ещё и распознавалку иврита не успел, ибо раздобыл её только сейчас. Да и хотелось бы получить решение в общем виде, ибо столкнуться могу и ещё с парочкой неподдерживаемых языков.

Автор: vitaly1
Дата сообщения: 08.05.2008 09:19

Shulhan
Можно образец абракадабры (снимок экрана)? Если квадратики, то это могут быть последствия кривого взлома.

Автор: Shulhan
Дата сообщения: 08.05.2008 19:16

Если бы квадратики- мир был бы прост и ясен... квадратики - это класика вареза. Как раз распознанный текст - русский - передаётся идеально, а нераспозннный - иврит - меняется на непонятки. Ну через часок-другой я отойду от последствий сегодняшнего празднования нашего Дня Независимости и сделаю скриншоты.

Автор: vitaly1
Дата сообщения: 08.05.2008 19:56

Shulhan
Я вот не совсем понял. Я вас есть текст на русском и иврите, вы распознаете его в сабже с языком распознавания русский и в результате иврит превращается в кириллическую абракадабру? Если все так, то ФР все делает правильно - откуда ему знать, что часть символов - вовсе даже не кириллица?

Автор: Shulhan
Дата сообщения: 15.05.2008 03:58

Прошу прощения, замотался с этими праздниками и с экспериментами по распознаванию, однако выяснл, что проблема неэлементарная.

Распознаётся текст грамотно. Русский распознаётся, иврит не распознаётся и остаётся картинками.. Сохраняется в файл PDF на отлично. Далее я этот файл пытаюсь конвертировать в формат ворда, что мне должно дать русский редактируемый распознанный текст и иврит в виде картинок. С русским всё отлично - но вместо картинок ивритовских слов получаются какие-то куски слов на русском!

Я катил на сабж - но попробовал парочку других конверторов PDF=Doc. Получился набор сбоев - местами иврит вышел именно картинкой, местами набором русскошрифтового абсурда, с русским изначальным всё хорошо. При этом работать с получившимся файлом на 120 страниц невозможно - ворд грузит трёхгигагерцный пень полностью и еле шевелится, оперативки ему более чем много. А это для меня критично, с книжками работать надо.

Я думаю, что решение этой проблемы не лежит на поверхности и очень может быть, что Finereader тут может оказаться вообще ни при чём. Надо прогнать все конверторы, до которых я смогу дотянуться, лишь тогда делать выводы. Так что благодарю за стремление помочь, мы к этой интересной проблеме ещё вернёмся.

Автор: Goul
Дата сообщения: 15.05.2008 13:50

Shulhan
Ключевой вопрос в том, что вы хотите получить на выходе вместо иврита. Если текст - то это будет белиберда - в данном случае, кириллицей. Если вместо иврита должно быть пусто, надо вручую удалить все фрагменты текста на иврите из разметки страниц. Если хотите получить на месте иврита картинки - то надо сделать так, чтобы FineReader не экспортировал текст, который он распознал на месте этих картинок. Как вариант, могу предложить попробовать сохранять PDF в формате Text and pictures only с опцией Replace uncertain words with images (ориентируюсь по седьмой версии FR, в девятой должно быть как-то похоже). Может быть, после этого файл в Word'е получится такой, как надо.

Автор: bdfy
Дата сообщения: 15.05.2008 14:33

Shulhan
Infix для редактирования pdf пробовали ? а вообще я бы на форум лингво сходил. мне там помогли.
опция
Цитата:

Replace uncertain words with images

есть только для пдф. и все равно форматирование бывает слетает (на девятке проверял). и конвертация потом все равно отдельный геморрой.
Есть галка "подсветить неуверенно распознанный текст" в ворде. Можно попробовать выделить по формату весь такой текст и заменить пробелами или удалить.

Автор: Dmb_2007
Дата сообщения: 15.05.2008 17:53

А зачем загонять в ПДФ, чтобы в итоге получить документ Ворд? Почему не напрямую?
Или я отстал от жизни? В 8-ке это без проблем.

Автор: Djkorvin
Дата сообщения: 17.05.2008 10:00

Народ подскажите как заставить finereader распознавать маркированный список (может он его и распознает, но булетты не ставит), и второе текст в рамке - 9-й файнридер его распознает без рамки, хотя в настройках стоит искать только явно заданные таблицы, если я этот блок обвожу заново (с рамкой) и ставлю тип таблица, то он делает все правильно, но автоматом он выделяет блок аккурат внутри рамки и ставит тип текст.

Автор: Sish
Дата сообщения: 19.05.2008 06:51

Djkorvin
В настройках стоит полное сохранение макета?

Распознанный текст куда передаёшь?

Автор: Shangry
Дата сообщения: 20.05.2008 14:59

Djkorvin
Вот здесь вроде бы есть ответ на ваш вопрос (или, по крайней мере, на часть его):

http://www.abbyy.ru/finereader/forum/actualthread.aspx?tid=594

Добавлено:
Shulhan

Цитата:

Как вариант, могу предложить попробовать сохранять PDF в формате Text and pictures only с опцией Replace uncertain words with images

Есть еще один момент, который здесь надо учесть.
У FineReader есть дурная привычка распознавать символы одного языка, как символы другого языка и, притом, делать это со стопроцентной уверенностью. Тогда не спасает даже упомянутая установка "Заместить неуверенно распознанные символы их изображениями".

Так что, если и в PDF, сделанном по совету Goul, все равно пойдет мусор, то придется вручную размечать проблемные места с ивритом, как картинки.
Геморрой, конечно, но что поделаешь

Автор: reanimator
Дата сообщения: 28.05.2008 20:08

Стоит 9.0.0.724 фр + 2007 офис сп1, под хр

Распознаю книгу из djvu, сохраняю как doc (либо в docx). Вот ту начинаются проблемы. 2007 офис видит только 4 страницы, хотя пишет, что в документе 12к слов. 2003 офис открывает документ нормально.
Причем если сохранять в pdf, то сохраняются все страницы.

В чем может быть проблема?

Автор: niccolo
Дата сообщения: 08.06.2008 21:32

Всем кто разбирался с форматом файлов ФР (знаю что такие были - раз есть утилита от Генчо)

Народ напишите утилиту батч-анализа - количество-блоков на каждой из страницы в пакете + количество ошибок и неуверенно-распознанных символов. Идеально еще добавить возможность пакетно удалять блоки из страниц по размеру, номеру и т.п. Это бы столько времени могло сэкономить.

Уже запостил это среди других предложений по усовершенствованию на форуме Абы, но боюсь если они это и сделают то в SDK или какой-нибудь версии за кучу КБаксов, что хрен достанешь.

Автор: vitaly1
Дата сообщения: 09.06.2008 00:38

niccolo
Скорее всего с форматом разобрался (точнее, его угадал) Генчо, думаю, ему стоит в первую очередь написать. Если, конечно, еще не написали

Автор: Astra55
Дата сообщения: 09.06.2008 05:40

vitaly1
Сдается мне, что у Генчо несколько иная задача, пусть лучше он ее решит в первую очередь. Остальное сугубо вторично

Автор: Sobchak
Дата сообщения: 11.06.2008 12:15

ABBYY FineReader 9 Portable Edition (Full) скачал. Не видит astra 6700 таймаут сервера в настройках проги, вкладка сканер, любо путь не найден в ///ScanManager. Где курить?

Автор: tyrty
Дата сообщения: 11.06.2008 15:35

Цитата:

ABBYY FineReader 9 Portable Edition (Full) скачал. Не видит astra 6700 таймаут сервера в настройках проги, вкладка сканер, любо путь не найден в ///ScanManager. Где курить?

Точно такая же фигня с Epson 2480. Кто-нибудь поборол?

Автор: vol4onok2000
Дата сообщения: 12.06.2008 16:08

не могу активизировать FineReader8 помогите....плиззззз

Автор: PopovSergej
Дата сообщения: 12.06.2008 18:12

vol4onok2000

Цитата:

не могу активизировать FineReader8 помогите....плиззззз

В варезнике

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104

Предыдущая тема: filesCatalog

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.