Подскажите, как включить распознавание кривых строчек?
» ABBYY FineReader
Такой вопрос.
Сабж при распознавании и сохранении PDF-файлов удаляет предыдущий (существовавший до распознавания) текст из PDF-файла или нет?
Сабж при распознавании и сохранении PDF-файлов удаляет предыдущий (существовавший до распознавания) текст из PDF-файла или нет?
кривые строчки, матформулы, текст пишущей машинки от удара дилетанта -- это та тема о которой "программисты" ABBYY говорить не желают.
Им язык эскимосов легче интегрировать в пакет. чем обучить программу не ставить знаки доллара в русском тексте и заставить программу ставить "нормальные" знаки переноса, а не "г"-лежачее.
"Коммерция" заведет в тупит FineReader...
Им язык эскимосов легче интегрировать в пакет. чем обучить программу не ставить знаки доллара в русском тексте и заставить программу ставить "нормальные" знаки переноса, а не "г"-лежачее.
"Коммерция" заведет в тупит FineReader...
zvi
могем помочь для какой версии нужно , елси нужно пиши serabu@yandex.ru
могем помочь для какой версии нужно , елси нужно пиши serabu@yandex.ru
Не в восторге я от 9-ки, предпочитаю 8-ку. Недавно сканил вполне внятный двухколоночный текст (белый фон, черные буквы) - 9-ка представила его таблицей, пришлось вручную указывать тип блока на 15 стр. из 50.
Сейчас мучаюсь с другим косяком:
Отсканировал 2 книги одного психолога, первую в 8-ке, вторую в 9-ке. В итоге хочу получить форматированный doc со стилевым оглавлением.
Книги по стилю и оформлению похожи: текст (прямой Таймс) регулярно перемежается цитатами, анекдотами и т.п., которые оформлены отдельным абзацем (по ширине страницы, жирный курсив), снизу автор цитаты (равнение вправо, жирный).
Первую книгу из 8-ки передал в Вод в режиме "Таблицы, абзацы, шрифты" - всё прилично, оформление есть и число стилей в пределах нормы.
Вторую книгу из 9-ки пробовал передавать во всех форматах - либо голый текст, либо стилей под 60 штук! Чуть ли не каждая цитата своим стилем. Причём разница между ними - лишь отступ отличается на пару миллиметров!
В Ворде 2003 нет средств для оптимизации числа стилей. В сабже нет опции Сохранить пакет в формате предыдущей версии. Как облегчить подготовку книги? Голый текст форматировать долго.
Сейчас мучаюсь с другим косяком:
Отсканировал 2 книги одного психолога, первую в 8-ке, вторую в 9-ке. В итоге хочу получить форматированный doc со стилевым оглавлением.
Книги по стилю и оформлению похожи: текст (прямой Таймс) регулярно перемежается цитатами, анекдотами и т.п., которые оформлены отдельным абзацем (по ширине страницы, жирный курсив), снизу автор цитаты (равнение вправо, жирный).
Первую книгу из 8-ки передал в Вод в режиме "Таблицы, абзацы, шрифты" - всё прилично, оформление есть и число стилей в пределах нормы.
Вторую книгу из 9-ки пробовал передавать во всех форматах - либо голый текст, либо стилей под 60 штук! Чуть ли не каждая цитата своим стилем. Причём разница между ними - лишь отступ отличается на пару миллиметров!
В Ворде 2003 нет средств для оптимизации числа стилей. В сабже нет опции Сохранить пакет в формате предыдущей версии. Как облегчить подготовку книги? Голый текст форматировать долго.
Сохрани страницы как изображения, и распознай их заново в 8-ке.
спасибо, конечно за ценный совет
но похерить долгие труды по ручному выделению блоков и исправлению неуверенных символов желания нет...
но похерить долгие труды по ручному выделению блоков и исправлению неуверенных символов желания нет...
Ну значит программируй макрос для Word'а для удаления/преобразования стилей по твоим критериям.
не силён я в программировании а банальный макрос - запись нажатий клавиш здесь не пойдёт, поищу готовый макрос
вот нашёл что-то похожее
Народ, я обычно стараюсь доходить до всего своим умом, порой даже получается, но сейчас времени нет совершенно. ТАк что прошу совет.
Есть девятый ABBYY FineReader. Есть Word-2007 английский. Всё установлено под WIN XP русский . Есть несколько более-менее качественно отсканированных книг в форматах pdf и в djvu. Языков в книгах два и в больших количествах - русский и иврит (ну, живу я здесь..)Открыватся они, распознаются и сохраняются в формат pdf без явных проблем. Иврит не распознаётся, но он и не должен. Сложности начинаются позже, когда я пытаюсь сделать из нх документ Word. Документ-то получается, но вместо всего иврита получаются не какие-то там "нераспознанные символы", а абракадабра на кириллице. С преобразованием документа в формат html те же грабли. Мне крайне желаемо получить эти книги в редактируемых форматах для русского языка . Вопрос - ошибки появляются в результате моих личных глупостей и незнания матчасти? Или подобное преобразование не относится к элементарно простым?
Натравить на книги ещё и распознавалку иврита не успел, ибо раздобыл её только сейчас. Да и хотелось бы получить решение в общем виде, ибо столкнуться могу и ещё с парочкой неподдерживаемых языков.
Есть девятый ABBYY FineReader. Есть Word-2007 английский. Всё установлено под WIN XP русский . Есть несколько более-менее качественно отсканированных книг в форматах pdf и в djvu. Языков в книгах два и в больших количествах - русский и иврит (ну, живу я здесь..)Открыватся они, распознаются и сохраняются в формат pdf без явных проблем. Иврит не распознаётся, но он и не должен. Сложности начинаются позже, когда я пытаюсь сделать из нх документ Word. Документ-то получается, но вместо всего иврита получаются не какие-то там "нераспознанные символы", а абракадабра на кириллице. С преобразованием документа в формат html те же грабли. Мне крайне желаемо получить эти книги в редактируемых форматах для русского языка . Вопрос - ошибки появляются в результате моих личных глупостей и незнания матчасти? Или подобное преобразование не относится к элементарно простым?
Натравить на книги ещё и распознавалку иврита не успел, ибо раздобыл её только сейчас. Да и хотелось бы получить решение в общем виде, ибо столкнуться могу и ещё с парочкой неподдерживаемых языков.
Shulhan
Можно образец абракадабры (снимок экрана)? Если квадратики, то это могут быть последствия кривого взлома.
Можно образец абракадабры (снимок экрана)? Если квадратики, то это могут быть последствия кривого взлома.
Если бы квадратики- мир был бы прост и ясен... квадратики - это класика вареза. Как раз распознанный текст - русский - передаётся идеально, а нераспозннный - иврит - меняется на непонятки. Ну через часок-другой я отойду от последствий сегодняшнего празднования нашего Дня Независимости и сделаю скриншоты.
Shulhan
Я вот не совсем понял. Я вас есть текст на русском и иврите, вы распознаете его в сабже с языком распознавания русский и в результате иврит превращается в кириллическую абракадабру? Если все так, то ФР все делает правильно - откуда ему знать, что часть символов - вовсе даже не кириллица?
Я вот не совсем понял. Я вас есть текст на русском и иврите, вы распознаете его в сабже с языком распознавания русский и в результате иврит превращается в кириллическую абракадабру? Если все так, то ФР все делает правильно - откуда ему знать, что часть символов - вовсе даже не кириллица?
Прошу прощения, замотался с этими праздниками и с экспериментами по распознаванию, однако выяснл, что проблема неэлементарная.
Распознаётся текст грамотно. Русский распознаётся, иврит не распознаётся и остаётся картинками.. Сохраняется в файл PDF на отлично. Далее я этот файл пытаюсь конвертировать в формат ворда, что мне должно дать русский редактируемый распознанный текст и иврит в виде картинок. С русским всё отлично - но вместо картинок ивритовских слов получаются какие-то куски слов на русском!
Я катил на сабж - но попробовал парочку других конверторов PDF=Doc. Получился набор сбоев - местами иврит вышел именно картинкой, местами набором русскошрифтового абсурда, с русским изначальным всё хорошо. При этом работать с получившимся файлом на 120 страниц невозможно - ворд грузит трёхгигагерцный пень полностью и еле шевелится, оперативки ему более чем много. А это для меня критично, с книжками работать надо.
Я думаю, что решение этой проблемы не лежит на поверхности и очень может быть, что Finereader тут может оказаться вообще ни при чём. Надо прогнать все конверторы, до которых я смогу дотянуться, лишь тогда делать выводы. Так что благодарю за стремление помочь, мы к этой интересной проблеме ещё вернёмся.
Распознаётся текст грамотно. Русский распознаётся, иврит не распознаётся и остаётся картинками.. Сохраняется в файл PDF на отлично. Далее я этот файл пытаюсь конвертировать в формат ворда, что мне должно дать русский редактируемый распознанный текст и иврит в виде картинок. С русским всё отлично - но вместо картинок ивритовских слов получаются какие-то куски слов на русском!
Я катил на сабж - но попробовал парочку других конверторов PDF=Doc. Получился набор сбоев - местами иврит вышел именно картинкой, местами набором русскошрифтового абсурда, с русским изначальным всё хорошо. При этом работать с получившимся файлом на 120 страниц невозможно - ворд грузит трёхгигагерцный пень полностью и еле шевелится, оперативки ему более чем много. А это для меня критично, с книжками работать надо.
Я думаю, что решение этой проблемы не лежит на поверхности и очень может быть, что Finereader тут может оказаться вообще ни при чём. Надо прогнать все конверторы, до которых я смогу дотянуться, лишь тогда делать выводы. Так что благодарю за стремление помочь, мы к этой интересной проблеме ещё вернёмся.
Shulhan
Ключевой вопрос в том, что вы хотите получить на выходе вместо иврита. Если текст - то это будет белиберда - в данном случае, кириллицей. Если вместо иврита должно быть пусто, надо вручую удалить все фрагменты текста на иврите из разметки страниц. Если хотите получить на месте иврита картинки - то надо сделать так, чтобы FineReader не экспортировал текст, который он распознал на месте этих картинок. Как вариант, могу предложить попробовать сохранять PDF в формате Text and pictures only с опцией Replace uncertain words with images (ориентируюсь по седьмой версии FR, в девятой должно быть как-то похоже). Может быть, после этого файл в Word'е получится такой, как надо.
Ключевой вопрос в том, что вы хотите получить на выходе вместо иврита. Если текст - то это будет белиберда - в данном случае, кириллицей. Если вместо иврита должно быть пусто, надо вручую удалить все фрагменты текста на иврите из разметки страниц. Если хотите получить на месте иврита картинки - то надо сделать так, чтобы FineReader не экспортировал текст, который он распознал на месте этих картинок. Как вариант, могу предложить попробовать сохранять PDF в формате Text and pictures only с опцией Replace uncertain words with images (ориентируюсь по седьмой версии FR, в девятой должно быть как-то похоже). Может быть, после этого файл в Word'е получится такой, как надо.
Shulhan
Infix для редактирования pdf пробовали ? а вообще я бы на форум лингво сходил. мне там помогли.
опция
Цитата:
Есть галка "подсветить неуверенно распознанный текст" в ворде. Можно попробовать выделить по формату весь такой текст и заменить пробелами или удалить.
Infix для редактирования pdf пробовали ? а вообще я бы на форум лингво сходил. мне там помогли.
опция
Цитата:
Replace uncertain words with imagesесть только для пдф. и все равно форматирование бывает слетает (на девятке проверял). и конвертация потом все равно отдельный геморрой.
Есть галка "подсветить неуверенно распознанный текст" в ворде. Можно попробовать выделить по формату весь такой текст и заменить пробелами или удалить.
А зачем загонять в ПДФ, чтобы в итоге получить документ Ворд? Почему не напрямую?
Или я отстал от жизни? В 8-ке это без проблем.
Или я отстал от жизни? В 8-ке это без проблем.
Народ подскажите как заставить finereader распознавать маркированный список (может он его и распознает, но булетты не ставит), и второе текст в рамке - 9-й файнридер его распознает без рамки, хотя в настройках стоит искать только явно заданные таблицы, если я этот блок обвожу заново (с рамкой) и ставлю тип таблица, то он делает все правильно, но автоматом он выделяет блок аккурат внутри рамки и ставит тип текст.
Djkorvin
В настройках стоит полное сохранение макета?
Распознанный текст куда передаёшь?
В настройках стоит полное сохранение макета?
Распознанный текст куда передаёшь?
Djkorvin
Вот здесь вроде бы есть ответ на ваш вопрос (или, по крайней мере, на часть его):
http://www.abbyy.ru/finereader/forum/actualthread.aspx?tid=594
Добавлено:
Shulhan
Цитата:
Есть еще один момент, который здесь надо учесть.
У FineReader есть дурная привычка распознавать символы одного языка, как символы другого языка и, притом, делать это со стопроцентной уверенностью. Тогда не спасает даже упомянутая установка "Заместить неуверенно распознанные символы их изображениями".
Так что, если и в PDF, сделанном по совету Goul, все равно пойдет мусор, то придется вручную размечать проблемные места с ивритом, как картинки.
Геморрой, конечно, но что поделаешь .
Вот здесь вроде бы есть ответ на ваш вопрос (или, по крайней мере, на часть его):
http://www.abbyy.ru/finereader/forum/actualthread.aspx?tid=594
Добавлено:
Shulhan
Цитата:
Как вариант, могу предложить попробовать сохранять PDF в формате Text and pictures only с опцией Replace uncertain words with images
Есть еще один момент, который здесь надо учесть.
У FineReader есть дурная привычка распознавать символы одного языка, как символы другого языка и, притом, делать это со стопроцентной уверенностью. Тогда не спасает даже упомянутая установка "Заместить неуверенно распознанные символы их изображениями".
Так что, если и в PDF, сделанном по совету Goul, все равно пойдет мусор, то придется вручную размечать проблемные места с ивритом, как картинки.
Геморрой, конечно, но что поделаешь .
Стоит 9.0.0.724 фр + 2007 офис сп1, под хр
Распознаю книгу из djvu, сохраняю как doc (либо в docx). Вот ту начинаются проблемы. 2007 офис видит только 4 страницы, хотя пишет, что в документе 12к слов. 2003 офис открывает документ нормально.
Причем если сохранять в pdf, то сохраняются все страницы.
В чем может быть проблема?
Распознаю книгу из djvu, сохраняю как doc (либо в docx). Вот ту начинаются проблемы. 2007 офис видит только 4 страницы, хотя пишет, что в документе 12к слов. 2003 офис открывает документ нормально.
Причем если сохранять в pdf, то сохраняются все страницы.
В чем может быть проблема?
Всем кто разбирался с форматом файлов ФР (знаю что такие были - раз есть утилита от Генчо)
Народ напишите утилиту батч-анализа - количество-блоков на каждой из страницы в пакете + количество ошибок и неуверенно-распознанных символов. Идеально еще добавить возможность пакетно удалять блоки из страниц по размеру, номеру и т.п. Это бы столько времени могло сэкономить.
Уже запостил это среди других предложений по усовершенствованию на форуме Абы, но боюсь если они это и сделают то в SDK или какой-нибудь версии за кучу КБаксов, что хрен достанешь.
Народ напишите утилиту батч-анализа - количество-блоков на каждой из страницы в пакете + количество ошибок и неуверенно-распознанных символов. Идеально еще добавить возможность пакетно удалять блоки из страниц по размеру, номеру и т.п. Это бы столько времени могло сэкономить.
Уже запостил это среди других предложений по усовершенствованию на форуме Абы, но боюсь если они это и сделают то в SDK или какой-нибудь версии за кучу КБаксов, что хрен достанешь.
niccolo
Скорее всего с форматом разобрался (точнее, его угадал) Генчо, думаю, ему стоит в первую очередь написать. Если, конечно, еще не написали
Скорее всего с форматом разобрался (точнее, его угадал) Генчо, думаю, ему стоит в первую очередь написать. Если, конечно, еще не написали
vitaly1
Сдается мне, что у Генчо несколько иная задача, пусть лучше он ее решит в первую очередь. Остальное сугубо вторично
Сдается мне, что у Генчо несколько иная задача, пусть лучше он ее решит в первую очередь. Остальное сугубо вторично
ABBYY FineReader 9 Portable Edition (Full) скачал. Не видит astra 6700 таймаут сервера в настройках проги, вкладка сканер, любо путь не найден в ///ScanManager. Где курить?
Цитата:
ABBYY FineReader 9 Portable Edition (Full) скачал. Не видит astra 6700 таймаут сервера в настройках проги, вкладка сканер, любо путь не найден в ///ScanManager. Где курить?
Точно такая же фигня с Epson 2480. Кто-нибудь поборол?
не могу активизировать FineReader8 помогите....плиззззз
Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104
Предыдущая тема: filesCatalog
Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.