Ru-Board.club
← Вернуться в раздел «Программы»

» ABBYY FineReader

Автор: LacettiRED
Дата сообщения: 02.04.2011 19:53
Astra55
ок, спасибо. то что нужно!
Автор: LacettiRED
Дата сообщения: 03.04.2011 13:04
дел
Автор: oshizelly
Дата сообщения: 11.04.2011 22:42
Подскажите, может ли быть такое, что после сохраненния документа в Acrobat PDF, формат "текст под изображением страницы" документ также сохраняет языковой атрибут текста?

Мне казалось, что это не очень вероятно, однако в последнее время заметил вот что. Копирую в буфер обмена латинский текст из Acrobat PDF, полученного из FineReader , и вставляю через буфер обмена в документ MS Word.
При этом вставленный текст принудительно получает атрибут "русский". Это не зависит ни от текущей раскладки клавиатуры, ни от языков целевого документа. Методом исключения получаем, что русский язык вставляемого фрагмента каким-то образом наследуется из исходного документа Acrobat PDF. А откуда он там берётся

В частности, интересует версия 8.0.

Спасибо!

Добавлено:
Причём что особенно интересно: проблема принудительной смены языкового атрибута возникает только при открытии исходного документа PDF в навороченных прогах вроде Acrobat Professional или Nitro PDF. Если тот же самый исходный документ PDF открыть в более простом приложении вроде FoxIt PDF Reader, PDF-XChange Viewer Pro, Sumatra PDF и т.д., то после вставки текста из буфера обмена в целевой документ MS Word ему присваивается тот же языковой атрибут, который присвоен окружающему тексту.
Автор: Shangry
Дата сообщения: 12.04.2011 16:27
oshizelly

Цитата:
При этом вставленный текст принудительно получает атрибут "русский". Это не зависит ни от текущей раскладки клавиатуры, ни от языков целевого документа.

А от языка, который выставлен в умолчательных настройках Word (кстати какая у вас его версия), зависит?
Мне кажется это более вероятный вариант.
Автор: oshizelly
Дата сообщения: 12.04.2011 16:51
Shangry

Цитата:
А от языка, который выставлен в умолчательных настройках Word (кстати какая у вас его версия), зависит?

А разве есть универсальные умолчательные настройки для языка? Мне казалось, что язык по умолчанию имеется только для конкретного стиля или для текущего текста. Где эти универсальные настройки можно посмотреть?
Кстати, у меня MS Office 2003.
Автор: Shangry
Дата сообщения: 13.04.2011 14:25
У Word обычно есть стандартный шаблон (вроде бы это "Обычный", но точно не помню), по которому генерируются настройки свежесоздаваемых страниц. По нему же задается форматирование вставляемых из буфера кусков текста, в т.ч. и язык.
Кроме этого в настройках языка обычно есть пункт "Сделать язык такой-то умолчательным".
Автор: oshizelly
Дата сообщения: 13.04.2011 15:30
Shangry
Насчет шаблона "Обычный" (файл Normal.dot) я знаю, но там вроде бы нет общих настроек языка. Шаблон может включать много разных стилей абзацев и шрифтов, и дефолтные языки разных стилей могут быть разными.
А вот про настройку "Сделать язык такой-то умолчательным" в MS Word я не знал. Нельзя ли чуть поподробнее, где именно она находится?
Автор: Shangry
Дата сообщения: 19.04.2011 14:09

Цитата:
А вот про настройку "Сделать язык такой-то умолчательным" в MS Word я не знал. Нельзя ли чуть поподробнее, где именно она находится?

"Сервис --> Язык --> Выбрать язык", а там одна из кнопок, как раз этим и заведует.


Цитата:
Насчет шаблона "Обычный" (файл Normal.dot) я знаю, но там вроде бы нет общих настроек языка.

Тот язык и прочие мелочи, которые я задаю в настройках стиля "Обычный", как раз и ставятся в свежесоздаваемые документы (если я не поменяю язык через "Выбор языка"). Да и вставляемые из буфера куски текста тоже по настройкам "Обычного" форматируются.
Поэтому я и считаю его чем-то вроде умолчательного стиля Word.
Автор: zvty44
Дата сообщения: 20.04.2011 09:03
Как известно у FR 9/10 запускается при сканировании собственное меню сканирования при настройках по умлочанию (в настройках можно выбрать чтобы запускалось фирменное меню сканирования разработчика сканера).
В этом меню в FR9 доступно 200, 300,.., 600dpi,
а в FR10 доступно 300 и 600dpi.
Вопрос:
Как сделать чтобы именно в этом меню было доступно 100dpi?

Вопрос обусловлен тем, что только в этом меню для некоторых сканеров доступен режим
автоматической подачи (кладешь в ксерокс шарп пачку бумаги, а он сам по очереди берет из нее и сканирует), а 200dpi слишком много.
Спасибо за ответы.

Или можно посоветовать другую программу с собственным меню сканирования для
таких целей? Vuescan и SilverFast не подходят потому что у них не поддерживаются
сканеры Sharp.
Автор: ComboFZ
Дата сообщения: 21.04.2011 01:24
-
Автор: Shangry
Дата сообщения: 21.04.2011 15:17
zvty44
А так ли уж обязательно именно _сканировать_ на 100 точек?
Это к тому, что перевести скан из большего разрешения в меньшее - задача решаемая куда проще.
Автор: zvty44
Дата сообщения: 21.04.2011 17:20
Shangry
Наверное вы правы.
Но проблему решает следующая программа:
http://www.masterslabs.com/ru/scanitto-pro.html
Автор: Shangry
Дата сообщения: 21.04.2011 18:33
zvty44
Обычная беда таких программ - драйверы. С какими-то сканерами работает, с какими-то работает, но с капризами, каких-то вообще не знает и не понимает.
Вот если бы кто-то соединил общение со сканерами на уровне их TWAIN-драйверов, но сканирование не через TWAIN-интерфейс, а через свой собственный - это было бы нечто заслуживающее внимания.
Автор: probvs
Дата сообщения: 22.04.2011 12:02
Доброго времени суток!

FR9PE при сканировании документов обрезает низ страницы, что делать куда копать?
Автор: zhe_zho
Дата сообщения: 22.04.2011 23:29

Цитата:
FR9PE при сканировании документов обрезает низ страницы, что делать куда копать?

Только из FineReader? А из других программ пробовали, например просмотрщиков, обработчиков, редакторов графики?
Автор: coherent
Дата сообщения: 29.04.2011 20:31
Этот вопрос в той или иной форме уже задавался, но реального ответа я так и не нашел. Если я не прав, ткните, пожалуйста, в нужное место!
Итак, имеются физические тексты на английском (или русском), которые содержат греческие символы типа лямбда, сигма и т.п. При распознавании заданы соответственно английский (или русский) и греческий. Греческие символы прекрасно распознаются, но при сохранении в doc (rtf)-формат превращаются в русские! Как с этим бороться?
Версия 8.0.0.1126 Pro (все ссылки с форума), греческий язык доустанавливал как книжка пишет, скачал экзешник и запустил.
Здесь малюсенький (6 строчек) тестовый текст, англ.+греческий. У кого есть желание и время, попробуйте. Может я что-то не так делаю, может какие-то настройки или еще что-то...
Автор: Astra55
Дата сообщения: 29.04.2011 21:52
coherent
Все отлично распознается (само собой, после экспорта в растровую графику) и сохраняется в rtf - http://narod.ru/disk/11493095001/OCRed.rtf.html . Как английский, так и греческий. В опциях сохранение шрифтов включили? Фонт выбрали? Ну хоть немножко мышкой потыкайте внутри FR.
Автор: coherent
Дата сообщения: 30.04.2011 17:28
Astra55
Если можно, по-подробней. Сделайте скидку на то, что я этой программой до этого момента не пользовался. Просто не возникало необходимости.
Что означает

Цитата:
само собой, после экспорта в растровую графику

что именно, когда и как надо экспортировать?
Я делал так:
1. Файл-Открыть pdf/изображение
2. Распознать
3. Сохранить страницы. Выбираю doc или rtf.

Цитата:
Фонт выбрали?

В Опциях-Сохранить заданы шрифты
С засечками - Times New Roman
Без засечек - Arial
Моноширинный - Courier New
Похоже, что надо зать какие-то другие шрифты. Только какие?

Цитата:
В опциях сохранение шрифтов включили?

Что-то такой опции не вижу у себя.
Ваш файл скачать почему-то не могу, выдает ошибку "404. Нет такой страницы"!
Автор: Astra55
Дата сообщения: 30.04.2011 18:07
coherent
Вы выложили векторный pdf, его распознать FR/PT напрямую невозможно, только если включить опцию растризации, она была до 8-й версии включительно. В ссылку на файл добавилась точка в конце, исправил. Пока не будет примера из нескольких страниц оригнального файла, с которым у Вас проблемы, говорить не о чем.
Автор: coherent
Дата сообщения: 30.04.2011 18:43
Astra55
Открыл Ваш файл у себя в Ворде (оффис ХР Prof), а там вместо греческих символов - русские!? Вот скрин. Похоже, что у меня нет каких-то шрифтов или шрифта. Может в этом причина?
Автор: Astra55
Дата сообщения: 30.04.2011 19:21
coherent
Тогда разбирайтесь со своей системой. У меня WinXP SP3 Word 2003, все софты портабельные, включая Ворд и ФайнРидер, поэтому ни единого лишнего фонта нет, только виндовые. Все показывает правильно, и английский и греческий.
Автор: coherent
Дата сообщения: 02.05.2011 17:16
Astra55
Спасибо, что нашли и время и желание помочь! Теперь понятно, что проблема где-то у меня с оффисом ХР. Но никак не могу понять где. Самое интересное, что если распознаный текст из моего примера сохранить в буфер обмена и вставить в блокнот, то символы будут греческими, а если в Ворд - то русскими?! Понимаю, что это как-бы с FR уже не связано, но может подскажете, куда копать?
Автор: Astra55
Дата сообщения: 02.05.2011 18:31
coherent
Попробуйте для начала портабельный Ворд 2003 или 2007 и поглядите что будет. Если все было стандартное, фонты не менялись, то не знаю, трудно сказать, никогда нужды в греческом не испытывал.
Автор: coherent
Дата сообщения: 02.05.2011 20:49
Astra55
С портабельными версиями (Ворд 2003, 2007 и FineReader 8) ситуация следующая. На реальной системе греческие символы отображаются как русские, а вот на виртуальной (только Виндоус ХР сп3 без оффиса) все прекрасно работает. В том числе и в Вашем файле греческие символы отображаются правильно. Проблема где-то в моей реальной системе. Полазил по Интернету, вроде и все шрифты на месте, и записи в реестре те, что должны быть. Просто не могу понять, где собака зарыта!
Автор: coherent
Дата сообщения: 03.05.2011 15:27
Astra55
Таки разобрался в чем была проблема. Оказалось в реестре. В HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage некоторые значения отличались от дефолтных. Восстановил их и все заработало!
Автор: vladlen666
Дата сообщения: 04.05.2011 21:34
ABBYY FineReader 7.0 отказывается открывать файлы в формате Tiff сжатый LZV.
Совет установите FR9 или 10 не подходит, так как мне нужен проект распознавания именно в формате FR7 для дальнейшего внесения распознанного текста в DJVU книгу.
Пересохранение файлов в несжатый тифф выход но не лучший, так как файлов очень много и комп слабый, поэтому прогнозирую проблемы при обработке.

То есть есть ли диллки для FR7 чтобы он понимал сжатый тифф

Можно установить конечно FR8, так как программа DjVuOCR корректно работает с проектами FR8 и FR8 кажется по умолчанию понимает сжатые тиффы.

Отчасти ПРОБЛЕМУ решил использованием патча для FR9 который исправил порядок перепутанных страниц в проекте FR9
И все таки есть ли возможность повысить функциональность FR7
Автор: Shangry
Дата сообщения: 10.05.2011 16:11
vladlen666

Цитата:
ABBYY FineReader 7.0 отказывается открывать файлы в формате Tiff сжатый LZV.

Конвертируйте их в JPEG с небольшим сжатием. Качество изображения будет примерно то же самое, обрабатываться будут немного быстрее.


Цитата:
программа DjVuOCR корректно работает с проектами FR8

Она и девятую версию вполне понимает.


Цитата:
мне нужен проект распознавания именно в формате FR7 для дальнейшего внесения распознанного текста в DJVU книгу.

Если у вас материал изначально живет в DjVu, так сбросьте его в более удобный для вас вариант TIFF.




Автор: amaid
Дата сообщения: 16.05.2011 12:44
нашел dll, благодаря которой файн 9 умеет импортировать djvu.
а нет ли в природе такой же dll'ки для файна 8?


Цитата:
Она и девятую версию вполне понимает.

бетка, брошена на полдороге
мало-мальски сложное форматирование вообще не понимает, плюс на многоядерных процессорах номера страниц в пакете путаются, поэтому OCR вставляется не туда
патч тот пробовал, толку не было пока ни разу
Автор: Shangry
Дата сообщения: 16.05.2011 13:53

Цитата:
а нет ли в природе такой же dll'ки для файна 8?

Который по своей конструкции даже и не подозревает о существовании такого формата?..
Автор: ALEX666999
Дата сообщения: 16.05.2011 13:56

Цитата:
amaid: а нет ли в природе такой же dll'ки для файна 8?

НЕТ. Для 9-ки подошло лишь потому, что там билды близкие и dll'ка подхватилась. Могу посоветовать раздербанить djvu и распознать полученные изображения. Меньше времени и нервов, чем искать несуществующее решение

2 all а применение стиля для текста на горячие клавиши в 9-й/10-й версии подвесить нельзя?

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104

Предыдущая тема: filesCatalog


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.