Ru-Board.club
← Вернуться в раздел «Программы»

» ABBYY FineReader

Автор: Astra55
Дата сообщения: 06.08.2010 16:33
Mircea
А как на компе обстоят дела с немецкими фонтами? Установлены, подключены, Ворд их видит?
Автор: FedorSumkins2009
Дата сообщения: 06.08.2010 17:02
Shangry
ну текст исторический(эмигрантская печать 30-х годов 20 века). благо уже 4 курс истфака,так что примерно понимаю смысл большей части текста,это ж не чистый церковно-славянский, и не рукопись. + можно в библе вытрясти при крайней нужде издание 90-го года для спокойствия.
интересует исключительно привести все в новую орфографию и перегнать в pdf/djvu c возможностями поиска.
Автор: cuneiform
Дата сообщения: 06.08.2010 19:40
Mircea

Цитата:
Cканирую текст на немецком. Распознает все правильно. Когда сохраняю в Word "специфические" немецкие буковки (с точечками на верху) заменяет на русские буквы д, ь, ц и Я. (FR-7 Word 2003). Подскажите как решается эта проблема.



ИМХО, думаю проблема не решаема, иначе как через отказ от русской винды. Пусть ответят знатоки IT, но я еще не видел компа с русской системой винды, чтобы умляуты правильно передавались - хотя бы через буфер или как то еще. Если поставить англ. версию системы, то проблема автоматом исчезнет. Поэтому правильно вопрос поставить так: Можно ли и как на компе с русской виндой передать правильно немецкие умляуты и французскую диакритику? Просто русская система хватает символы из русского алфавита в тех местах, где эти умляуты по месту стоят в кодовой таблице русской версии, в английской же версии там правильные символы попадают. А замена и смена шрифтов по опыту ничего не дает. Это проблема системы именно русской версии.
Автор: FedorSumkins2009
Дата сообщения: 06.08.2010 20:15
cuneiform может mui немецкий накатить надо. в русской таблица символов другая походу. надо в языках и рег.стандартах рыть
Автор: Blinda_J
Дата сообщения: 06.08.2010 23:39
FedorSumkins2009
У меня такая же лажа была, мне тут подарили макрос, где-то есть, поищи) не найдешь, стучи в личку, попробую найти.
Автор: U235
Дата сообщения: 07.08.2010 07:40
Mircea

Цитата:
Подскажите как решается эта проблема.

В крайнем случае решается поиском и заменой. Буквы с умляутами есть в стандартных шрифтах: Alt+0228
Автор: ALEX666999
Дата сообщения: 07.08.2010 17:47

Цитата:
cuneiform: Можно ли и как на компе с русской виндой передать правильно немецкие умляуты и французскую диакритику?

Проблема, по моей практике, может быть в подмене в реестре:

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage]
значение параметра 1252 на "c_1251.nls"

Это "фикс", чтобы не было "закорючек" заместо кириллицы в некоторых программах, иногда идёт с русификаторами, и т.д. Для возврата нужно изменить значения на исходные (1251 на 1252) и перезагрузиться
Автор: Ghost Inets
Дата сообщения: 09.08.2010 11:31
Mircea
в английской винде при инсталляции надо указывать кодовую таблицу нужного языка.

муи ничего не даст: это только интерфейс.
Автор: snayper7
Дата сообщения: 11.08.2010 12:45
подскажите плз. в FN10 portable при сканировании листа А4 его раскидывает на несколько листов. как победить? настройки выставлены на а4
Автор: Sish
Дата сообщения: 12.08.2010 08:03
snayper7
Это, скорее, не сабж виновен, а фейс сканера.
Автор: snayper7
Дата сообщения: 12.08.2010 12:19
Sish

Цитата:
Это, скорее, не сабж виновен, а фейс сканера.

как раз, когда выбираешь в настройках фейс не ридера а сканера, тогда правильно все делает. но так не удобно, потому что после сканирования 1 листа закрывается окно сканирования и второй лист. опять как первый надо *100 лишних нажатий*. ну я думаю меня поняли )
Автор: Sish
Дата сообщения: 13.08.2010 07:52
snayper7
А если в настройках сабжа поставить "Сканировать много страниц" и использовать фейс сканера?
Автор: snayper7
Дата сообщения: 14.08.2010 09:31
Sish
попробую, отпишусь
Автор: Shangry
Дата сообщения: 16.08.2010 14:23
Mircea

Цитата:
Cканирую текст на немецком. Распознает все правильно. Когда сохраняю в Word "специфические" немецкие буковки (с точечками на верху) заменяет на русские буквы д, ь, ц и Я. (FR-7 Word 2003). Подскажите как решается эта проблема.

Если в редакторе FineReader видны символы одной локали, а при сбросе в Word - символы другой (на тех же местах), то скорее всего обычное рассогласование шрифтов - распознавалось в одном, а выводилось в другом.
Выставить и там один и тот же шрифт (непременно с _полным_ объемом UNICODE-символов) и проблема должна исчезнуть.

cuneiform

Цитата:
Поэтому правильно вопрос поставить так: Можно ли и как на компе с русской виндой передать правильно немецкие умляуты и французскую диакритику?

А что собственно этому должно помешать?
У меня стоит W-2000 SP4 (русская) и никаких проблем с набором и сохранением специфических символов европейских локалей с этого не имею. Добавляю нужную раскладку, прописываю новый язык в региональных настройках, смотрю, чтобы был полнокомплектный шрифт - вот собственно и все. Хоть на сербском, хоть на норвежском.
Автор: Dasky
Дата сообщения: 19.08.2010 17:29
добрый...
кто может подсказать как в сабже сделать, чтоб при сканировании в pdf выставлялась автоматически область распознавания в картинку?
спс...
Автор: AiiiiiiiA
Дата сообщения: 23.08.2010 18:14
Более 200 страниц из 500 сложного текста помечены как распознанные и проверенные (FR 10), но текста нет - окно текст пустое. Повторное распознавание исправляет ситуацию, но перспектива делать все вновь угнетает. Момент, когда это произошло, не зафиксировал. Один раз было сообщение о внутренней ошибке программы, но, удивительно, после закрытия сообщения об ошибке, программа продолжила работать.
Кто-нибудь сталкивался с подобным?
Все необходимые файлы в папках страниц присутствуют, есть файл textStorage.dat, в котором, как я понимаю, хранится распознанный текст, а также файлы: layout.dat, layoutProperties.dat, pageStructure.dat, restore.dat. Наличие этих файлов и определяет то что страницы помечены как распознанные и проверенные. Есть файлы общие для всего проекта: _FRBatch.pac, DocGDS.opt, packet.options.opt.
Что-нибудь можно сделать?
Автор: ComboFZ
Дата сообщения: 23.08.2010 21:47
Dasky

Цитата:
...чтоб при сканировании в pdf выставлялась автоматически область распознавания в картинку?

Т. е. при открытии документа PDF в программе?
Используйте при открытии сценарии ABBYY FineReader.

Для FR9.0 в меню Сервис > Сценарии ABBYY FineReader > Менеджер сценариев > Новый создаёте свой сценарий, например:
1. Открыть изображения (с запросом или из папки)
2. Загрузить шаблон областей (с запросом или сразу из указанного файла *.blk, предварительно создаёте его используя одну из страниц документа выделив его полностью как картинку в окне Изображение и сохранив - меню Области > Сохранить шаблон областей, для разных размеров страниц свой шаблон)


Автор: Dasky
Дата сообщения: 23.08.2010 22:18
ComboFZ
спс...завтра попробую...
Автор: softes
Дата сообщения: 26.08.2010 10:10
Кто знает, есть ли возможность изменить чувствительность выравнивания страниц в ФР 10? Совсем кривые ровняет, но вот слегка перекошенные не хочет. А надо бы.

Еще вопрос созрел: иногда при экспорте в пдф (текст под картинкой) ФР производит очистку изображения "от мусора" и приводит ее в черно-белый формат. В настройках все опции автокоррекции отключены. В настройках экспорта качество картинки - "высокое". Что сделать, чтобы исходная картинка передавалась в пдф без ненужных "коррекций"?
Автор: msbn
Дата сообщения: 26.08.2010 16:14
не удается сохранить распознанный документ в формате pdf (text under image) - появлется сообщение unsupported font Cambria. можно ли как-нибудь решить проблему без распознавания заново?
Автор: Yevgenijz
Дата сообщения: 27.08.2010 06:12
FR9 не распознает символы ударения(такой символ с кодом UTF 769)

Нет ли такой программы, которая распознаёт?
Или может, кто пошлет им багрепорт, чтобы исправили, а то там, где есть эти символы, мало того, что распознаёт неправильно, так ещё и ударные буквы портит (Вместо и распознаёт Й и т.п.)
Автор: VitRom
Дата сообщения: 27.08.2010 07:49
All, кто долго и плотно пользуется сабжем, поясните плз про 7-8-9-10:

0. Каковы основные отличия между версиями с точки зрения пользователя: качества работы, стабильности и т.д. и т.п.?

1. Какая макс версия ещё сохраняет пакеты в более-менее "полезном" виде, с доступными файлами сканов и т.п.?

2. Что с доп. языками распознавания -- можно ли подкинуть язык от одной версии другой? А в пределах одной и той же версии, просто добавить к уже установленным?

3. Что с поддержкой формата DjVu в 9-10 -- на офсайте она заявлена, а на самом деле? [more=Спрашиваю потому, что]в параллельной ветке есть версия, названная "9.0.0.662 Pro+DjVu", в описании которой сказано "In Folder bonus is two files to support recognition of DjVu format... 1. Image.Format.DjVu.dll 2. Image.Helper.DjVu.dll".
Вот и спрашивается: а зачем?! Ведь якобы и так поддержка есть.[/more]
Автор: Yevgenijz
Дата сообщения: 27.08.2010 07:51

Цитата:
3. Что с поддержкой формата DjVu в 9-10 -- на офсайте она заявлена, а на самом деле?

Не знаю, в чем проблема, у мну нормально FR9 дежавюшки открывает и распознаёт, проблем не было.
Но правда сохранить в формате djvu не может, но для меня это не проблема.
Автор: Astra55
Дата сообщения: 27.08.2010 09:15
VitRom
Поддержка djvu появилась не с первых билдов 9-ки, поэтому файлы от новых билдов подсовывают более старым.
С файлами языков в пределах одной версии можно делать что угодно. Использовать их от другой версии, мягко говоря, неразумно.
Автор: Shangry
Дата сообщения: 27.08.2010 17:02
AiiiiiiiA

Цитата:
Более 200 страниц из 500 сложного текста помечены как распознанные и проверенные (FR 10), но текста нет - окно текст пустое.

Процесс распознавания не дошедший до конца (прерванный на середине) как раз дает такую картину.
Т.е. единственный выход - удалять в пакете все, сделанное ранее, и начинать сначала.

msbn

Цитата:
не удается сохранить распознанный документ в формате pdf (text under image) - появлется сообщение unsupported font Cambria. можно ли как-нибудь решить проблему без распознавания заново?

В шрифтах (то ли распознавания, то ли вывода - точно не помню) отключить этот Cambria.
А еще проще - поменять набор шрифтов для вывода. Там можно ставить или "системные" или еще что-то (не помню названия). Не работает одно - переключаемся на другое.

Yevgenijz

Цитата:
FR9 не распознает символы ударения(такой символ с кодом UTF 769)

Как правило, кроме обучения не лечится.


Цитата:
Нет ли такой программы, которая распознаёт?

Нет. Остальные в этом смысле еще хреновее.
Автор: JekaKot
Дата сообщения: 28.08.2010 09:59
VitRom
0. Это постоянно обсуждается, смотри "версию для печати", например, здесь... У каждой версии есть свои плюсы и минусы. Меня 8-ка корпоративная вполне устраивает...
1. 8-ка точно сохраняет (.tiff-формат), про 9-ку не помню, 10-ка - в свой формат непонятный...
Автор: AiiiiiiiA
Дата сообщения: 28.08.2010 14:35

Цитата:
1. 8-ка точно сохраняет (.tiff-формат), про 9-ку не помню, 10-ка - в свой формат непонятный...

А какие проблемы с tiff в 10-ке? Файл bwPage.frdat и есть истинный tiff. Достаточно сменить расширение на tiff или tif и открывай в любом редакторе. Но это черно-белая составляющая, цветная и серая хранятся в других файлах.
Автор: JekaKot
Дата сообщения: 28.08.2010 18:15
AiiiiiiiA

Цитата:
А какие проблемы с tiff в 10-ке? Файл bwPage.frdat и есть истинный tiff

Хм, не думал, что так просто, спасибо...
Тогда никаких, за исключением лишних телодвижений... Кроме того, каждый скан теперь находится в своей подпапке и имеет одно имя - для "серых" сканов это grayComponent.frdat, что также неудобно (если перед распознаванием требуется их корректировка).
Автор: Yevgenijz
Дата сообщения: 29.08.2010 03:57

Цитата:
в параллельной ветке есть версия, названная "9.0.0.662 Pro+DjVu", в описании которой сказано "In Folder bonus is two files to support recognition of DjVu format... 1. Image.Format.DjVu.dll 2. Image.Helper.DjVu.dll".
Вот и спрашивается: а зачем?! Ведь якобы и так поддержка есть.

Скорее всего речь идет бесплатной программе-плагине Дежавю OCR http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=22673#1
Чтобы можно было добавлять OCR-слой к дежавюшкам.
Оригинальный FR может и без этого распознавать дежавю, но записывать в формат дежавю, как он делает с PDF, не может.
Автор: AiiiiiiiA
Дата сообщения: 29.08.2010 09:58

Цитата:
для "серых" сканов это grayComponent.frdat

grayComponent.frdat вполне можно использовать как полутоновое изображение, только формат этого файла bmp, соответственно и расширение. А вообще это яркостная карта цветного изображения, а цветоразностные - файлы cbComponent.frdat (яркость-синий) и crComponent.frdat (яркость-красный) - тоже bmp, но вдвое меньшего разрешения.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104

Предыдущая тема: filesCatalog


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.