Ru-Board.club
← Вернуться в раздел «Программы»

» ABBYY FineReader

Автор: Shangry
Дата сообщения: 21.05.2015 18:22
hogu77

Цитата:
автор словаря (я так понимаю речь идёт о Павле Черникове aka Чароплёт) убрал его со страницы.

Я так понимаю, что он его соорудил на базе словаря Виницкого? По какому адресу словарь лежал, не подскажете - может там еще что-то интересное обнаружится.


Цитата:
Забыл добавить что файлик в формате *.pmd, где в алфавитном порядке слова идут.

Ну да, просто переименованная TXT-шка. Я его в Far посмотрел, сразу все понятно стало. Только вот никак не соображу - там кодировка UNICODE или что-то другое?


Цитата:
Если же речь идёт о дореформке как таковой то для перевода с/на гражданский русский я использовал Hieroglyph 3.7 и алгоритм замены для него.

Если вам попадался и другой инструментарий для работы с дореформенным, то нет ли там чего-нибудь пригодного для генерации словоформ?
У меня скоро как раз эта проблема и будет - хочу пополнить словарь Виницкого, но весь материал, как обычно только в именительном падеже. А надо бы полный комплект словоформ сделать.
Автор: hogu77
Дата сообщения: 22.05.2015 19:25

Цитата:
Shangry
Я так понимаю, что он его соорудил на базе словаря Виницкого?

История процесса.


Цитата:
По какому адресу словарь лежал, не подскажете - может там еще что-то интересное обнаружится.

Скачал из ветки выше.


Цитата:
Ну да, просто переименованная TXT-шка.

Ничего подобного, родной *.pmd из Abbyy после загрузки туда словаря.


Цитата:
Если вам попадался и другой инструментарий для работы с дореформенным, то нет ли там чего-нибудь пригодного для генерации словоформ?

К сожалению, помочь в этом не могу.
Автор: corrector
Дата сообщения: 25.05.2015 14:39
Помогите, кто знает как, пожалуйста!
Распознал в FR8 книгу. Вычитал. Использовал шрифт Antiqua. Для приближения к оригиналу во всех словах курсивом использовал шрифт Cambria, кроме буквы "т": для нее использовал шрифт Karelia. В паре мест использовал шрифт "Literaturnaya". Все упомянутые шрифты зарегистрированы в Windows.
При попытке сохранить как pdf (параметры сохранения: Формат сохранения - Только текст и картинки; Шрифт - использовать системные шрифты, Встраивать шрифты) возникли две такие две проблемы:
а) на одной из страниц вылезло: "Шрифт Literaturnaya не содержит всех необходимых символов. Некоторые символы не будут показываться на экране. Продолжить сохранение в PDF?". Отвечаю - Да; процесс идет дальше.
Здесь вопрос сформулирую так: меня просто предупреждают, что (возможно) в тексте встретится (а может и не встретиться) символ в шрифте Literaturnaya, который не будет отображаться при просмотре pdf-файла (поскольку в этом шрифте представлены не все символы), или же FR в процессе формирования pdf-файла наткнулся на такой неотображаемый символ? При втором варианте: что FR ставит в тексте (когда натыкается на такой символ) в случае ответа "Да" на предупреждение?
б) когда FR натыкается на букву "т" (шрифт Karelia, курсив) вылезает сообщение "Встраивание шрифта "Karelia" запрещено. Сохранение отменено". Естественно, pdf-файл не создается. Вопросы:
Почему? Кем запрещено? Можно ли снять этот запрет?
Конечно, можно отказаться от этого шрифта. Но опять искать другой подходящий шрифт и заменять шрифт во всех вхождениях буквы "т" в "Karelia" (сотни слов на 600 стр.) - жуткий гемморой (мне становится плохо).
Примечание: Все эти проблемы всплывают лишь при сохранении в pdf со встраиванием шрифтов;
при отказе от встраивания шрифтов - проблем нет;
при сохранении в doc, rtf, xml, html, lit - никаких сообщений, все сохраняется.
Среда: Win 7 Ent SP1 x64: FineReader 8.0.0.1126 port
UPD: проверил на Win Vista Home Basic SP2 (ноутбук) + FineReader 8.0.0.1126 port - все то же самое.
Автор: robofob
Дата сообщения: 25.05.2015 16:09
corrector

Цитата:
Среда: Win 7 Ent SP1 x64: FineReader 8.0.0.1126 port
UPD: проверил на Win Vista Home Basic SP2 (ноутбук) + FineReader 8.0.0.1126 port - все то же самое.

Ежики плакали, кололись, но продолжали любить кактус... Версию FR более новую не пробовали использовать, или Заратустра не позволяет использовать современный софт?
Автор: corrector
Дата сообщения: 25.05.2015 19:09

Цитата:
Ежики плакали, кололись, но продолжали любить кактус... Версию FR более новую не пробовали использовать, или Заратустра не позволяет использовать современный софт?

Не надо ерничать, robofob. Есть у меня и последние версии FR. Если я пользую FR8, значит на то есть причины.
По существу проблем есть что сказать?
Автор: robofob
Дата сообщения: 26.05.2015 13:22
corrector

Цитата:
Цитата:
Ежики плакали, кололись, но продолжали любить кактус... Версию FR более новую не пробовали использовать, или Заратустра не позволяет использовать современный софт?

Не надо ерничать, robofob. Есть у меня и последние версии FR. Если я пользую FR8, значит на то есть причины.
По существу проблем есть что сказать?

Я не ёрничаю. В ваших вопросах и ответ содержится. Если сохраняется в другие форматы, сохраните в них, а потом из них создайте pdf любым способом. Из doc, например, с сохранением шрифтов.

Автор: corrector
Дата сообщения: 26.05.2015 14:57

Цитата:
Если сохраняется в другие форматы, сохраните в них, а потом из них создайте pdf любым способом. Из doc, например, с сохранением шрифтов.


При сохранении в doc, rtf, html к черту летит форматирование страниц (FR8 плохо вычисляет размеры страниц даже при выставленных параметрах Оформление - "Оформление оригинала", размер бумаги - "Executive", "сохранять деление на строки"): текст страницы часто не вписывается в габариты станицы, строки не вписываются в ширину и появляются новые переносы. Как ни странно, в pdf картина обратная - геометрия страницы держится железно. Но вот кто-то не любит отдельно взятые шрифты.
Автор: Shangry
Дата сообщения: 26.05.2015 16:59
corrector

Цитата:
Здесь вопрос сформулирую так: меня просто предупреждают, что (возможно) в тексте встретится (а может и не встретиться) символ в шрифте Literaturnaya, который не будет отображаться при просмотре pdf-файла (поскольку в этом шрифте представлены не все символы), или же FR в процессе формирования pdf-файла наткнулся на такой неотображаемый символ?

Сообщение надо понимать в его буквальном смысле - для отображения данного куска распознанного текста используется шрифт такой-то, в тексте есть символы, которые в этом шрифте отсутствуют, ergo отобразить их будет невозможно.
При подобных сообщениях имеет смысл использовать UNICODE-комплектные шрифты - там уж точно все найдется. Или же разбираться, чего именно у вас нет в используемом шрифте и подбирать другой, более комплектный шрифт.


Цитата:
При втором варианте: что FR ставит в тексте (когда натыкается на такой символ) в случае ответа "Да" на предупреждение?

Вроде бы "квадратик", но точно не помню.


Цитата:
когда FR натыкается на букву "т" (шрифт Karelia, курсив) вылезает сообщение "Встраивание шрифта "Karelia" запрещено. Сохранение отменено". Естественно, pdf-файл не создается. Вопросы:
Почему? Кем запрещено? Можно ли снять этот запрет?

Почему и кем - скорее всего создателем шрифта, по каким-то своим соображениям. Можно ли снять - в пределах FineReader это вряд ли получится.


Цитата:
Все эти проблемы всплывают лишь при сохранении в pdf со встраиванием шрифтов;
при отказе от встраивания шрифтов - проблем нет;

Значит берет необходимые символы из других шрифтов, которые есть в системе.


Цитата:
при сохранении в doc, rtf, xml, html, lit - никаких сообщений, все сохраняется.

Все они при отсутствии именно требуемого шрифта (нужного символа в нем) тут же подыскивают что-нибудь подходящее на замену (из имеющегося в системе).

robofob

Цитата:
Версию FR более новую не пробовали использовать, или Заратустра не позволяет использовать современный софт?

Заменой версий все это по не определению лечится.
Автор: Dracula
Дата сообщения: 26.05.2015 17:42
Всем привет!
На работе в одном месте стоит МФУ - 4 в одном (+факс).

На него я так понимаю 12 версия встанет спокойно?

И там будет только через ABBYY FineReader 12 доступен сканер я так понимаю?
Автор: robofob
Дата сообщения: 26.05.2015 19:34
corrector

Цитата:
Но вот кто-то не любит отдельно взятые шрифты.

Ну, что тут скажешь... Жаль, конечно, 600 страниц... Я бы перед распознанием задал либо только адобовские родные шрифты, либо только системные, не перемешивая их.
Автор: krserv
Дата сообщения: 26.05.2015 22:31
а последняя версия Sprint - 9 или есть еще новее?
Автор: robofob
Дата сообщения: 27.05.2015 12:40
Правда ли, нет, что FR Pro грузит процессор меньше Corp?
Автор: Shangry
Дата сообщения: 27.05.2015 14:50
Dracula

Цитата:
На работе в одном месте стоит МФУ - 4 в одном (+факс).
 
На него я так понимаю 12 версия встанет спокойно?  

А что уже появились МФУ, на которые можно софт устанавливать ? Или речь все-таки о компе, который при МФУ?


Цитата:
И там будет только через ABBYY FineReader 12 доступен сканер я так понимаю?

Если поставлен TWAIN-драйвер сканера, то будет доступно через любой софт, который с этим сканером умеет работать.

robofob

Цитата:
Ну, что тут скажешь... Жаль, конечно, 600 страниц...

Распознать с использованием других шрифтов - вот собственно и вся проблема. Но если надо именно эти и никакие другие - тогда действительно не лечится.


Цитата:
Правда ли, нет, что FR Pro грузит процессор меньше Corp?

Если скормить им одно и то же, то и грузить будут одинаково.



Автор: corrector
Дата сообщения: 28.05.2015 20:34
Решил свои проблемы. Сначала сохранил страницы в pdf без внедрения шрифтов. Затем внедрил используемые шрифты связкой Adobe Acrobat + Adobe Acrobat Distiller. Спасибо всем, кто попытался помочь.
Автор: robofob
Дата сообщения: 31.05.2015 12:50
corrector

Цитата:
Сначала сохранил страницы в pdf без внедрения шрифтов. Затем внедрил используемые шрифты связкой Adobe Acrobat + Adobe Acrobat Distiller

А можно в двух словах (по пунктам) как? Похоже, мне тоже надо
Автор: corrector
Дата сообщения: 31.05.2015 19:59
robofob
В 2-х словах.
1. Сохраняются страницы (FR8) в pdf со следующими параметрами сохранения: Формат сохранения - Только текст и картинки; Шрифт - использовать системные шрифты; Встраивать шрифты - галочка снята. Предполагается, что шрифты используемые в документе, зарегистрированы в Windows.

2. С помощью Adobe Acrobat документ преобразуется в формат ps (Файл -> Сохранить как другой -> Другое -> PostScript). При сохранении необходимо выставить некоторые настройки (кнопка Настройки в окне сохранения), связанные со шрифтами (В пункте "Основные" я выставил: Включение шрифтов - отсутствует; включил галку "Преобразовать шрифты TrueType в Type 1").

3. С помощью Adobe Acrobat Distiller ps-документ преобразуется в формат pdf. В программе перед открытием ps-документа я выставил следующие настройки (меню -> Настройки -> Изменить параметры Adobe PDF... -> Шрифты): указал список шрифтов, которые нужно встраивать, выставил галку "Сократить знаковый состав..." и указал 100% в окошке рядом. Далее открыть созданный в п.2 ps-документ - он преобразуется в pdf-документ и сохранится в той же папке и под тем же именем.

Наверное, полезной будет ссылка Встраивание и подстановка шрифтов из хелпа по Adobe Acrobat.
Автор: robofob
Дата сообщения: 01.06.2015 10:03
corrector

Цитата:
В 2-х словах.

Спасибо. Буду использовать.
Автор: ComboFZ
Дата сообщения: 01.06.2015 21:08
Так же в Акробате шрифты можно встраивать с помошью встроенного модуля Preflight (Предпечатная проверка) > Embed fonts > Analyze and fix.
http://s017.radikal.ru/i401/1506/f2/d783bc48cd32.jpg

Либо монструазным акробатовским плагином Enfocus PitStop (Rus) > Глобальные изменения > Шрифт > Встроить шрифт

При пересохранении в PDF/A шрифты автоматом встраиваются в документ.

Enfocus PitStop (ИМХО) предпочтительней других плагинов и программ, т.к. корректней встраивает недостающие фонты.
Автор: corrector
Дата сообщения: 01.06.2015 23:40

Цитата:
Enfocus PitStop (ИМХО) предпочтительней других плагинов и программ, т.к. корректней встраивает недостающие фонты.


К сожалению, у меня Акробат - portable, безо всяких плагинов, а как их в такой Акробат вставлять - не знаю.

Автор: Moler
Дата сообщения: 02.06.2015 10:24
Таблица сравнения версий
http://www.abbyy.ru/finereader/comparision-chart/?width=850&height=700&blocks=maintable#
ссылка больше не работает
Сравнение теперь на главной странице по продуктам для Windows:
http://www.abbyy.ru/finereader-windows/
Наверное можно подправить шапку?
Автор: Antonij72
Дата сообщения: 03.06.2015 05:09
Moler
Спасибо, подправил.
Автор: mydaylight
Дата сообщения: 07.06.2015 19:03
Оцените люди мою программу. Писал один. Ваши комментарии интересны...

Видео моей программы: https://youtu.be/hYLCCbRd_vU
Cайт: http://www.sunnypage.ge/ru/
Автор: VadimirTT
Дата сообщения: 07.06.2015 23:48
mydaylight
Видео хорошее, особенно саундтрек понравился.
"Tesseract — свободная компьютерная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х,"
Что это даст лично мне?
З.Ы. Использую файнридер для вставки оцр в дежавюшныю сканы книг.
Автор: anikuha
Дата сообщения: 08.06.2015 13:29
Добрый день. Возникает такая проблема. Установил ABBYY FineReader 12 Corporate. В обычном режиме сканирование проводит без проблем, а в Word 2013 по окончанию сканирования выдает такую ошибку

Права не ограничены

В чем проблемма? OC Win10 10130 x 64 Enterprise
Автор: robofob
Дата сообщения: 09.06.2015 09:20
Догадываюсь, что вопрос несколько "не в тему", но печалит он меня давно, а сформулировать внятно не получается Почему сохраненный в pdf из FR12 с установками по умолчанию файл открывается программами просмотра (sumatra, к примеру, да и stdu viewer) черт-знает сколько времени? Притом что исходный файл ровно в десять раз больше был по размеру, а открывался мгновенно?
Автор: ComboFZ
Дата сообщения: 09.06.2015 10:04
robofob
Выложите пример такого pdf (до и после FR12).
Автор: robofob
Дата сообщения: 09.06.2015 10:29
ComboFZ

Цитата:
Выложите пример такого pdf (до и после FR12)

Ссылка
Автор: Shangry
Дата сообщения: 09.06.2015 12:59
robofob

Цитата:
Почему сохраненный в pdf из FR12 с установками по умолчанию файл открывается программами просмотра (sumatra, к примеру, да и stdu viewer) черт-знает сколько времени? Притом что исходный файл ровно в десять раз больше был по размеру, а открывался мгновенно?

Скорее всего потому, что в 12-й версии, чтобы хранить внутри PDF изображения используется не JPG, как раньше, а JPX. Это одна из вариаций JPEG 2000, а значит куда более ресурсоемка. Вот с этого надо думать и имеем большие тормоза при открывании PDF
Автор: ComboFZ
Дата сообщения: 09.06.2015 16:22
robofob
В вашем pdf, после FR12 с MRC-сжатием, сканы журнала из jpeg конвертятся в слоеный jpeg2000, отсюда и тормоза при просмотре на слабых графических платах.
Попробуйте сохранить журнал как pdf/a с MRC-сжатием (получите слоеный jpeg), или как pfd/a без MRC-сжатия.
Автор: robofob
Дата сообщения: 09.06.2015 19:07
ComboFZ

Цитата:
pdf/a с MRC-сжатием (получите слоеный jpeg), или как pfd/a без MRC-сжатия

С настройками по умолчанию (т. е. без MRC-сжатия), получается вполне приемлемый результат: открывается быстро, выглядит симпатично. С MRC-сжатием - шрифт очень странный, решил не сжимать. Выигрыш в размере небольшой, процентов 20-30, и то хлеб: 49,8 вместо конских 71,3. Всем спасибо. И ещё я заметил (может, это и дико), если перед сохранением "текст под изображением" щщательно поудалять все области распознавания типа "картинка" - размер ещё уменьшится, без какой-либо потери внешнего вида...
P.S. Использую исключительно для поиска по тексту, никаких распечаток или печати, только занесение в базу Архивариуса 3000 с последующим чтением нужного текста с экрана.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104

Предыдущая тема: filesCatalog


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.