Ru-Board.club
← Вернуться в раздел «Программы»

» Sumatra PDF / SumatraPDF

Автор: Victor_VG
Дата сообщения: 20.05.2014 17:21
ItsJustMe

Да, абзацы в этом тексте набраны блоками, что отлично видно в PDFEditit (KDE, UNIX) или Infix PDF Editor (Win), но я при просмотре артефактов не обнаружил.
Автор: ItsJustMe
Дата сообщения: 20.05.2014 17:38
А там дело не в просмотре - при просмотре блоки не видно, при просмотре видно только оригинальную картинку. А вот если текст выделить и скопировать в буфер, то станет понятно, о чем идет речь.
Автор: Victor_VG
Дата сообщения: 20.05.2014 18:02
ItsJustMe

Понял, это очередные художества Adobe - вёрстка производилось её кривым Adobe Acrobat Pro 11.0.5 Paper Capture Plug-in и в тексте смесь кодировок UTF-8 и UTF-16 LE со вставкой понимаемых только Адобе команд разметки. Можно попросить ребят поглядеть, может что и придумают...
Автор: LonerDergunov
Дата сообщения: 20.05.2014 18:09

Цитата:
Я тоже посмотрел ваш файлик. Да, он такой, хитрый

Акробат - основа основ в pdf-строении, формат создан Адобом.
Так что этот файлик не хитрый, а самый стандартный.


Цитата:
со вставкой понимаемых только Адобе команд разметки

PDF-XChange тоже понимает. STDU Viewer понимает.


Цитата:
Paper Capture Plug-in

Этот плагин входит в базовый состав Акробата? Перераспознал с помощью чистого Акробата 11.0.07 - результат тот же.
Автор: Victor_VG
Дата сообщения: 20.05.2014 18:30
LonerDergunov
ItsJustMe

Попросил консультацию у разработчиков Inc 2593, сам исходный документ наверняка ещё потребуется, посему просьба не удалять.

LonerDergunov

Входит или нет в Акробат сей плагин я не смотрел ибо самого Акробата не держу по причине того, что пользуюсь UNIX, а не виндами и надеюсь что кошмар мне не приснится.

Насчёт стандартности, стандарт ISO 32000 не оговаривает возможности использования "расширений" типа смеси кодировок, но для Адобе всё можно.

По поводу Paper это программа с открытыми исходниками и в других приложениях где она используется я таких явлений не видел, а вот что именно там переписала для себя любимой Адобе сюань... У них "эталон графики" Photoshop CS - Photoshop CS3 глобально перехватывал клавишу ESC при своём запуске, и ничего, они несколько лет говорили что это не Photoshop, а другие программы кривые, но после крупного скандала и семизначного штрафа со скрипом этот "чужой" глюк убрали.
Автор: Koyotero
Дата сообщения: 20.05.2014 21:44
LonerDergunov
Попробуйте распознать в Finereader 12. У меня после этого результат получился нормальный, вид текста стал лучше чем если копировать из PDF - XChange.
Автор: LonerDergunov
Дата сообщения: 21.05.2014 00:39

Цитата:
Попробуйте распознать в Finereader 12

Finereader ведь не может распознать текст, не пережав самого pdf-файла
Не знал, оказывается есть неочевидные способы как сохранить исходный pdf с текстовым слоем Finereaderа
Автор: Victor_VG
Дата сообщения: 21.05.2014 14:22
SumatraPDF v2.6 r8879

Собрал, проблем не обнаружил, архив обновил, линк в шапке.

Что нового?

[more=Выписка из SVN changelog]r8879
investigate CID 1215084

r8878
fix buffer overflow introduced with r8876

r8877
rejig file::StartsWith() to maybe silence coverity

r8876
rename file::ReadAll() => file::ReadN()

r8875
add docs/wishlist-tabs.txt

r8874
fix inverted logic pointed out by coverity

r8873
working version of coverity.bat; add support for building with VS 2013 and (untested) fix to make VS 2012 build support Windows XP (thanks to XhmikosR)

r8872
fix /analyze warning

r8871
add Controller.[cpp|h] for abstracting DisplayModel and ChmEngine (and eventually EbookController)

r8870
add scripts/coverity.bat

r8869
merge latest MuPDF update

r8868
follow-up to r8865[/more]
Автор: Victor_VG
Дата сообщения: 22.05.2014 00:52
LonerDergunov

Зашёл я к ребятам в типографию и посмотрели ваш файл у них:



его создали 28.01.2013, а редактировали для снятия защиты 16.11.2013, и отредактировали криво. Так что Акробат к нему имеет сильно косвенное отношение, и я жду подобного ответа и от ребят.
Автор: LonerDergunov
Дата сообщения: 22.05.2014 01:50
Victor_VG
Я выложил первый попавшийся файл, - не помню кто его создавал и/или редактировал. В любом случае эффект во всех сканах (распознанных Акробатом) одинаковый.

ОК. Чтобы не было "кривых редактирований" - сделал чистый сэмпл. Взял набор jpg-сканов, в Acrobat 11.0.07 с дефолтными настройками собрал из них pdf, сделал в этом же Акробате OCR-слой с настройками Searchable image (Exact). Ссылка.
Автор: ComboFZ
Дата сообщения: 22.05.2014 08:25
Что интересно, проблема в SumatraPDF с копированием-вставкой OCR-текста сделанного в Акробате проявляется только с кириллицей, с латиницей такого нет. Это касается Акробатовских pdf с "Изображением с поиском" (текст под изображением).
Если использовать Акробатовский Clear Scan, то с кириллицей всё нормально при копировании-вставке через буфер обмена в SumatraPDF.

Автор: Victor_VG
Дата сообщения: 22.05.2014 13:58
SumatraPDF v2.6 r8885

Собрал, особых проблем не обнаружил, архив обновил, линк в шапке.

Что нового?

Цитата:
r8885
add WindowInfo::GetEngineType for convenience

r8884
move userAnnots from WindowInfo to FixedPageUIController

r8883
make WindowInfo::CleanUp work for background tabs

r8882
iterate tabs using GetTabData

r8881
allow loading ebook docs into a WindowInfo (and thus into a tab)

r8880
fix CID 1214886

что касается обсуждаемого явления, то оно легко проявляется при выделении смешанного (кириллица + латиница) текста - символы кириллицы выделяются по одному, символы латиницы - блоком, и соответственно копируются в буфер обмена.
Автор: STOCK1
Дата сообщения: 22.05.2014 17:13
Victor_VG Подскажите,пожалуйста,почему возрос "вес" последних сборок?
Было,что-то около 5 Мб, а сейчас больше 6-ти ,при этом у Zeniko все по-прежнему...
Может,я не прав...
Автор: Victor_VG
Дата сообщения: 22.05.2014 17:28
STOCK1

Честно говоря я пока и сам не пойму, но проверю скрипты - может что лишнее цепляют? А вероятно что это фокусы компилятора или SDK - я похожее видел на FarNetBox даже при включении полной оптимизации. 32-х битная либа выходит меньше чем у автора на 8 - 10 Кб, а вот х64-варинт наоборот, больше на 100 - 150 Кб. Причины мы с ребятами пока и сами не поняли...
Автор: STOCK1
Дата сообщения: 22.05.2014 17:34
Victor_VG
Спасибо.
Это,наверное,после проблем с Вашей "машиной"...
Оно и не критично,просто подумалось.
Автор: Victor_VG
Дата сообщения: 22.05.2014 18:10
STOCK1

Нет, тогда просто БП сдох, а нужного в продаже не было, пришлось заказывать и ждать. Правда удивительно, что Hiper HPU-4M530-PU проработал с нагрузкой почти 500 Вт целых семь лет и только сейчас отказал - у этих БП обычно намного раньше на такой нагрузке из-за перегрева вздуваются выходные ёмкости, а у этого они только сейчас взорвались...
Автор: Skif_off
Дата сообщения: 22.05.2014 19:46
STOCK1

Цитата:
Было,что-то около 5 Мб, а сейчас больше 6-ти ,при этом у Zeniko все по-прежнему...

Неправда, у Zeniko тоже вырос размер с 2,05 до 2,37 Мб, как бы это мало не было, 300 кб кода (причем пожатого MPress) - это немало.
По ходу что-то с компиляцией портативной версии, т.к. в инсталлируемой версии между 2.4 и 2.5.2 разница не столь заметная - всего чуть больше 100 кб.
Автор: STOCK1
Дата сообщения: 22.05.2014 21:26
Skif_off
Благодарю за разъяснения.Да,действительно-300К при сжатии уже заметно
Автор: Victor_VG
Дата сообщения: 22.05.2014 21:29
STOCK1

В блоге Krzysztof Kowalczyk размеры текущих публичных сборок v2.6 такие (вывод команды ls -s > files, размерность kb):

4467 SumatraPDF-prerelease-8885-install.exe
6404 SumatraPDF-prerelease-8885.exe

r8893 что я собрал:

4387 SumatraPDF-2.6-install.exe
4610 SumatraPDF-2.6-x64-install.exe
7129 SumatraPDF-2.6-x64.exe
6367 SumatraPDF-2.6.exe

так что мой бинарный код компактнее будет, раз, и второе никакими упаковщиками (mpress, upx) ни Кристоф ни я не пользуемся т.к. это ведёт резкому возрастанию требований программ к объёму памяти, и рост размеров бинарников вполне объясним - добавились новые возможности для работы с e-book и не только. Смотрите логи изменений исходников.

LonerDergunov

Причину явления - ошибка разбивки строк на слова в каше кодировок и алфавитов возникающая в MuPDF установлена. Идёт работа по её устранению.

SumatraPDF v2.6 r8893

Собрал, особых проблем не обнаружил, архив обновил, линк в шапке.

Что нового?

Цитата:
r8893
send WM_DESTROY to hwndTabBar when exiting through OnMenuExit

r8892
require addNavPt argument for Controller::GoToPage

r8891
implement 'b' e-book reading mode for ebooks

r8890
fix background tab related crash in OnTimer

r8889
handle WM_USER in TabNotification::Execute

r8888
fix stress testing

r8887
make DISABLE_EBOOK_WINDOW default, fix most remaining inconsistencies

r8886
create and load TabData at tab's creation
Автор: LonerDergunov
Дата сообщения: 23.05.2014 01:40
Victor_VG

Цитата:
Идёт работа по её устранению.

Спасибо за багрепорт разработчикам.

Нашёл ещё один нюанс - SumatraPDF не понимает мягкие переносы (soft hyphen) в OCR-слое.
Пример. Файл распознан в FineReader12:
http://rghost.ru/55634845
При распознании на месте переносов слов выставляются мягкие переносы. Такие слова в SumatraPDF не ищутся по тексту.
В Adobe Acrobat и PDF-XChange они находятся (то есть начало и конец слова при поиске автоматически "склеиваются").
Автор: Victor_VG
Дата сообщения: 23.05.2014 12:46
LonerDergunov

Понял, посмотрю, и думаю что это может быть связано с инц 2593. Если да, то эту задачу нужно решать в комплексе.
Автор: Victor_VG
Дата сообщения: 23.05.2014 19:50
SumatraPDF v2.6 r8904

Собрал, проблем не обнаружил, архив обновил, линк в шапке.

Что нового?

[more=SVN changelog]r8904
replace WindowInfo::IsFixedDocLoaded with AsFixed, WindowInfo::IsChm with AsChm and WindowInfo::IsEbookLoaded with AsEbook

r8903
add a bunch of TODOs to LoadModelIntoTab

r8902
make selection edge auto-scrolling work for higher DPI settings (fixes issue 2595)

r8901
merge latest MuPDF update

r8900
display toolbar below tabbar (fixes issue 2596)

r8899
rename ShowTabBar => UseTabs and make tabs the default

r8898
implement EbController::GoToLastPage

r8897
clean up remainder of EbookWindow.cpp

r8896
stop using Doc for engines (Controller allows to abstract both when needed)

r8895
remove EbookWindow (fixes issue 2594)

r8894
remove most SumatraWindow usage[/more]

LonerDergunov

Посмотрел с новым MuPDF первый документ - лучше конечно, но и он сам как мы знаем не прост:



даже без копирования видны ошибки разбивки. Будем работать далее...


Автор: uaixovich
Дата сообщения: 23.05.2014 23:44
можно ли (и как именно) отключить выделение текста в sumatrapdf?
Автор: Victor_VG
Дата сообщения: 23.05.2014 23:50
uaixovich

Дак это ж я специально курсором его выделял чтобы было видно границы разбивки слов в новой MuPDF.
Автор: uaixovich
Дата сообщения: 24.05.2014 00:18

Цитата:
я специально курсором его выделял

не, я не о картинке, а о расширенных настройках программы
Автор: Victor_VG
Дата сообщения: 24.05.2014 00:41
uaixovich

Так она по умолчанию ничего сама не выделяет. Или надо выделить фрагмент курсором или если данный PDF документ это позволяет щёлкнуть по нему мышкой. Иных вариантов я не знаю.
Автор: romby
Дата сообщения: 24.05.2014 16:15
Замечательная своей компактностью программа! К сожалению, очень бедная панель инструментов, и не видно возможности добавлять/удалять кнопки на огромное пустующее справа пространство. Хотелось бы видеть на ней как минимум ещё такие функции, как аккуратное задание (и отображение!) масштаба, а также выбор режима отображения документа (одна/две страницы/колонки, титульная страница вместе/отдельно).
Автор: Victor_VG
Дата сообщения: 24.05.2014 16:28
romby

Простой вопрос - а зачем нужна перегруженая кнопками панель? Чтобы в ней путаться? Лично меня к примеру её дизайн устраивает тем, что есть всё что надо, и нет мусора...

Вот её рабочее окно в версии 2.6 SVN r8913:



чего тут нам не хватает? По моему всё что надо есть, а лишнее будет только мешать...
Автор: romby
Дата сообщения: 24.05.2014 17:16
Victor_VG
Простой ответ вопросом на вопрос. Вот панель кнопок, она такая длинная и пустая, а зачем она своей длинной пустотой столько места на экране занимает?

К сожалению, это устаивает далеко не всех. И к сожалению, она не настраивается, чтобы всех устроить. Но к счастью, её можно убрать вообще
Автор: Victor_VG
Дата сообщения: 24.05.2014 17:45
romby

Её размер зависит от размера окна. Намёк понятен?

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748

Предыдущая тема: c$


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.