Ru-Board.club
← Вернуться в раздел «Программы»

» Из pdf в текст (doc, txt, html)

Автор: tswanea
Дата сообщения: 10.10.2005 10:47
ALL
ребята есть же такая функция в Acrobat Professional 7. Надо тока дать данный документ на Save As и выбираем *.Doc и будет вам счастье
Автор: vitaly1
Дата сообщения: 10.10.2005 10:50
tswanea
Если форматирование очень простое, то еще ладно. А если что-то хоть немного сложное - получается очень некачественно.
Автор: Widok
Дата сообщения: 10.10.2005 11:01
шапку поднял
Автор: tswanea
Дата сообщения: 11.10.2005 11:44
vitaly1

Цитата:
Если форматирование очень простое, то еще ладно. А если что-то хоть немного сложное - получается очень некачественно.

да не может быть
у меня все намана работает качество на все 100
Автор: vitaly1
Дата сообщения: 11.10.2005 12:25

Цитата:
у меня все намана работает качество на все 100

Гм... Интересная логика. Попробуйте на этом файле - http://forum.ru-board.com/topic.cgi?forum=93&topic=0283&start=1800#19
Автор: Lomster
Дата сообщения: 11.10.2005 12:56
vitaly1

http://rapidshare.de/files/6140429/_________.rar.html - лучше не сделает никто, ABBYY FineReader 8.0.0.684 но по моему неплохо.
Автор: vitaly1
Дата сообщения: 11.10.2005 14:24
Lomster
Спасибо. Из того, что я перепробовал, ФР показал самые лучшие результаты. Но не кажется ли странным, что лучший способ вытащить текст - это распознавание?
Автор: tswanea
Дата сообщения: 12.10.2005 20:47
да вот вроде бы как получилось и не намана?
http://www.konfa.ru/public/dload/filex/page_from_rus_paronym.rar или http://www.konfa.ru/cgi-bin/filex.cgi?dl=page_from_rus_paronym.rar&go
Автор: Lomster
Дата сообщения: 12.10.2005 21:27
vitaly1

Цитата:
Но не кажется ли странным, что лучший способ вытащить текст - это распознавание?

Во первых, pdf формат довольно "мутный", во вторых, создатель PDF - Adobe заинтересована в преобразованиях "all to pdf" и не очень в обратных, иначе, ПО осуществляющее 100% корректное преобразование, давно увидело бы свет.
В третьих, ПО для создания pdf сейчас великое множество, из них, почти все работают по "эксклюзивным шаманским алгоритмам".

Ну и конечно новая мода сканить книги не распознавая(или частично распознавая) и конвертировать в электронные форматы, получается или набор сжатых картинок, или жуткое месиво из текста(отдельная песня про шрифты и их форматы) и картинок.

Finereader же, обладает отличными алгоритмами распознавания изображений, и сохранения оформления документа в конечном формате. И совершенно не важно в какой программе создан оригинал.

tswanea

Используй файнридер 8 И настрой как на скриншоте:



Кстати я никакой правки не вносил, и вроде бы только ударения не воспроизвелись.
Автор: Goul
Дата сообщения: 13.10.2005 05:38
Lomster

Цитата:
Используй файнридер 8 И настрой как на скриншоте:

По-моему, для словаря Вы указали как раз самую неподходящую конфигурацию. Она больше подходит для дальнейшей перегонки в PDF. Ну то есть несколько опций стоит оставить, как есть, а остальные переключить наоборот.
Автор: Lomster
Дата сообщения: 13.10.2005 07:35
Goul

Критикуя - предлагай! Каким образом в таком случае, удастся сохранить оформление, выделение текста и пр.? Подходящую конфигурацию в студию
Автор: Goul
Дата сообщения: 13.10.2005 08:41
Lomster

Цитата:
Критикуя - предлагай!

Предлагаю. У меня, правда, нет FR8, только FR7. Насколько я понимаю, в выпадающем списке "Оформление" должна быть опция "Сохранять тип и размер шрифта". Нужно выбрать её. Далее. Убрать флажки "Сохранять деление на строки", "Сохранять деление на страницы", включить галку "Удалять мягкий перенос". Сохранять цвет текста может не потребоваться, это зависит от исходного материала. В том словаре, который мы обсуждаем, это вроде бы не нужно. Если имеются картинки, выбрать формат, например, JPEG с необходимым качеством. Вряд ли экранного разрешения хватит.
С такими настройками уже можно приниматься за конвертацию словаря в электронный формат.
Автор: Lomster
Дата сообщения: 13.10.2005 09:50
Goul

То, что для разного исходного материала могут потребоваться различные настройки - в зависимости от того что желаем получить на выходе, это да, но, в нашем случае, требовалось как можно точнее передать оформление оригинала. Возьми pdf, тот что предлагал vitaly1 и попробуй распознать его с предлагаемыми тобой настройками.

Автор: Goul
Дата сообщения: 13.10.2005 10:07
Lomster
Это настройки экспорта, поэтому на распознавание они никак влиять не будут. А требовалось, как я понимаю, именно что не передать структуру документа, а вытащить из него данные для экспорта в электронный вид.
PS. "Оформление", соответственно, нужно выбрать "Таблицы, абзацы, шрифты".
Автор: Arbox
Дата сообщения: 11.03.2006 02:14
На мой взгляд, или стандартной функцие Save as... или через FineReader. Тем более, что 8 версия его очень неплоха. Пользуюсь и тем, и тем, в зависимости, до чего быстрее добираются руки
Автор: Raful
Дата сообщения: 19.03.2006 12:55
А кто-нибудь сталкивался с конвертированием ивритского pdf файла. Все основные конверторы иврит не распознают.
Автор: pnkv
Дата сообщения: 28.04.2006 20:15

Цитата:
А кто-нибудь сталкивался с конвертированием ивритского pdf файла. Все основные конверторы иврит не распознают.

и про китайский тоже было бы интересно. Какие проги не пробовал, не сохраняется.
Автор: r99
Дата сообщения: 29.04.2006 22:21
кто-нить может выложить 1-2 страницы тестового PDF от Vitaly1?
Автор: vitaly1
Дата сообщения: 29.04.2006 23:50
r99
Этот словарь можно взять вот тут, весит 1 Мб. Если напряжно столько скачать, могу выложить 1-2 страницы.

А зачем они тебе?
Автор: r99
Дата сообщения: 30.04.2006 14:56
vitaly1
ежели надергать страниц из всяких корявоконвертируемых PDF-ов
и сделать один на котором можно тестировать конверторы (pdf->doc,rtf..).
Вроде нашел один конвертор более-менее шустрый (< 15mb в размере).
Автор: npokypop2002
Дата сообщения: 30.04.2006 17:19
народ....у меня вот вопрос в обрт ном направлении как сделать из док pdf ?
Автор: vitaly1
Дата сообщения: 30.04.2006 23:54
r99
И что за конвертер?

Тебе отдельные страницы выкладывать?

Добавлено:
npokypop2002
Например с помощью этой проги.
Автор: Rush
Дата сообщения: 01.05.2006 06:01
npokypop2002

Цитата:
сделать из док pdf

Вот тема, где этот вопрос поднят - http://forum.ru-board.com/topic.cgi?forum=5&topic=17789
Автор: r99
Дата сообщения: 01.05.2006 12:42
vitaly1
http://forum.ru-board.com/topic.cgi?forum=35&bm=1&topic=9075&start=40#lt

paronym.pdf я скачал - так что из него страниц не нужно
но есть же и другие варианты - с матем формулами например
Автор: I love Opera
Дата сообщения: 26.10.2006 23:26
Margel
npokypop2002

Ребята! Ставьте Adobe Acrobat Professional 7.0, и будет вам и то и другое!
Автор: AVYegorov
Дата сообщения: 17.12.2006 16:26
Коллеги! Нужен ключик к PdfGrabber v.3.0.0.16 или 3.0.0.18 или сама прога v.3.0.0.13. Помогите, очень страдаю!
Автор: bredonosec
Дата сообщения: 19.12.2006 20:04

Цитата:
Нужен ключик

В варезник!
http://forum.ru-board.com/forum.cgi?action=filter&forum=35&filterby=topictitle&word=PdfGrabber
Автор: AVYegorov
Дата сообщения: 19.12.2006 20:34

Цитата:
В варезник!
http://forum.ru-board.com/forum.cgi?action=filter&forum=35&filterby=topictitle&word=PdfGrabber


Дык нету там ничего про 13, 16, 18 версию 3-го релиза!
Автор: bredonosec
Дата сообщения: 19.12.2006 20:50

Цитата:
Дык нету там ничего про 13, 16, 18 версию
А здесь и не будет!
:censored:
Потому как правила раздела указывают:

Цитата:
1. Запрещено:
1.1.0 Создание тем, не относящихся к тематике конференции.
1.2.0 поиск и/или публикация кряков, серийных номеров, обсуждения работы кракнутых программ, и других способов не официальной регистрации.
для этих целей обращайтесь в Варезник;
.....

Тыркая "согласен" при регистрации вы по идее дали согласие не нарушать местные правила, а сами даж не читали их.
Автор: AVYegorov
Дата сообщения: 20.12.2006 12:56
[q][/q]
Учту и исправлюсь!

Страницы: 1234

Предыдущая тема: Редактор для CDшной полиграфии


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.