Ru-Board.club
← Вернуться в раздел «Программы»

» xdoc2txt: есть ли что-то лучше?

Автор: Leagnus
Дата сообщения: 14.10.2010 22:11
С задачей: постоянно конвертить doc в txt прекрасно справляется xdoc2txt.
Да вот незадача: есть символы, которые txt-файл может держать только если сам будет в Unicode или UTF-кодировке.
Пример: × (знак умножения), ² (цифра 2 апперскриптом), ° и т.п.
Вопрос к сообществу: встречал ли кто-нибудь утилиту лучше xdoc2txt,
которая могла бы конвертить doc в txt так,
чтобы по запросу сохранять в вышеуказанных двух кодировках?
OOo (Open Office) не предлагать, т.к. нужна утилита, а не ракетный комплекс.
Автор: Victor_VG
Дата сообщения: 29.10.2014 15:40
Leagnus

Распишитесь и получите - xdoc2txt v2.0.0.4 UNICODE, документация на японском, но я в корень архива положил relnotes.txt с кратким описанием программы. Проверено на RTF, PDF, XLSX что при вызове с русским языком у неё проблем нет:

xdoc2txt -8 -f <input file> - вывод в UTF-8 | xdoc2txt -u -f <input file> вывод в UTF-16 LE (CP-1200)

выходной документ получает имя как у входного файла, расширение .ТХТ, но утилита в выходной файл BOM не ставит, так что грузим в текстовый редактор, учитываем кодировку и добавляем BOM.
Автор: Leagnus
Дата сообщения: 04.01.2015 10:12
Фантастика! Все символы сохраняет! Спасибо, Витторе!
Три года юзал скрипт, использующий COM-модель к монстрообразному текстовому редактору.
Перед этим перепробовал antiword, DOC2TXT[MZ], ZD2T и др.
Автор: caxap
Дата сообщения: 04.01.2015 14:30
http://ebstudio.info/home/xdoc2txt.html

Цитата:
Ver2.x(Unicode&#29256;)
New ! 2014/10/28
xdoc2txt 2.07( xd2tx207.zip )
•xdoc2txt 2.06 ( xd2tx206.zip )
•xdoc2txt 2.05 ( xd2tx205.zip )
•xdoc2txt 2.04 ( xd2tx204.zip )
•xdoc2txt 2.03 ( xd2tx203.zip )
•xdoc2txt 2.02 ( xd2tx202.zip )
•xdoc2txt 2.01 ( xd2tx201.zip )
•xdoc2txt 2.00 ( xd2tx200.zip )

Ver1.x(MBCS&#29256;)
•xdoc2txt 1.50 ( d2txt150.zip )
•xdoc2txt 1.49 ( d2txt149.zip )
•xdoc2txt 1.48 ( d2txt148.zip )
•xdoc2txt 1.47 ( d2txt147.zip )
•xdoc2txt 1.46 ( d2txt146.zip )
•xdoc2txt 1.45 ( d2txt145.zip )
•xdoc2txt 1.44 ( d2txt144.zip )
•xdoc2txt 1.43 ( d2txt143.zip )
•cryptlib.dll Ver1.00 ( crypt100.lzh / 37KB ) -

http://ebstudio.info/download/KWICFinder/xd2tx207.zip
Автор: Victor_VG
Дата сообщения: 07.06.2015 17:15
xdoc2txt211.zip (1317Kb) сборка от 29 мая 2015. Отличия от авторского архива:

xdoc2txt.txt - краткое английское описание со списком ключей комстроки (поправлено на основании японского текста)
xdoc2txt_jp.chm - копия оргинальной авторской страницы (на японском - может кто владеющий языком уточнит мой перевод ?)
xdoc2txt_ru.chm - отредактированный машинный перевод с японского страницы с описанием программы. Не трогал стилистику блоков истории и лицензии, что касается ключей комстроки и поддерживаемых форматов - там повозился.
[more=xdoc2txt_ru.txt - выписка из перевода]xdoc2txt - конвертор PDF, Word, Excel, RTF в текст из различных документов

ВНИМАНИЕ!

Использован машинный перевод с японского ибо в ином виде описание найти не
удалось. Посему и стилистические огрехи, ну а в основном выполнено техническое
редактирование текста.

xdoc2txt

Обзор

xdoc2txt это универсальный конвертер для извлечения текстовых
элементов,из различных форматов документов таких как PDF, Word, Excel,
Ichitaroработающий из командной строки Windows.

* xdoc2txt анализирует структуру различных документов самостоятельно
не используя такие программы как WORD или Acrobat.
* Он быстро работает что делает его идеальным для фильтров движков
полнотекстового поиска.
* Поддерживаются следующие форматы документов:

.rtf     Форматированный текст (Microsoft RTF)
.docx     Microsoft WORD 2007/2010/2013(OOXML)
.xlsx    Microsoft Excel 2007/2010/2013(OOXML)
.pptx Microsoft PowerPoint 2007/2010/2013 (OOXML)
.doc    Microsoft WORD ver5.0/95/97/2000/XP/2003
.xls     Microsoft Excel ver5.0 / 95/97/2000/XP/2003
.ppt    Microsoft PowerPoint 97/2000 XP/2003
.sxw/.sxc/.sxi/.sxd     OpenOffice.org
.odt/.ods/.odp/.odg     Open Document v1.2
.jaw/jtw    Ichitaro v5
.jbw/juw    Ichitaro v6
.jfw/jvw Ichitaro v7
.jtd/jtt     Ichitaro ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win OASYS
.bun/.bun     New Pine / Pine 5 / Pine 6
.wj2/.wj3/.WK3/.WK4/.123     Lotus 123
.wri     Windows3 .1 Write
.pdf     Adobe PDF Adobe PDF
.mht     Веб-архив
.html     W3C HTML
.eml    Формат экспорта OutlookExpress

* Начиная с v2.0 поддерживаются Ifilter таке что если формат документа
не поддерживается xdoc2txt, вы можете сделать извлечеь текста если
есть соответствующий Ifilter. (функция доступна только в EXE версии)
* Для EXE / DLL версии COM-компонента возможности по извлечению
текста аналогичны.

xdoc2txt работает в следующих ОС.

ver1.x (MBCS)

Windows 95/98/ME/NT4.0/2000/XP/Vista / Windows 7(32bit/64bit)/Windows
8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server
2012(64bit) / Windows Server 2012 R2(64bit)

ver2.x (Unicode)

2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server
2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows
Server 2012 R2(64bit)

* Для v2.0, требуется установка общих библиотек времени исполнения
(для Vista и новее обычно не нужно)
"Microsoft Visual C++ 2008 SP1 Redistributable Package (x86)"
<http://www.microsoft.com/en-us/download/details.aspx%3Fid%3D5582&usg=ALkJrhi_lqzGwCWtZGte1h7WkMJMSJMUZw>

Параметры командой строки

xdoc2txt.exe [options..] <filename...> xdoc2txt.exe [опции ..] <имя файла ...>

-h : вывести справку
-s : выходная кодировка ShiftJIS (по умолчанию)
     -e : выходная кодировка EUC
-j : выходная кодировка JIS
-u : выходная кодировка UTF-16 LE) (рекомендуется использовать с Ifilter)
-8 : выходная кодировка UTF-8
-f : выводить в файл
-p : показать свойства документа
-r=(0|1|2) : стиль скобок (0: как есть, 1: круглые скобки, 2: aozora bunko)
-o=0 : прочие опции;
-o=0 : не выводить в номера страниц PDF
-o=1 : удалить разрывы строк PDF
-g=# : диапазон масштаба PDF в процентах (по умолчанию 92%)
-v : вывести номер версии
-x : вывести только видимые ячейки (для EXCEL2007)
-i : по возможности использовать IFilter (совместимо с UTF-8 , UTF-16 LE)

Следующие опции были удалены в версии 2.0 как устаревшие:

-n: иигнорировать ограничения доступа в документах PDF (необходима cryptlib.dll)
-с кэш PDF (по умолчанию выключена)

<имя файла ...> имя выходного файла (если содержит пробелы, то обязательно заключать в "").
Допустимо использовать шаблоны подстановки "*" и "?".

Как использовать

Следующий пример пишет текст включенный в sample.doc документа
MS-Word на стандартный вывод.

xdoc2txt sample.doc

При перенаправлении потока вывода он может быть сохранён в файл.

xdoc2txt sample.doc > sample.txt

-f

Если использовать опцию -f, то можно сохранить вывод в файл с
автоматическим ррасширением .txt.

xdoc2txt -f sample.doc sample.xls

* ?

Шаблоны *? можно использовать в пакетном
задании для указании набора входных файлов.

xdoc2txt -f *.xls

-p

Для документов Office и Ichitaro (ver8 и
новее), можно отобразить свойства документа задав опцию. Будут отображены
только установленные элементы.

xdoc2txt -p руководство.doc

<Title>KWIC Finder</Title>
<Author>hishida</Author>
<Template>Normal.dot</Template>
<LastAuthor>hishida</LastAuthor>
<RevisionNumber>1</RevisionNumber>
<AppName>Microsoft Word 9.0</AppName>
<Lastprinted>2004/03/23 19:39:00</Lastprinted>
<Created>2004/03/23 19:35:00</Created>
<LastSaved>2004/03/23 19:44:00</LastSaved>
<PageCount>1</PageCount>
<WordCount>21</WordCount>
<CharCount>121</CharCount>

WORD/EXCEL/PowerPoint

Защищённые паролем документы Word/Excel/PowerPoint/Ichitaro не обрабатываются.

Перетаскивание мышью

Создайте ярлык на рабочем столе со следующими свойствами:

1. Правая кнопка мыши &#8594; отправить xdoc2txt.exe на Рабочий стол
(создать ярлык)в Проводнике Windows
2.
Правая кнопка мыши на иконке, которая была создана на рабочем
столе &#8594; Свойства
3. В конце Target добавить -f.

Пример: "C:\Program Files\kwic\xdoc2txt.exe" -f

4. Если вы перетащите файлы на этот значок, то выходные файлы с расширением .txt будут
сохранены в той же директории что и входные.

Ссылка на статью: Http://Www.Forest.Impress.Co.Jp/article/2003/11/19/xdoc2txt.Html

О Ifilter

* В Ver2.0 или новее поддерживает Ifilter. Если указать опцию -i, Ifilter могут быть
использованы для преобразования.
* Мы проверили следующие Ifilter.
- Ichitaro для IFilter 32-битной ОС
- DocuWorks Content Filter
- MMicrosoft Office Filter
- Adobe Reader 9.5 PDF Ifilter (Adobe Reader 10 Ifilter вышел
после выхода Adobe PDF IFilter v6.0, Adobe PDF IFilter 9 для
64-битных ОС не доступен.)
* Ifilter работает только с ЕХЕ сборкой и с другими (Dll/СОМ) не применим.


* Скачать

Ver2.x (Unicode)

* New ! 2015/5/29* xdoc2txt 2.11 ( xd2tx211.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx211.zip>
* xdoc2txt 2.10 ( xd2tx210.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx210.zip>
* xdoc2txt 2.09 ( xd2tx209.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx209.zip>
* xdoc2txt 2.08 ( xd2tx208.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx208.zip>

Ver1.x(MBCS)

* xdoc2txt 1.50 ( d2txt150.zip )
<http://ebstudio.info/download/KWICFinder/d2txt150.zip>

История

Ver2.x (Unicode)

2.11 2015/5/29

* Excel2007 улучшение производительности Формат извлечения текста из (.xlsx)
---

©2002-2012 hishida[/more] может кому пригодится в качестве комплекта подсказок.

Всё остальное точно соответствует оригиналу. Автор предупредил, что разработка версии 1.0 завершена и последняя в данной ветке версия 1.50.

* Для работы версии 2.0 требуется рунтайм от MS VC++ 2008 SP1 x86, но по идее должно хватить просто положить рядом с xdoc2txt.exe/xdoc2txt.dll библиотеки atl90.dll (для COM сборки), msvcp90.dll и msvcr90.dll v9.00.30729.5570 из архива - по крайней мере MSDN возражать не будет.
Автор: Victor_VG
Дата сообщения: 01.08.2015 15:39
xdoc2txt212.zip

xdoc2txt212.zip (1322Kb) сборка от 18 июля 2015. Отличия от авторского архива:

Отредактированный машинный перевод с японского страницы с описанием программы. Не трогал стилистику блоков истории и лицензии, что касается ключей комстроки и поддерживаемых форматов - там повозился.

xdoc2txt_en.chm - en-US
xdoc2txt_ru.chm - ru-RU

Всё остальное точно соответствует оригиналу. Автор предупредил, что разработка версии 1.0 завершена и последняя в данной ветке версия 1.50.

* Для работы версии 2.0 требуется рунтайм от MS VC++ 2010 SP1 x86, но по идее должно хватить просто положить рядом с xdoc2txt.exe/xdoc2txt.dll библиотеки atl100.dll (для COM сборки), msvcp100.dll и msvcr100.dll v10.00.40219.1 из архива - по крайней мере MSDN возражать не будет.
Автор: Victor_VG
Дата сообщения: 05.09.2015 04:00
xdoc2txt213.zip

xdoc2txt213.zip (1340Kb) сборка от 25 августа 2015. Отличия от авторского архива:

Отредактированный машинный перевод с японского страницы с описанием программы. Не трогал стилистику блоков истории и лицензии, что касается ключей комстроки и поддерживаемых форматов - там повозился.

Добавлено:

xdoc2txt_en.chm - en-US
xdoc2txt_ru.chm - ru-RU
xdoc2txt.txt - краткое описание и список ключей командной строки консольной версии (англ.)
./cryptlib.dll - требуется для работы с PDF зашифрованными AES-128 (добавлено в v2.13)
./atl100.dll, ./msvcp100.dll. /msvcr100.dll необходимые рунтаймы от MS VC++ 2010 SP1 x86.

DLL положите рядом с EXE/DLL конвертера.

Всё остальное точно соответствует оригиналу.

Автор предупредил, что разработка версии 1.0 завершена и последняя в данной ветке версия 1.51 от 25.08.2015 изменения в которой аналогичны изменениям в v2.13.
Автор: VictorVG2
Дата сообщения: 10.12.2015 02:32
Продолжение банкета - версия XDoc2Txt v2.14 (анонсирована 19.11.2015, мне на глаза попалась сегодня ), общие изменения похожи на v2.13 только документация слегка поправлена, а в самой v2.14 устранено падения на некоторых PDF (впрочем и в 1.52 автор внёс те же исправления).
Автор: VictorVG4
Дата сообщения: 26.04.2016 15:38
xdoc2txt215.zip сегодня заметил, снова перевод документации, пополнен архив. Разработка ветки 1.хх прекращена - там старшая версия 1.52.

v2.15 - Исправлена ошибка показа в тексте невидимых управляющих символов DOCX

Ну, смотрим что получилось...
Автор: VictorVG4
Дата сообщения: 05.05.2016 19:54
xdoc2txt216.zip от 26.04.2016 снова перевод документации, пополнен архив.

v2.16 26.04.2016 Исправлена ошибка отображения в списке When кодов форматирования в XLSX
Автор: wvxwxvw
Дата сообщения: 05.05.2016 23:13
VictorVG4
В прошлый раз смотрел и вот как я [more=кое что перевел]-r=(0|1|2) : стиль скобок (0: удалить, 1: ( ), 2: « »;)

-o=1 : PDF удалить переходы на новую строку (например: вертикальное письмо >>> горизонтальное)

# тоже пригодится для преобразования вертикального письма
-g=# : PDF межзнаковый интервал в процентах (по умолчанию 92%)
              -g=0 : Без регулировки
              -g=60 : Для изначально разреженного текста.


         -z=#    макимальный размер выходного файла (byte) Начальное значение 256MB
              -z=512000000    Максимальный размер выходного файла 512MB
              -z=0        Без ограничений. Не выполнять проверку.

У вас же:

Цитата:
-g=# :
диапазон масштаба PDF в процентах

[/more]
Автор: VictorVG4
Дата сообщения: 05.05.2016 23:51
wvxwxvw

Годится. Сегодня править не буду, а после праздников как вернусь - почему бы и нет?

Страницы: 1

Предыдущая тема: Clementine (аудиоплеер)


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.