xdoc2txt211.zip (1317Kb) сборка от 29 мая 2015. Отличия от авторского архива:
xdoc2txt.txt - краткое английское описание со списком ключей комстроки (поправлено на основании японского текста)
xdoc2txt_jp.chm - копия оргинальной авторской страницы (на японском - может кто владеющий языком уточнит мой перевод ?)
xdoc2txt_ru.chm - отредактированный машинный перевод с японского страницы с описанием программы. Не трогал стилистику блоков истории и лицензии, что касается ключей комстроки и поддерживаемых форматов - там повозился.
[more=xdoc2txt_ru.txt - выписка из перевода]xdoc2txt - конвертор PDF, Word, Excel, RTF в текст из различных документов
ВНИМАНИЕ!
Использован машинный перевод с японского ибо в ином виде описание найти не
удалось. Посему и стилистические огрехи, ну а в основном выполнено техническое
редактирование текста.
xdoc2txt
Обзор
xdoc2txt это универсальный конвертер для извлечения текстовых
элементов,из различных форматов документов таких как PDF, Word, Excel,
Ichitaroработающий из командной строки Windows.
* xdoc2txt анализирует структуру различных документов самостоятельно
не используя такие программы как WORD или Acrobat.
* Он быстро работает что делает его идеальным для фильтров движков
полнотекстового поиска.
* Поддерживаются следующие форматы документов:
.rtf Форматированный текст (Microsoft RTF)
.docx Microsoft WORD 2007/2010/2013(OOXML)
.xlsx Microsoft Excel 2007/2010/2013(OOXML)
.pptx Microsoft PowerPoint 2007/2010/2013 (OOXML)
.doc Microsoft WORD ver5.0/95/97/2000/XP/2003
.xls Microsoft Excel ver5.0 / 95/97/2000/XP/2003
.ppt Microsoft PowerPoint 97/2000 XP/2003
.sxw/.sxc/.sxi/.sxd OpenOffice.org
.odt/.ods/.odp/.odg Open Document v1.2
.jaw/jtw Ichitaro v5
.jbw/juw Ichitaro v6
.jfw/jvw Ichitaro v7
.jtd/jtt Ichitaro ver8/9/10/11/12
.oas/oa2/oa3 OASYS/Win OASYS
.bun/.bun New Pine / Pine 5 / Pine 6
.wj2/.wj3/.WK3/.WK4/.123 Lotus 123
.wri Windows3 .1 Write
.pdf Adobe PDF Adobe PDF
.mht Веб-архив
.html W3C HTML
.eml Формат экспорта OutlookExpress
* Начиная с v2.0 поддерживаются Ifilter таке что если формат документа
не поддерживается xdoc2txt, вы можете сделать извлечеь текста если
есть соответствующий Ifilter. (функция доступна только в EXE версии)
* Для EXE / DLL версии COM-компонента возможности по извлечению
текста аналогичны.
xdoc2txt работает в следующих ОС.
ver1.x (MBCS)
Windows 95/98/ME/NT4.0/2000/XP/Vista / Windows 7(32bit/64bit)/Windows
8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server
2012(64bit) / Windows Server 2012 R2(64bit)
ver2.x (Unicode)
2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server
2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows
Server 2012 R2(64bit)
* Для v2.0, требуется установка общих библиотек времени исполнения
(для Vista и новее обычно не нужно)
"Microsoft Visual C++ 2008 SP1 Redistributable Package (x86)"
<http://www.microsoft.com/en-us/download/details.aspx%3Fid%3D5582&usg=ALkJrhi_lqzGwCWtZGte1h7WkMJMSJMUZw>
Параметры командой строки
xdoc2txt.exe [options..] <filename...> xdoc2txt.exe [опции ..] <имя файла ...>
-h : вывести справку
-s : выходная кодировка ShiftJIS (по умолчанию)
-e : выходная кодировка EUC
-j : выходная кодировка JIS
-u : выходная кодировка UTF-16 LE) (рекомендуется использовать с Ifilter)
-8 : выходная кодировка UTF-8
-f : выводить в файл
-p : показать свойства документа
-r=(0|1|2) : стиль скобок (0: как есть, 1: круглые скобки, 2: aozora bunko)
-o=0 : прочие опции;
-o=0 : не выводить в номера страниц PDF
-o=1 : удалить разрывы строк PDF
-g=# : диапазон масштаба PDF в процентах (по умолчанию 92%)
-v : вывести номер версии
-x : вывести только видимые ячейки (для EXCEL2007)
-i : по возможности использовать IFilter (совместимо с UTF-8 , UTF-16 LE)
Следующие опции были удалены в версии 2.0 как устаревшие:
-n: иигнорировать ограничения доступа в документах PDF (необходима cryptlib.dll)
-с кэш PDF (по умолчанию выключена)
<имя файла ...> имя выходного файла (если содержит пробелы, то обязательно заключать в "").
Допустимо использовать шаблоны подстановки "*" и "?".
Как использовать
Следующий пример пишет текст включенный в sample.doc документа
MS-Word на стандартный вывод.
xdoc2txt sample.doc
При перенаправлении потока вывода он может быть сохранён в файл.
xdoc2txt sample.doc > sample.txt
-f
Если использовать опцию -f, то можно сохранить вывод в файл с
автоматическим ррасширением .txt.
xdoc2txt -f sample.doc sample.xls
* ?
Шаблоны *? можно использовать в пакетном
задании для указании набора входных файлов.
xdoc2txt -f *.xls
-p
Для документов Office и Ichitaro (ver8 и
новее), можно отобразить свойства документа задав опцию. Будут отображены
только установленные элементы.
xdoc2txt -p руководство.doc
<Title>KWIC Finder</Title>
<Author>hishida</Author>
<Template>Normal.dot</Template>
<LastAuthor>hishida</LastAuthor>
<RevisionNumber>1</RevisionNumber>
<AppName>Microsoft Word 9.0</AppName>
<Lastprinted>2004/03/23 19:39:00</Lastprinted>
<Created>2004/03/23 19:35:00</Created>
<LastSaved>2004/03/23 19:44:00</LastSaved>
<PageCount>1</PageCount>
<WordCount>21</WordCount>
<CharCount>121</CharCount>
WORD/EXCEL/PowerPoint
Защищённые паролем документы Word/Excel/PowerPoint/Ichitaro не обрабатываются.
Перетаскивание мышью
Создайте ярлык на рабочем столе со следующими свойствами:
1. Правая кнопка мыши → отправить xdoc2txt.exe на Рабочий стол
(создать ярлык)в Проводнике Windows
2.
Правая кнопка мыши на иконке, которая была создана на рабочем
столе → Свойства
3. В конце Target добавить -f.
Пример: "C:\Program Files\kwic\xdoc2txt.exe" -f
4. Если вы перетащите файлы на этот значок, то выходные файлы с расширением .txt будут
сохранены в той же директории что и входные.
Ссылка на статью:
Http://Www.Forest.Impress.Co.Jp/article/2003/11/19/xdoc2txt.Html О Ifilter
* В Ver2.0 или новее поддерживает Ifilter. Если указать опцию -i, Ifilter могут быть
использованы для преобразования.
* Мы проверили следующие Ifilter.
- Ichitaro для IFilter 32-битной ОС
- DocuWorks Content Filter
- MMicrosoft Office Filter
- Adobe Reader 9.5 PDF Ifilter (Adobe Reader 10 Ifilter вышел
после выхода Adobe PDF IFilter v6.0, Adobe PDF IFilter 9 для
64-битных ОС не доступен.)
* Ifilter работает только с ЕХЕ сборкой и с другими (Dll/СОМ) не применим.
* Скачать
Ver2.x (Unicode)
* New ! 2015/5/29* xdoc2txt 2.11 ( xd2tx211.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx211.zip>
* xdoc2txt 2.10 ( xd2tx210.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx210.zip>
* xdoc2txt 2.09 ( xd2tx209.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx209.zip>
* xdoc2txt 2.08 ( xd2tx208.zip )
<http://ebstudio.info/download/KWICFinder/xd2tx208.zip>
Ver1.x(MBCS)
* xdoc2txt 1.50 ( d2txt150.zip )
<http://ebstudio.info/download/KWICFinder/d2txt150.zip>
История
Ver2.x (Unicode)
2.11 2015/5/29
* Excel2007 улучшение производительности Формат извлечения текста из (.xlsx)
---
©2002-2012 hishida[/more] может кому пригодится в качестве комплекта подсказок.
Всё остальное точно соответствует оригиналу. Автор предупредил, что разработка версии 1.0 завершена и последняя в данной ветке версия 1.50.
* Для работы версии 2.0 требуется рунтайм от MS VC++ 2008 SP1 x86, но по идее должно хватить просто положить рядом с xdoc2txt.exe/xdoc2txt.dll библиотеки atl90.dll (для COM сборки), msvcp90.dll и msvcr90.dll v9.00.30729.5570 из архива - по крайней мере MSDN возражать не будет.