Ru-Board.club
← Вернуться в раздел «Программы»

» каталогизатор документов

Автор: ironwit
Дата сообщения: 10.11.2003 12:04
Темы про каталогизаторы были, но какие то разрозненные. Надо как то это все в кучу собрать.

Значит задача такова - есть очень большое количество e-book в различных форматах. От текстового (lib.ru) до pdf (что это , все знают )

Нужно иметь программу которая может создать список всей литературы, с возможностью снятия нескольких страниц из текста, опись, поиск по словам, группировку, возможность работать с отдельными носителями (то есть что-то на дисках, что то на винте, что-то в инете...)

Кто что может посоветовать? Я думаю что у многих есть или такая проблема, или какие то способы ее решения.

Помните - рассказывая о своем способе решения этой проблемы здесь, Вы, возможно узнаете как ее оптимизировать.

Успеха всем нам.
Автор: botolph
Дата сообщения: 10.11.2003 12:43
ironwit

Цитата:
Значит задача такова - есть очень большое количество e-book в различных форматах. От текстового (lib.ru) до pdf (что это , все знают )

Нужно иметь программу которая может создать список всей литературы, с возможностью снятия нескольких страниц из текста, опись, поиск по словам, группировку, возможность работать с отдельными носителями (то есть что-то на дисках, что то на винте, что-то в инете...)

Я эту задачу уже начал решать - очень рад, что и Вам она интересна - а то народ
осень плохо (т.е. никак) не прореагировал на мое предложение - см. мой
пост на e-Book (http://forum.ru-board.com/topic.cgi?forum=35&bm=1&topic=15722)
пардон не помню страницу так что просто повторю:

==========

Я думал, как сделать каталог своих электр. статей (десяток тысяч)
и понял, что 99,99% процентов вопросов будут типа:
"где статья/книга такого-то с таким - примерно - названием
или такими словами где-то во введении".
Это на > 50% охватит также "что почитать про..."

И хотел сделать так - пишу BAT (у меня Windows) он проходит
по всем поддиректориям (сделан!)
и с помощью Ghostscript автоматически одна-две первые страницы
любого PDF/PS - соотв. EmTeX'овский dviscr для DVI,
djvulibr'овские утилиты для DJVu (эти вещи уже тоже работают!)
автоматически печатает в TIFF (или кто что любит)
и переносит в одну директорию
генерируя уникальные имена (создавая лог где это взято)
потом FineReader (или как их теперь там)
- сделав пару опечаток в каждом термине - переводит в тексты.

Потом простейший текстовый поисковик ищет заданное сочетание слов
(автор - название - или ключевые, отражающие тему),
так, чтобы эти слова были "близко друг к другу"
и поближе к началу распознанного не обязательно в данном порядке
и не слишком чувствует пару-тройку опечаток распознавания
(Что? Нет, я сам программ не имею... Мне ка-а-ц-ца...)
Ну Google же работает! и не так плохо, учитывая объемы.

Подобное мероприятие, если его вдумчиво разработать
(по Вирту, сначала сверху вниз... ну, я сильно отстал от жизни)
позволить любому запустить разок (надо-о-лго) это банду
программ у себя в книжном архиыве и слить в единую "базу"
Потом update легко - если договориться вновь заносимые
файлы какой-нибудь touch или как их там ставить
текущую дату или еще лучше (другой пакет) автоматически
сравнит структуру директорий
на данный момент и на предыдущий проход...

В любом случае подобные распознанные текстовики
- АРХИВАЖНЫ И АРХИНУЖНЫ. Для тысяч статей в моем архиве
это единственный выход.

И прибамбасы типа вывода на экран самих найденых TIFF -
ну, добавить по вкусу и перемешать.

======================

Уже так сделал в черновом варианте для книг - не так уж много времени это и заняло..

Ваше мнение?


Автор: ironwit
Дата сообщения: 10.11.2003 14:50

Цитата:
и с помощью Ghostscript автоматически одна-две первые страницы
любого PDF/PS


а берет киррилицу?


Цитата:
потом FineReader (или как их теперь там)


запускать ручками?

А в общем идея неплоха, и что интересно ее можно автоматизировать Но, на машине обязательно должен присутствовать не очень чистый софт (что не очень хорошо).

Для начала можно конечно и так. Кто еще что скажет?
Автор: mihas83
Дата сообщения: 10.11.2003 20:44
ironwit
Очень актуальная тема... И здесь (на форуме) была бы интересна нескольким книжным "развалам"... Тем более у тебя есть "затравка" - твоя filelist.exe...
Между прочим, можна потом приспособить и для других задач...
Автор: ironwit
Дата сообщения: 11.11.2003 07:31
mihas83
у меня есть не только эта затравка Я хочу нормальный проект реализовать на эту тему. Так что присоединяйтесь, очень ведь много страждущих.
Автор: botolph
Дата сообщения: 11.11.2003 10:22
ironwit

Цитата:

а берет киррилицу?

Да хоть иероглифы (рисунки, портреты ... - ведь выдается
ГРАФИЧЕСКИЙ файл - ну конечно, если в PS/PDF/DJV были ВЛОЖЕНЫ
шрифты или там уже был сканированный текст - ну а я и не встречал
чтоб НЕ вложеннные шрифты кроме Times Roman и иже с ними.

В этом проблем нет


Цитата:
запускать ручками?


Нет - в том смысле что можно зарядить распознавание сотен файлов
зараз с сохранением в файлы такого же имени - только расширение
будет другое (txt есс-но)

По поводу "нечистого" софта - а только распознавалка и будет нечистой.
остальное - совершенно официальное freeware.
Если очень чистоплюйство следует соблюсти - Вы можете
сделать работу по генериции tiff на своем месте - и отдать по сети другому человеку
с лицензией (или "русской лицензией" для распознавания.
Объем не так уж огромен - один tiff будет около 100 Кбайт

ОСНОВНАЯ ПРОБЛЕМА - я не нашел той толерантной к ошибкам программы
поимка в текстовых файлах - тем более что хотелось бы навороченную,
удобную для наших целей...

Если есть мысли как сделать/взять - давайте более подробно
опишем спецификацию. В принципе это хорошая дипломная работа
наскольким студентам - тут и нетривиальные алгоритмы, и прочие прелести интерфейса.
У меня таких студентов нет и не предвидится.
Ведь в принципе такаяя вещь зашита в любую программу распознавания текста -
когда распознанное с неточными буквами исправляет по словарю.
Автор: ironwit
Дата сообщения: 11.11.2003 11:24
botolph

Цитата:
ОСНОВНАЯ ПРОБЛЕМА - я не нашел той толерантной к ошибкам программы
поимка в текстовых файлах - тем более что хотелось бы навороченную,
удобную для наших целей...


со всеми пунктами согласен. А вот этот поподробней, какие требования к поиску... Или найдем что нить, или напишем... Все алгоритмы уже давно разработаны, только описать их надо и применить
Автор: Max_Guest
Дата сообщения: 11.11.2003 13:59
ironwit

Ты пробовал использовать следующее:

Advanced eBook Explorer 1.1

This e-book cataloging utility shows file name and size, ISBN, title, author, publisher, category and the number of pages.
It also displays permissions information, including whether or not you can copy text selections, print pages or lend the book to someone else.

Technical information like creation and modification dates is also included.



Автор: ironwit
Дата сообщения: 11.11.2003 14:57
Max_Guest

Цитата:
Ты пробовал использовать следующее:

Advanced eBook Explorer 1.1


пошел пробовать...

Добавлено
не могу скачать, вышлите кто нить на профильное плс
Автор: NSentinel
Дата сообщения: 11.11.2003 15:34
ironwit
Идея хорошая, я поддержу если надо Но тогда может перейти в другой форум (Прикладное программирование) и продолжить обсуждение там?

Сейчас я выкручиваюсь так:

Поиск по именам и описаниям - WhereIsIt

Поиск по содержимому - dtSearch

В принципе, мне не хватает всего двух возможностей:
1) автоматической классифкации документов по признакам
2) индексирования CHM и RAR
Автор: ironwit
Дата сообщения: 11.11.2003 18:04
NSentinel

Цитата:
Идея хорошая, я поддержу если надо Но тогда может перейти в другой форум (Прикладное программирование) и продолжить обсуждение там?


ты на чем пишешь?

Автор: NSentinel
Дата сообщения: 11.11.2003 18:21
ironwit

Цитата:
ты на чем пишешь?


Да в общем-то на всем Хотя, в последнее время, предпочитаю Visual C++.
Автор: Max_Guest
Дата сообщения: 11.11.2003 22:42
ironwit

Попробовал?
Автор: ironwit
Дата сообщения: 12.11.2003 07:29
Max_Guest

Цитата:
Попробовал?


скачать не смог... Мне бы его на профильное...

NSentinel

Цитата:
Да в общем-то на всем Хотя, в последнее время, предпочитаю Visual C++.


а я вот только на Delphi - так что если будем работать вместе то на уровне COM интерфейсов или dll
Автор: Max_Guest
Дата сообщения: 12.11.2003 08:14
ironwit

см. PM
Автор: ironwit
Дата сообщения: 12.11.2003 09:28
Max_Guest

Цитата:
Попробовал?


ИМХО совершенно не то. Задумывается система с индексацией, поиском, возможностью хранения на внешних носителях... Так что все еще ищем способы...

Нашел тут один OCR free gocr037.exe (на sf.net) - но сырой до раздражения, хотя принципиально прочитать конечно текст можно. Может и пригодится (когда нить)
Автор: NSentinel
Дата сообщения: 13.11.2003 00:55
Внимательно перечитал еще раз ветку

botolph

Цитата:
я не нашел той толерантной к ошибкам программы
поимка в текстовых файлах


А dtSearch ты не пробовал? У него есть помимо всех прочих приятных вещей, Fuzzy Search как раз для такого случая...

ironwit
Пора, наверное, переходить к делу

Я так понимаю учавствовать будут: ironwit, botolph, ну и я Кто еще?

Стукнитесь ко мне плз в аську завтра...

Давайте начнем с четкого определения первостепенных задач, а форумчане, я надеюсь, нам советом помогут - какой инструмент для реализации использовать лучше.


Автор: botolph
Дата сообщения: 13.11.2003 06:13
NSentinel

Цитата:
А dtSearch ты не пробовал? У него есть помимо всех прочих приятных вещей, Fuzzy Search как раз для такого случая...

Спасибо - заглянул на этот топик - выглядит многообещающе... Вот только насколько эта штуковина (мегабайт, мегагерц и т.п.) тянет?

Цитата:
Пора, наверное, переходить к делу
Я так понимаю учавствовать будут: ironwit, botolph, ну и я Кто еще?

Я не программист - просто пописываю *.bat (под ДОС/Винд). Но работают!
Поскольку для меня каталогизация - насущная проблема - что смогу - сделаю...
ironwit

Цитата:
со всеми пунктами согласен. А вот этот поподробней, какие требования к поиску... Или найдем что нить, или напишем... Все алгоритмы уже давно разработаны, только описать их надо и применить


Мечты такие:
1) Задаешь этой программе несколько слов (имя автора или слова в названии книги/статьи или ключевые - ну те, что упоминаются во введении например)
2) Задаешь параметры поиска:
а) сколько ошибок в слове допустимо (1-2-3)
б) насколько близко друг к другу должны быть заданные слова
(порядок слов мы можем не знать - а вот разбросанные по странице такие слова не всегда то, что надо)

3) Программа ищет в ТЕКСТОВЫХ ФАЙЛАХ, причем
3-1) все русские кодировки знает и западноевропейские (всякие accent aigu - umlaut -... в немецком-французском-др) - они часто передаются кодами из верхней части ASCII-table.
3-2) понятие ошибки довольно крутое - из опыта смотрения в распознанные тексты -
не только буква заменяется на другую - но и может быть из одной две (типа m -> rn Ш -> ПП) или из двух одна (наоборот) или даже символ не из таблицы или даже слово разрывает на два - ну это просто - просто вообще игнорируем пробелы. Особенно часто в фамилиях портачит по понятным причинам.
3-3) результаты поиска по многим файлам выдаются в удобном виде:
список файлов с кратким показом места, где надены слова (типа Google-Altavista)
При нажатии на найденный файл он показывается в отдельном окне (поскольку все в моих мечтах ограничено парой вырезанных страниц в ТИФФ - не такая уж проблема) ну естественно первыми в списке - наиболее близкие к заданным критериям - Теперь это типично во всяких гуглах.

Эти мечты так - для начала Ну 99% процентов потребностей покрывают.
Даже пуская найдет и даст список только - уже 98% исполнения желаний!
Даже пусть одно слово с ошибками (в описанном смысле) ищет - потом по результатам повторный поиск - уже 95% -программа моей мечты.

Поясню, что программы, ищущие ВНУТРИ pdf/ps/doc... не подходят - они не поймут СКАНИРОВАННЫЙ текст - а таких большинство в моей коллекции - если конечно внутри нет крутой программы распознавания - ну это было бы слишком...

Алгоритмы конечно давно есть - в любой программе распознавания сканир. текста и последующего исправления по словарю... Но нигде не видел описаний... Тем более отдельных программ!
Автор: NSentinel
Дата сообщения: 13.11.2003 06:59
botolph

Цитата:
Вот только насколько эта штуковина (мегабайт, мегагерц и т.п.) тянет?

А что у тебя за машина? На PIII-866 крутится достаточно живо, меня скорость вполне устраивает. Создает достаточно большой индекс, так что будь готов Для 13.2 Гб у меня создался индекс порядка 3,5 Гб. Если разрешить компрессию, уменьшается до 2,8


Цитата:
Поскольку для меня каталогизация - насущная проблема - что смогу - сделаю...

Отлично



Цитата:
Поясню, что программы, ищущие ВНУТРИ pdf/ps/doc... не подходят - они не поймут СКАНИРОВАННЫЙ текст - а таких большинство в моей коллекции - если конечно внутри нет крутой программы распознавания - ну это было бы слишком...

Ты уже начал копать dtSearch, продолжай в том же духе.. Ты будешь приятно удивлен Она поймет сканированный текст и даже будет совсем неплохо искать в нем

Честно говоря у меня есть рабочее предложение: дабы не изобретать велисипед, и учитывая, что dtSearch позволяет использовать свой движок во внешних приложениях, можно использовать её поисковые возможности...

Хотя можно конечно и свой алгоритм написать, но IMHO не на первых порах...
Автор: ironwit
Дата сообщения: 13.11.2003 07:40
Все прочитал очень внимательно, пощел качать dtsearch. Посмотрим, но вообще то хотелось бы конечный продукт иметь без кракнутых компонентов. 2программисты - понятно зачем?
Автор: NSentinel
Дата сообщения: 13.11.2003 08:55
ironwit

Цитата:
конечный продукт иметь без кракнутых компонентов


Я ж сказал:

Цитата:
IMHO не на первых порах...




Автор: ironwit
Дата сообщения: 13.11.2003 09:47

Цитата:
пощел качать dtsearch


даааа, rar не держит, chm не держит.. Инфу читать не может по ISBN. Все таки надо что то специализированное все равно делать
Автор: NSentinel
Дата сообщения: 13.11.2003 20:02
Просьба всем заинтересованным проголосовать здесь за предпочитаемый формат хранения электронных документов
Автор: Ronin
Дата сообщения: 13.11.2003 22:51
Рекомендую BookSeer (уже писал о нем на форуме где-то). Использую его для своей эл. библиотеки, где хранятся тексты различных форматов в отдельных архивах. www.msolt.chat.ru - набор действительно необходимых функций (закладки в любом к-ве книг, разные режимы просмотра и каталогизации и т.д.). Прога русская и бесплатная.
Автор: ironwit
Дата сообщения: 14.11.2003 07:53

Цитата:
Просьба всем заинтересованным проголосовать здесь за предпочитаемый формат хранения электронных документов


желательно поактивней, дабы знали что реально нужно начинать поддерживать. Не забывайте, сами ведь заинтересованы.


Ronin

Цитата:
Рекомендую BookSeer


pdf chm html держат? Но в принципе посмотрю конечно.
Автор: mihas83
Дата сообщения: 14.11.2003 09:45
По-моему, одними из важных пунктов функциональности каталогизаторa есть:
1. Удобный и "разнообразный" поиск.
2. Многоуровневая разнообразная сортировка.
ironwit

Цитата:
...Не забывайте, сами ведь заинтересованы.

Вот именно...
Автор: albatros
Дата сообщения: 14.11.2003 10:56
NSentinel
ironwit

Цитата:
Просьба всем заинтересованным проголосовать здесь за предпочитаемый формат хранения электронных документов

Жаль там можно выбрать только один пункт. У меня, к примеру, есть и в pdf, и в chm, и в djvu (который еще и компактней). Все три формата мне нравятся (есть также немного в html, doc, txt). Если точнее, то мне нравится нормальный скан, с минимальным достаточным разрешением для возможной распечатки на принтере (b/w 300dpi для одного текста и штриховой графики или b/w 600 dpi для текста с полутоновыми рисунками), стало быть тут более всего подходит pdf и djvu. Не очень люблю распознанные сканы, поскольку потенциально добавятся ошибки распознавания и правки + может нарушиться форматирование оригинала. Если книга на инглише, то часто это chm, идущий в комплекте с твердой копией оригинала, что вполне нормально. Стало быть предпочтения: pdf, djvu, и chm.
Автор: ironwit
Дата сообщения: 14.11.2003 12:50
mihas83

Цитата:
1. Удобный и "разнообразный" поиск.

надеюсь в этом есть помощник, продумает алгоритм...

Цитата:
2. Многоуровневая разнообразная сортировка.


вот это будет обязательно. Типа такого - создаешь папку - фильтр. В ее cd-df[ указываешь показывать документы величиной больше какого то значения, и\или имеющие в тексте\теме\названии определенное слово (слова) и так будет

albatros

Цитата:
Жаль там можно выбрать только один пун


ответил в топике с голосованием.
Автор: NSentinel
Дата сообщения: 14.11.2003 12:54
albatros
Спасибо за подробный ответ


Цитата:
Жаль там можно выбрать только один пункт

Я поэтому и попросил написать комментарии. Заметь, голосование проводится не с целью выбрать лучший формат, а чтобы расставить приоритеты в разработке.

Добавлено
ironwit
Начал писать твоего сообщения еще не было
Автор: mihas83
Дата сообщения: 14.11.2003 13:16
ironwit

Цитата:
вот это будет обязательно. Типа такого - создаешь папку - фильтр. В ее cd-df[ указываешь показывать документы величиной больше какого то значения, и\или имеющие в тексте\теме\названии определенное слово (слова) и так будет

Ну и через GUI при нажатии соотв. столбца (как, например, в почтовиках)?

Страницы: 1234

Предыдущая тема: Переносы под QuarkXPress 6.0(WIN)


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.