Цитата: как-то уж слишком субъективно
Согласен, был слишком эмоционален в оценке. Архивариус - программа довольно не плохая. Но, так как топик не о возможностях Архивариуса, а о DTSearch, то в продолжении темы напишу, для каких целей использовал DTSearch и что больше всего понравилось в программе.
На сервере валом валялась куча архивных документов (справки, аналитические отчёты и материалы, копии выкачанных Интернет-сайтов и телефонные справочники в MS Excel и Word). Решил организовать поиск по архивным документам. Отсортировал все документы по группам, выделив несколько тематических папок.
Используя DTSearch, создал несколько индексов. Поковырялся в настройках программы. Начал тестировать поиск и настраивать отображение полученных результатов. На моё удивление программа показала неплохие результаты, особенно благодаря функции булевого поиска. Привлекала внимание возможность выбора нескольких поисковых операторов и их комбинация. Особенно порадовало то, что можно было задавать расстояние между поисковыми словами (такая фишка реализована в Яндексе и отсутствует в Google).
***
Это можно прочувствовать при поиске лица с такой очень распространённой фамилией, как Иванов, но именем Григорий.
Архивариус выдал мне 85 документов, DTSearch - 3 (проверялось на небольшом индексе).
При рассмотрении результатов выбранных Архивариусом, оказалось, что он нашёл все документы, в которых встречаются оба эти слова, но только в одном упоминалось искомое лицо. Т.е. в результаты поиска он выдал и те документы, в которых два поисковых слова были сильно разбросаны. В начале текста стояла фамилия Иванов, а в конце текста Григорий, речь шла о разных людях.
DTSearch выдал 3 документа, в одном из которых шло упоминание о нужном лице.
Не сложно представить, сколько времени займёт просмотр и анализ 85 документов и сколько просмотр 3-х документов. Далее представим, что в день мы ищем не одного человека, а больше. Это касается не только поиска лица, но и поиска фактов, адресов, организаций и другой информации.
***
Это стало определяющим фактором. Другим определяющим фактором стала возможность работы с индексами по сети.
Несколько слов об Архивариусе и DTSearch.
1.DTSearch не может искать в найденном, не использует правила транслитерации, не учитывает латинские буквы, схожие по написанию с русскими, не учитывает цифры, похожие на буквы (как это сделано в Архивариусе). Но при желании почти всего этого можно добиться в DTSearch, используя поисковые маски и булев поиск.
2.Сначала очень интересной показалась возможность Архивариуса извлекать из текстовых массивов разные данные, особенно номера телефонов. Но потом я понял, что никуда их не привяжу, ни к конкретным лицам, ни к организациям. А список телефонов и количество их упоминаний в индексе, всё это само по себе не слишком информативно. Единственное, что было бы полезно, так это извлечение почтовых адресов из всех текстовых документов (e-mail). И то полезно только спамерам для рассылки. Понравилась возможность получить словоформы любого слова, т.е. посмотреть в каком виде они стречаются в индексе (ум - ума, умом, умы ...), но найти практического применения этой фишки к решению своих задач не смог.