» dtSearch

Автор: Arech
Дата сообщения: 09.12.2012 13:42

Цитата:

Признаю, обзоры старые, но полезную информацию при желании почерпнуть можно... И про DTSeach почитать. Если Архиваруис в них не упоминается, это не даёт повода обсерать их и мою помощь =)

Дорогой Falanster, если Вы посмотрите на мои формулировки немного менее эмоционально, то заметите, что я так отзывался не о Вашей помощи, а о конретно этих обзорах. Они, к сожалению, не просто старые, а очень старые. Человеческий мозг хитрая штука, и может найти много полезного даже в старом чулане на даче, но если всерьёз, то читать такие старые обзоры для выбора сегодняшней программы это как выбирать между Win95 и OS/2, чтобы потом обнаружить, что первая проэволюционировала уже с десяток важных этапов, а вторая и вовсе сгинула в небытие. Хотя, безусловно, что-то полезное из их обзора при желании подчерпнуть можно

Цитата:

сотни поддерживаемых форматов/расширений архивов у архивариуса вызывают огромнейшее уважение к программерам, которые все это впихнули в 6-метровый инстал

У меня есть ощущение, что там всё чуть более, чем просто и большого уважения, увы, не достойно - каждый формат, если надо, распаковывается до вида, где есть открытые строки (как, например, PDF, где строки закодированы), а методов упаковки обычно немного, а затем всё они там тупо индексируются без учёта всякой внутренней структуры. Только таким лобовым методом можно объяснить и поддержку в одном небольшом бинарнике сотен форматов, в то время как иногда один формат сам по себе у производителя имеет и больший размер "читалок", и сам факт крайне низкого качества поиска и некоторые артефакты поиска.
В любом случае, меня как пользователя интересует в первую очередь выполнение главной функции программы - поиска. А будет ли это достигаться 6 или 600 мегабайтным бинарником дело уже настолько стодвадцать пятое, что и вспоминать неудобно.

Цитата:

что не нравится у обеих - платные, заразы, но и тут, порядок цен ОЧЕНЬ отличается, соотношение фичастость/цена, имхо, не в пользу DtSearch

Да, согласен.
Причём, цена - это, по моему, увы, единственное достоинство Архивариуса (у меня честно купленная версия).

Цитата:

Вот неплохое сравнение поисковых программ:

http://forum.ru-board.com/topic.cgi?forum=5&topic=7321&start=100

и более развёрнутое - http://filospecan.easyforum.ru/viewtopic.php?id=61

Большое спасибо! Буду изучать!

Цитата:

Это можно прочувствовать при поиске лица с такой очень распространённой фамилией, как Иванов, но именем Григорий.
Архивариус выдал мне 85 документов, DTSearch - 3 (проверялось на небольшом индексе).
При рассмотрении результатов выбранных Архивариусом, оказалось, что он нашёл все документы, в которых встречаются оба эти слова, но только в одном упоминалось искомое лицо. Т.е. в результаты поиска он выдал и те документы, в которых два поисковых слова были сильно разбросаны. В начале текста стояла фамилия Иванов, а в конце текста Григорий, речь шла о разных людях.
DTSearch выдал 3 документа, в одном из которых шло упоминание о нужном лице.

Вооо!!! Урааа!!!! Это именно та главная причина, которая меня бесит в Архивариусе - ищещь определение какого-нить составного термина, а он выдаёт тебе 100500 результатов, где первое слово термина есть в начале 600 страничной книги, второе где-нить к концу, а третье - посередине. И ищи потом среди них...
Falanster, огромное Вам спасибо за этот последний пост, который содержит как раз большинство того, что я и хотел узнать про различия)

Цитата:

Сначала очень интересной показалась возможность Архивариуса извлекать из текстовых массивов разные данные, особенно номера телефонов.

Ага, я тоже на этом попадался. Никакого реального применения тем возможностям, что у них зашиты я тоже не нашёл. Это только спамерам базы собирать

Я, кстати, как-то хотел сделать (да и ща хочу сделать или найти) софтину для сбора ISBN книг и статей своей библиотеки для поиска дубликатов и каталогизации, и думал воспользоваться архивариусом для этой цели - ну, он же типа ISBN собирать умеет. Ага, умеет. Собирает абсолютно всё, что тупо подходит под шаблон ISBN, например, весь список литературы в конце каждой статьи) И чо с этим делать?
Я тогда, как зарегленный пользователь, обратился к ним в суппорт с предложением открыть и задокументировать API для работы с индексом Архивариуса - тогда люди смогут на его основе много чего полезного и интересного сделать, типа вот такой вот софтины. Это сделать дешево и совершенно безопасно для них, а вот результат может быть очень сильным, т.к. софт становится сильно более популярен при наличии вокруг него богатой экосистемы. Но они даже не ответили, хотя раньше на какие-то вопросы отвечали... Ну, да и фиг с ними.

У dtSearch, кстати, вроде бы судя по описанию, какой-то API доступа есть... Но цена кусается...

Автор: laprad
Дата сообщения: 09.12.2012 14:59

Цитата:

Привлекала внимание возможность выбора нескольких поисковых операторов и их комбинация. Особенно порадовало то, что можно было задавать расстояние между поисковыми словами (такая фишка реализована в Яндексе и отсутствует в Google).

ну, при применении булевого языка запросов в архивариусе можно заюзать "Квадратные скобки по своему действию похожи на двойные кавычки, но при этом позволяют искать документы, в которых введенные слова могут находиться в любом порядке и на расстоянии не более чем 10 слов друг от друга. Например, по запросу [спорт новости] будут найдены только те документы, в которых оба слова расположены на расстоянии не более 10 слов." судя по всему "10 слов" - на 11 поменять нельзя, к тому же, например, союз "и" уже считается за 1 слово, но хоть что-то... также не нашел у архивариуса оператора "искать слова в одном предложении"(строке/записи, если речь идет про csv, xls, dbf и т.д.) - было бы тоже весьма полезно

Автор: Falanster
Дата сообщения: 09.12.2012 17:17

Цитата:

Например, по запросу [спорт новости] будут найдены только те документы, в которых оба слова расположены на расстоянии не более 10 слов.

laprad, это другое дело. Спасибо за разъяснения!!! Думаю, мне надо пересмотреть своё отношение к Архивариусу.
В дополнение:
1.В Архивариусе не совсем удобно перемещение между результатами поиска. Когда в одном документе несколько вхождений, то перемещаться по ним можно клавишей пробел (как в большинстве программ). Но перемещаться между документами приходится с помощью мышки, что совсем не удобно, т.к. в среднем в поисковую выдачу попадает порядка 25-30 файлов.
2.Архивариус отображает сохранённые веб-страницы (*.mht) в виде простого текста. DTSearch отображает их как в браузере. Иногда это происходит некорректно, но вероятно потому, что сохранялись они не должным образом. Также DTSearch умеет отображать фото и картинки, внедрённые в документы MS Word. Хотя считать это преимуществом пока не следует, т.к. отображает он их кривовато.

Arech, всё понял =) Исправлюсь!

Автор: yanko12
Дата сообщения: 25.01.2013 12:13

dtSearch Desktop 7.66 (7928) какая-то нестабильная - у меня валится на каком-то рядовом вордовском файлике через полчаса вроде стабильной работы (и нескольких гигов проиндексированных) причём если убрать галку индексации названий файлов - не валится вроде, но экспериментировать уже неохота

Какая версия самая стабильная сейчас ? (Для хрюши SP3 со всеми обновл)

DjVu IFilter подключен единственный - этот -

http://www.djvu-soft.narod.ru/soft/
DjVu IFilter v1.1 (для Win NT / 2000 / XP) - Celartem - Самая свежая версия поискового плагина
http://www.celartem.com/en/download/data/DjVuIFilter11.exe
она действительно самая свежая ?

Автор: Ax0n
Дата сообщения: 09.03.2013 16:37

Кто может что-то сказать о эффективности Архивариуса?

Автор: cuneiform
Дата сообщения: 31.03.2013 22:51

Важная родственная тема здесь:

http://forum.ru-board.com/topic.cgi?forum=5&topic=7321&start=180#lt

(могут быть ответы на ваши вопросы)

Автор: UNHELPMAN
Дата сообщения: 19.05.2013 11:36

Мучает вопрос. Есть некий набор HTML файлов. Копия сайта. Корректно отображается в 8 браузерах. Попробовал сделать лив dvd.
Оказалось , что файлы отображаться не верно . генерируемые ссылки - наполовину ошибочны. Часто вся эта конструкция замирает . Версия 7.72 Пробовал 3 варианта - со встроенным браузером , микровебом и сервером их. еже документы - десктоп энджине отображаются корректно, Но навигация зачастую не работает - так как на джава скрипте.
Собственно вопрос
как можно обойти с минимальными потерями нервов и контента эти трудности .
Спасибо .

Автор: bookserg
Дата сообщения: 11.09.2013 09:52

Вопрос к знатокам dtSearch.
К примеру существует сайт http://dc.lib.unc.edu/cdm/customhome/collection/rbr/,
нужно проиндексировать страницы определенного типа: http://dc.lib.unc.edu/cdm/item/collection/rbr/index.php?id=23349
Как это можно сделать? Использую dtSearch 7.73 (Build 8126).

Автор: ghosty
Дата сообщения: 11.09.2013 22:34

bookserg
При создании индекса нажимаете кнопку Add Web... Задаете все нужные параметры. Все.

Автор: bookserg
Дата сообщения: 12.09.2013 07:54

Цитата:

Задаете все нужные параметры.

ghosty, так в этих самых параметрах и загвоздка...
Как правильно задать "Filename Filters" в данном случае,
чтобы индексировались только страницы типа _http://dc.lib.unc.edu/cdm/item/collection/rbr/index.php?id=23349
Задание такого фильтра _http://dc.lib.unc.edu/cdm/item/collection/rbr/index.php?id=*
не дает нужного результата...

Автор: Falanster
Дата сообщения: 12.09.2013 21:11

Цитата:

чтобы индексировались только страницы типа _http://dc.lib.unc.edu/cdm/item/collection/rbr/index.php?id=23349

Дружище bookserg, обрати внимание на тип файла - ...collection/rbr/index.php...
index.php - это и есть название файла и его тип. Всё остальное - это переменные (id) и их значения (23349), они передаются в адресной строке.

Автор: D1D1D1D
Дата сообщения: 22.09.2013 13:32

Подскажите, почему у абсолютного большинства слов из списка проиндексированных DJVU-файлов отсутствуют пробелы, т.е. представлено множество слитных слов, хотя в OCR-слое этих DJVU-файлов такого нет (как и при их индексации "Архивариусом 3000")?

Автор: ghosty
Дата сообщения: 22.09.2013 18:49

D1D1D1D
А Вы пользуетесь iFilter от Caminova?

Автор: D1D1D1D
Дата сообщения: 22.09.2013 20:39

ghosty
Наустанавливал всяких -- ну и от Caminova тоже.
Это об этой несовместимости Вы писали выше?

А CHM, кстати, вообще не индексируется.

Автор: ghosty
Дата сообщения: 22.09.2013 20:47

Цитата:

Наустанавливал всяких -- ну и от Caminova тоже.
Это об этой несовместимости Вы писали выше?

Раньше было больше проблем. Эта хоть не такая страшная - все ведь находит правильно...

Цитата:

А CHM, кстати, вообще не индексируется.

А для него тоже iFilter нужен: http://www.citeknet.com/Products/IFilters/CHMIFilter/tabid/64/Default.aspx

Автор: D1D1D1D
Дата сообщения: 22.09.2013 20:56

Спасибо!

Добавлено:
Всё-таки с CHM что-то не ладится. Прошу взглянуть на настройки, всё ли правильно?

http://i59.fastpic.ru/big/2013/0922/dc/66f5b099d1935810587b36b445daebdc.png
http://i59.fastpic.ru/big/2013/0922/fe/149431d96479e32c7ef6c25b3ab8f9fe.png
http://i58.fastpic.ru/big/2013/0922/81/34a4b3c04da5e66ab361eed045efac81.png

Из общего списка исключаемых, как и из полей создаваемых индексов, расширение CHM убрано.

Автор: yanko12
Дата сообщения: 30.11.2013 15:59

2ALL

Как научить его искать-показывать слова в pdf-ках ?

А то приходится каждый документ открывать в акробате и искать там слово, а интервальные словосочетания - уже фигвам

Автор: Arech
Дата сообщения: 30.11.2013 18:31

yanko12, вроде бы нужен спец. плагин с download.dtsearch.com/pdfhl/
Я не пробовал его, руки не доходят никак. Если затестите, отпишитесь плс, как оно.

Автор: yanko12
Дата сообщения: 30.11.2013 20:16

Arech
этот http://download.dtsearch.com/pdfhl/ ?

так он вроде не для сабжа а для акробата получается, попробую на днях

Автор: evoroz
Дата сообщения: 30.11.2013 21:09

yanko12
Через Web Search, как вариант. Демо:http://support.dtsearch.com/Support/demos/forms/BooleanSearch/dtsearch.html

Автор: ghosty
Дата сообщения: 30.11.2013 21:49

yanko12
Это все из-за совершенно идиотских нововведений Adobe. Начиная с версии X (если не ошибаюсь - возможно, IX) выделение найденных слов можно реализовать только одним способом - тем же, который используется при ручном выделении слов. Стоит теперь нечаянно щелкнуть мышью по странице с такими выделениями и маркировки как не бывало - очень неудобно

Да и до кнопок плагина теперь приходится добираться...

В общем, я бы рекомендовал снести новые версии Adobe и поставить 8-ю - там все нормально.

Автор: Arech
Дата сообщения: 01.12.2013 09:59

yanko12, этот-этот, я ж этот урл и дал
Он для акробата, но там написано его назначение: поддержка выделения для субжа, поскольку из нового акробата адоб эту полезную фичу выпилил (по обыкновению заменив на всякое г-но).

Автор: ogenry
Дата сообщения: 22.05.2016 12:14

Добрый день!
Обновил dtSearch Engine до версии 7.84.
При первом старте не хочет размещать индексы на съемном диске. Пишет типа нет доступа.
Скопировал ixlib.ilb в папку по умолчанию - показывает, что там нулевые индексы. Неужели надо заново индексировать? В папке 50 гигов индексов. Есть ли пути адаптации индексов без переиндексации?

Страницы: 1 2 3 4 5 6 7

Предыдущая тема: NetManager Light

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.