Ru-Board.club
← Вернуться в раздел «Программы»

» dtSearch

Автор: yanko12
Дата сообщения: 12.10.2010 00:27
А кто нить пробовал чем-то менять букву диска ? если например индексы и сами тексты - на флешке 32Gb а прога ставится на чужой комп чтобы посмотреть флешку - подключить индексы можно на любой букве флешки, а прочитать - только на той которая проиндексирована

deviss

Цитата:
Теоретически может помочь функция кеширования индексируемых документов, но на практике кешируется только текстовая часть документа. Картинки бесследно исчезают.
Боюсь, в таком виде, как Вы хотите, не получится сделать.


я тоже пробовал - не получается
есть наша прога - архивариус - надо бомбить её автора на такую фичу - он по-русски понимает, а может она уже это умеет
Автор: ghosty
Дата сообщения: 12.10.2010 01:15
Зачем словарь русских стоп слов? При современных дисковых емкостях? (лень искать )

erziman

Цитата:
Обьясните, пожалуйста, задача такова Создать банк из word; exel; html документов затем оригиналы документов УНИЧТОЖАЮТСЯ, какие опции надо задействовать чтобы получить банк со всеми картинками во всех документах. я сколько ни пробывал некоторые изображения исчезают бесследно(((. Заранее спасибо

В принципе, функция публикации на диске должна это уметь делать - но там свой интерфейс к этому банку еще пристраивается...

Bozo

Цитата:
Какой-то косяк под семеркой, dtSearch не показывает содержимое pdf в панели просмотра, а сразу же тупо открывает документ в новом окне Adobe Reader. При этом естественно приходится вхождения искомого слова самому искать, никакой подсветки желтым нет

Preferences->External Viewers->Standard (Recommended).
Если не помогло, то на оф.сайте есть FAQ, как это лечить (проблема в адобе-ридере, если правильно помню).
Автор: Bozo
Дата сообщения: 12.10.2010 11:36

Цитата:
Если не помогло, то на оф.сайте есть FAQ, как это лечить (проблема в адобе-ридере, если правильно помню).

Все варианты галочек из FAQ перепробовал, все равно открывает в новом окне. или может открыть как plain text в своей панели с подсветкой, это конечно лучше чем ничего. Видимо UAC как-то мешает
Автор: erziman
Дата сообщения: 29.10.2010 10:31
ghosty
кроме интерфейса насколько я понимаю на диск еще сохраняются оригиналы документов(...
Автор: erziman
Дата сообщения: 23.02.2011 21:18
а вот такой вопрос можно ли из уже существующего индекса вытащить файлы если была поставлена галочка кешировать документы в инлдекс
Автор: allyalla
Дата сообщения: 20.08.2011 23:20
Вопрос к пользователям - он Regex выражения полностью поддерживает или только простейшие звездочки там всякие?
Автор: 16121977
Дата сообщения: 04.09.2011 13:36

Цитата:
Маленькая сенсация! dtSearch все-таки работает с DJVU, CHM, RAR и пр.
У меня долго не получалось настроить его, т.к. в качестве тестового файла *.djvu я умудрился выбрать именно тот, который dtSearch (на моей системе - у разработчиков тот же файл индексируется нормально) обрабатывать отказывался.
Настраивается все достаточно просто:
Аналогично настраиваем и CHM. Кто-то говорил, что у него при этом CHM все-равно не индексируется. И тут все просто: нужно убрать *.chm из списка исключаемых по умолчанию (а также в соотв. полях имеющихся индексов):


не получилось никакой сенсации. установил Ifilter для *.CHM (Citeknet.CHM.IFilter.Setup-1.5.3.msi). в dtsearch сделал все, как говорилось
результат - любая попытка проиндексировать каталог с chm - файлами завершается немедленным вылетом программы.

вот текстовка:
dtSearch Error Log

Product: dtSearch Engine for Windows -- 32-bit VC 7.67
Build version: 7961 Apr 8 2011 23:12:15
dtSearch Engine for Windows -- 32-bit VC

Exception occurred at: 09/04/2011 12:22:50
Application: dtSearch Indexer Apr 8 2011 23:12:49

Windows XP version 5.1 (Build 2600) [Service Pack 3]
Win32 Memory Information
Memory Load: 32
Total Physical Memory: 1,875,361,792
Available Physical Memory: 1,271,910,400
Page File Size: 4,294,967,295
Available Page File Space: 4,294,967,295
Total Virtual Address Space: 2,147,352,576
Avail Virtual Address Space: 1,927,479,296
Trace information: IndexJob::Add for index E:\dtSearch\UserData\chm
Indexer::addDocs()
Index::indexFile C:\33333333\2011_08_29.chm 7579837


Exception code: C0000005 ACCESS_VIOLATION
Fault address: 024F5C40 01:00004C40 E:\dtSearch\bin\viewers\dtv_ifilter.dll

Registers:
EAX:5F9EA7E4
EBX:02516664
ECX:00000400
EDX:5F9EA7E6
ESI:5F9EA7E4
EDI:80041700
CS:EIP:001B:024F5C40
SS:ESP:0023:001273A8 EBP:00000000
DS:0023 ES:0023 FS:003B GS:0000
Flags:00010206

Call stack:
Address Frame Logical addr Module
024F5C40 00000000 0001:00004C40 E:\dtSearch\bin\viewers\dtv_ifilter.dll
Автор: deviss
Дата сообщения: 17.09.2011 19:24
faceted search interface

http://support.dtsearch.com/Support/dtSearch/dtisapi6.dll?cmd=getdoc&DocId=114&Index=c%3a\inetpub\support\demos\indexes\faqs&HitCount=5&hits=1+a+37+f5+137+&SearchForm=%2fsupport%2fdemos%2fforms%2fMainSite%2fdtsearch_form.html

вот такое дело нашел в справке на сайте. Это что-то вроде красивостей вывода поисковых результатов, чтоб по разделам разносило и т.п. (ну, как в нигме, например) - верно я понимаю?

В программировании полный ноль, может пояснит кто-нибудь точно - это надо/можно самому наваять (программера найти) или только приблуду искать от contegra?
Автор: ghosty
Дата сообщения: 17.09.2011 19:39
16121977
Отправьте разработчику этот багрепорт, они быстро такое исправляют.
Автор: allyalla
Дата сообщения: 24.09.2011 12:08
Тут если с подсветкой в пдф траблы, небольшой анти-гемор салюшн...
Неплохо бы в варезнике в шапку вбивть или в дистр ложить подсветчик текста для dtsearch в файлах PDF - живет тут **ttp://download.dtsearch.com/pdfhl/dtSearchPdfHighlighter.exe
Без него если у вас плагин пдф выставлен на отображение пдфок в оригинальном виде (те не в виде простого тексте без фоток рисунков) подсветки не будет.
Подсветки и так и так не будет если у вас стоят по умолчанию для просмотра pdf конкуренты адоба как то:
PDF-XChange No
Foxit Reader No
Nuance PDF Reader No
PDF Complete No
XpdfViewer Library No
Или если у вас все же установлены в системе:
Adobe Reader X Yes, with plug-in
Adobe Reader 9 Yes, with option change
Adobe Reader through version 8 Yes
но по умолчанию просмотр pdf выставлен на повыше перечисленные неадобовские проги - в них подсветки совпадений тоже не будет, надо скидывать на что нибудь из адоб по умолчанию в свойствах вашей дежурной по пдф проги если есть, в системе, в интернет эксплорере - тоже гемор тот еще.
Автор: erziman
Дата сообщения: 11.11.2011 11:46
Никто не посоветует как организовать просмотр картинок не открывая DOC документ, в HTML документах такая возможность присутствует
Автор: suomifinland
Дата сообщения: 05.02.2012 10:05
Я так поняла, как любая поисковая система dtSearch создает индексную базу на диске С:
Вопрос, есть ли в программе dtSearch возможность переноса базы индекса на другой, локальный диск?
Автор: 231930
Дата сообщения: 05.02.2012 10:20
suomifinland
Не об этом ли речь?

Цитата:
В dtSearch в меню Index есть менеджер индексов Index Manager. В нём и производится основная работа с индексами. Если нажать Create Index (Создать индекс) будет предложено ввсети его название, затем расположение - можно выбрать стандартное, где все индексы, либо указать новое. После этих действий паоявляется окно Update Index
Автор: erziman
Дата сообщения: 05.02.2012 11:31
suomifinland
Да есть как при создании индекса, так и после переноса имеющегося индекса - достаточно выбрать в index manager @recognize index@ и указать путь к индексу
Автор: Falanster
Дата сообщения: 17.03.2012 21:23

Цитата:
Я так поняла, как любая поисковая система dtSearch создает индексную базу на диске С:
Вопрос, есть ли в программе dtSearch возможность переноса базы индекса на другой, локальный диск?


Цитата:
Да есть, как при создании индекса, так и после переноса имеющегося индекса - достаточно выбрать в index manager @recognize index@ и указать путь к индексу


Тут есть одна загвоздка:
Изначально, при создании Индекса можно пойти 2 путями (объясню простыми словами):
1 - создать просто индекс документов;
2 - создать индекс документов с копией этих документов.


Рассмотрим 1-ый путь. Допустим, Вы создали индекс, который проиндексировал все Ваши ежемесячные отчёты в формате *.doc (*.docx), накопленные за несколько лет. Затем из папки Вы удалили старые отчёты за 2005 год. Ну, правда, зачем хранить такие старые отчёты?
Спустя несколько дней возникла задача, найти пару старых показателей за 2005 год. Запустили DTSearch. Как Вы думаете он найдёт данные из физически удалённых файлов? Нет.
DTSearch создаёт своего рода "базу данных" (Индекс), в которой хранятся сведения о том, где, на каких дисках, в каких папках, в каких документах, на какой строке конкретного документа расположено то или иное слово, цифра, их сочетания.

Рассмотрим 2-ой путь. Здесь при создании Индекса, происходит тоже самое, только кроме этого DTSearch сохраняет в свою "базу данных" (Индекс) полную копию каждого документа. Поэтому, даже если Вы удалите этот документ, то при поиске через DTSearch увидите его копию и данные, которые в нём находились.
Безусловно, изначально создание такого Индекса будет проходить намного дольше по времени.

Теперь вернёмся к обозначенному вопросу: "есть ли возможность переноса базы индекса на другой, локальный диск?"
Если Индекс создавался по 1-му пути, то, перенеся Индекс с одного компьютера на ноутбук, Вы ничего не получите.
Если Индекс создавался по 2-му пути, то при переносе все данные сохранятся.

Автор: yanko12
Дата сообщения: 12.05.2012 16:05
Подскажите , как его заставить индексировать содержимое " __.torrent " - файлов ? В них внутре содержится в текстовом виде название скачанного с торрентов . а то уже не разберусь что когда и куда скачивал, на винте имеется полно веб-страничек и соответствующих " __.torrent " - файлов
Автор: Falanster
Дата сообщения: 12.05.2012 21:59
yanko12
После создания индекса происходит добавление в него документов. На этом этапе можно указать типы файлов, которые будут индексироваться и типы файлов, которые будут пропускаться, своего рода фильтр. Можно попробовать добавить расширение *.torrent в список индексируемых файлов.
Автор: jonnydepp
Дата сообщения: 11.11.2012 15:15
получается ли индексирование djvu в Windows 7 64? когда-то работало, а сейчас - нет. файлы индексируются как Filtered Binary и не читабельны. Ifilter от
http://www.caminova.net/en/downloads

спасибо
Автор: anynamer
Дата сообщения: 16.11.2012 01:28
А она может создавать поиск по локальному сайту или для CD?
Автор: Arech
Дата сообщения: 04.12.2012 19:59
Прошу прощения, наверное, уже обсуждалось, но не смог найти ответа на след. 2 вопроса. Если не сложно, подскажите, пожалуйста, или хоть ссылки где читать...

1) Как у субжа с русской морфологией? Поддерживает её? Если нет, насколько это усложняет поиск?

2) Кто-нибудь сравнивал качество поиска на больших коллекциях с Архивариусом 3000? Последний крайне не устраивает именно этим и ищу замену.

Спасибо
Автор: Falanster
Дата сообщения: 05.12.2012 17:33

Цитата:
1) Как у субжа с русской морфологией?

Поясни, что имеешь ввиду. Поиск по русскоязычному контенту? Или поиск словоформ и т.п. (типа Яндекса)? Русскоязычные документы DTSearch обрабатывает прекрасно.


Цитата:
2) Кто-нибудь сравнивал качество поиска на больших коллекциях с Архивариусом 3000?

Не совсем понятно, что ты имешь в виду под выражением "большая коллекция"?
Поищи, в просторах сети есть обзоры, посвященные сравнению программ такого рода. Приводится даже сравнение по времени построения индексов.
Автор: Arech
Дата сообщения: 05.12.2012 18:13

Цитата:
Поясни, что имеешь ввиду. Поиск по русскоязычному контенту? Или поиск словоформ и т.п. (типа Яндекса)?

Да, именно понимание словоформ, хотя бы в простейшем виде - всяких окончаний, падежей и т.д.


Цитата:
Не совсем понятно, что ты имешь в виду под выражением "большая коллекция"?

Ну, вот в индексе на 3.5Gb архивариус ищет просто безобразно и часто выдаёт совершенно не релевантные результаты. Может быть оттого, что судя по всему для архивариуса любой документ индексируется как plain text, т.е. он ничего не знает ни о заголовках глав книг, ни о названиях параграфов, ни о вообще каком-бы то ни было форматировании - соответственно эту важнейшую для правильного ранжирования информацию он не использует.
Меня вот интересует, сравнение качества поиска с субжем. И я даже согласен на любой размер коллекции, лишь бы нормальное сравнение было.


Цитата:
Поищи, в просторах сети есть обзоры, посвященные сравнению программ такого рода.

Нуёма, кэп, ты? А я-то сразу не признал!)))

Писал же с самого начала - искал, но ничего удобоваримого не нашёл, поэтому и спросил тут, может кто знает...

зы: скорость построения индекса - последнее, что интересует в вопросе качества поиска.
Автор: Falanster
Дата сообщения: 05.12.2012 19:35
Arech

http://searchinform.ru/press/articles/179/

http://www.i2r.ru/static/379/out_12360.shtml
Автор: laprad
Дата сообщения: 05.12.2012 20:08
Arech

рекомендую глянуть на Copernic Desktop Search http://www.copernic.com/en/products/desktop-search/home/index.html - страничка бесплатной версии. если бы пришлось сваливать с архивариуса, я бы перешел бы на нее (если память не изменяет, подерживает украинский язык, мне это важно). А обозревальщики, однако, ее "не замечают"..
Автор: Arech
Дата сообщения: 05.12.2012 20:52
Falanster, laprad - спасибо большое за ссылки, ща буду изучать!

laprad, а архивариус вас устраивает?



Добавлено:
Нда-с, Falanster, ни по одной ссылке Архивариус даже не упоминается (я уж не говорю, что все обзоры старые как х.з. что). Всё это барахло.

Ну что, неужели никто субж с Архивариусом не сравнивал?...
Автор: laprad
Дата сообщения: 06.12.2012 22:24
Arech

устраивает, с ним и сижу пока, потому как я уже говорил, мне важен украинский язык+ архивариус поддерживает много типов архивов. меня не устраивает логика и точность поиска - то есть то же, что и тебя.


Цитата:
Ну что, неужели никто субж с Архивариусом не сравнивал?...

ну вот поставил DtSearch Desktop, натравил на 7 доков, знание про морфологию заменено опцией "Fuzzy searching"(типа, нечёткий поиск), значения которой (от пустого до 10 символов (?)) скорее всего означают на сколько букв может отличаться искомое слово, чтобы попасть в результат. Соседняя опция "Phonic searching" сама по себе считает "елетронний" и "електронних" не похожими друг на друга, поиск по "електронни*" нашел оба слова
прога имеет право на жизнь но, имхо, толстовата, и, ТЕОРЕТИЧЕСКИ, менее приспособлена к кириллице и славянским языкам, чеи архивариус. тестил пару минут, хелп не читал, кто юзает больше скажет

Добавлено:
еще не понравилось, что в DtSearch Desktop нужно дабл-кликать на документе в списке с результатами поиска, чтобы увидеть его содержимое в быстром просмотре, но. возможно, это можно настроить. лично мне удобнее видеть содержимое при смене фокуса
Автор: Falanster
Дата сообщения: 07.12.2012 21:21

Цитата:
Ну что, неужели никто субж с Архивариусом не сравнивал?

Сравнивал, по мне - Архивариус нервно курит в сторонке. Ставил его после долгого использования ДСПИ "Cros", затем DTSearch.
Так вот - скачал его из любопытства, сделал пару тестовых запусков и удалил. Не пошло, мне показалось - тускло, однобоко и невыразительно. Моё мнение основано исключительно на первом впечатлении. Инструментарий основательно не тестировался.
Безусловно, две проги имеют полное право на существование.
Для моих нужд больше подходит Крос, но он серьёзно устарел и только совсем недавно выпустил новый релиз. Поэтому в своё время я пересел с него на DTSearch. Релизы постоянны, но вначале пришлось самостоятельно разбираться с настройками и принципами работы.
Ещё понравилась программа SearchInform - вот это продукт. Есть серверная часть и клиентская. Но ОЧЕНЬ ДОРОГО.


Цитата:
Нда-с, Falanster, ни по одной ссылке Архивариус даже не упоминается (я уж не говорю, что все обзоры старые как х.з. что). Всё это барахло.

Признаю, обзоры старые, но полезную информацию при желании почерпнуть можно... И про DTSeach почитать. Если Архиваруис в них не упоминается, это не даёт повода обсерать их и мою помощь =)
Автор: laprad
Дата сообщения: 08.12.2012 00:26

Цитата:
Архивариус нервно курит в сторонке. Ставил его после долгого использования ДСПИ "Cros", затем DTSearch.
Так вот - скачал его из любопытства, сделал пару тестовых запусков и удалил. Не пошло, мне показалось - тускло, однобоко и невыразительно

как-то уж слишком субъективно.. примеры бы не помешали
мои примеры - и DtSearch и архивариус умеют показывать список слов и кол-во их вхождений в проиндексированые тексты - прикольно, но, например, сможет ли DtSearch сделать поиск похожих текстов (процент схожести можно выбирать)? приятная фича, для поиска плагиата может и не подходит, но полезно при поиске дубликатов файлов в разных форматах и/или с пустяковыми отличиями
сравнивать поддержку архивов/почтовых баз особого смысла не вижу - главное чтобы zip, rar и arj видели, ну может 7z еще, сотни поддерживаемых форматов/расширений архивов у архивариуса вызывают огромнейшее уважение к программерам, которые все это впихнули в 6-метровый инстал, но не более (опять же, у меня)
обе проги я так понимаю поддерживают создание сервака на компе с "библиотекой" + "голые" клиенты у юзеров (архивариус так точно)
что не нравится у обеих - платные, заразы, но и тут, порядок цен ОЧЕНЬ отличается, соотношение фичастость/цена, имхо, не в пользу DtSearch. да, я знаю про гугл и соседние темы
Автор: Falanster
Дата сообщения: 08.12.2012 13:48
Arech
Вот неплохое сравнение поисковых программ:

http://forum.ru-board.com/topic.cgi?forum=5&topic=7321&start=100

и более развёрнутое - http://filospecan.easyforum.ru/viewtopic.php?id=61
Автор: Falanster
Дата сообщения: 08.12.2012 21:08

Цитата:
как-то уж слишком субъективно

Согласен, был слишком эмоционален в оценке. Архивариус - программа довольно не плохая. Но, так как топик не о возможностях Архивариуса, а о DTSearch, то в продолжении темы напишу, для каких целей использовал DTSearch и что больше всего понравилось в программе.

На сервере валом валялась куча архивных документов (справки, аналитические отчёты и материалы, копии выкачанных Интернет-сайтов и телефонные справочники в MS Excel и Word). Решил организовать поиск по архивным документам. Отсортировал все документы по группам, выделив несколько тематических папок.

Используя DTSearch, создал несколько индексов. Поковырялся в настройках программы. Начал тестировать поиск и настраивать отображение полученных результатов. На моё удивление программа показала неплохие результаты, особенно благодаря функции булевого поиска. Привлекала внимание возможность выбора нескольких поисковых операторов и их комбинация. Особенно порадовало то, что можно было задавать расстояние между поисковыми словами (такая фишка реализована в Яндексе и отсутствует в Google).

***
Это можно прочувствовать при поиске лица с такой очень распространённой фамилией, как Иванов, но именем Григорий.
Архивариус выдал мне 85 документов, DTSearch - 3 (проверялось на небольшом индексе).
При рассмотрении результатов выбранных Архивариусом, оказалось, что он нашёл все документы, в которых встречаются оба эти слова, но только в одном упоминалось искомое лицо. Т.е. в результаты поиска он выдал и те документы, в которых два поисковых слова были сильно разбросаны. В начале текста стояла фамилия Иванов, а в конце текста Григорий, речь шла о разных людях.
DTSearch выдал 3 документа, в одном из которых шло упоминание о нужном лице.
Не сложно представить, сколько времени займёт просмотр и анализ 85 документов и сколько просмотр 3-х документов. Далее представим, что в день мы ищем не одного человека, а больше. Это касается не только поиска лица, но и поиска фактов, адресов, организаций и другой информации.
***

Это стало определяющим фактором. Другим определяющим фактором стала возможность работы с индексами по сети.

Несколько слов об Архивариусе и DTSearch.
1.DTSearch не может искать в найденном, не использует правила транслитерации, не учитывает латинские буквы, схожие по написанию с русскими, не учитывает цифры, похожие на буквы (как это сделано в Архивариусе). Но при желании почти всего этого можно добиться в DTSearch, используя поисковые маски и булев поиск.
2.Сначала очень интересной показалась возможность Архивариуса извлекать из текстовых массивов разные данные, особенно номера телефонов. Но потом я понял, что никуда их не привяжу, ни к конкретным лицам, ни к организациям. А список телефонов и количество их упоминаний в индексе, всё это само по себе не слишком информативно. Единственное, что было бы полезно, так это извлечение почтовых адресов из всех текстовых документов (e-mail). И то полезно только спамерам для рассылки. Понравилась возможность получить словоформы любого слова, т.е. посмотреть в каком виде они стречаются в индексе (ум - ума, умом, умы ...), но найти практического применения этой фишки к решению своих задач не смог.

Страницы: 1234567

Предыдущая тема: NetManager Light


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.