Ru-Board.club
← Вернуться в раздел «Программы»

» dtSearch

Автор: yanko12
Дата сообщения: 05.03.2006 13:37
Из обзора на iXBT - у них там на русском морфология работает, звучание и ещё куча всего - и всё на русском !!!
А как они ето добились - непонятно ..
http://www.ixbt.com/soft/search-test.shtml Цитата - ""...dtSearch одна из немногих программ, которая может индексировать веб-страницы на заданную пользователем "глубину" (правда, с учетом "дозакупки" в комплект адд-она dtSearch Spider
...эта программа справилась с индексацией заданного объема информации на уровне с другим конкурсантом - iSYS - и поделила с ним второе место в списке самых быстрых систем. Тестовые 20 гигабайт информации dtSearch проиндексировала за 6 часов 13 минут, создав для нужд последующего поиска индекс размером 7.9 Гб.
...Во-первых, в dtSearch присутствует морфологический поиск (поиск слова во всех его морфологических формах). Используя данную возможность, вы освобождаете себя от, скажем, таких раздумий, как "в каком же падеже было употреблено некоторое слово в необходимом мне документе?". Использование морфологического поиска почти всегда оправдано, поэтому должно присутствовать в любом профессиональном поисковике.
Поиск по звучанию является нестандартной возможностью даже для профессиональных поисковиков. Суть его заключается в том, что программа будет искать слова, которые звучат так же, как введенное вами слово. И что самое приятное, эта функция работает и для русского языка! Например, набирая слово "ухо" в поисковом запросе, вы увидите в результате не только слова "ухо", но и "уха".
Поиск с коррекцией ошибок - очень важная функция. Применяется для поиска слов, содержащих синтаксические ошибки - это могут быть как опечатки, так ошибки в документах, полученных при помощи систем распознавания символов, например. Простой пример - вы ищете слово клавиатура. В некотором документе содержится слово "клавиатупа", очевидно, что на самом деле это слово "клавиатура", просто человек при наборе текста опечатался. Так вот, поиск с коррекцией ошибок, это обнаружит и включит документ со словом "клавиатупа" в результат. Также в dtSearch есть настройка, позволяющая определять степень возможных ошибочных символов.
Поиск с использованием синонимов. Эта возможность использует список синонимов для различных слов. Так, например, введя слово "быстрый", программа также найдет слова "скоростной" и другие, являющиеся синонимами для слова "быстрый", если таковые, конечно, присутствуют в списке синонимов. Готового списка синонимов вместе с программой dtSearch не поставляется, однако есть возможность воспользоваться списками в Интернет (соответственно, требуется подключение, что не всегда удобно), либо можно составить свой список синонимов.
Кроме перечисленных возможностей, dtSearch может производить поиск с использованием фраз, состоящих из слов, соединенных логическими операциями. Каждому слову в запросе можно устанавливать свой "вес", то есть значимость. Полезная опция - использование словаря, состоящего из не значимых слов для того, чтобы не учитывать их при поиске, однако этот словарь также пуст и его придется заполнять самостоятельно.
... никаких специфических возможностей для работы с сетью dtSearch не предлагает. Тем не менее, использовать его в сети вполне возможно. Как вариант, можно создать некоторый индекс и положить его в общедоступную (расшаренную) папку. Саму же программу можно установить каждому пользователю на компьютер, либо выложить ее также на папку, открытую для общего доступа, и создать специальным образом ярлыки для каждого пользователя отдельно, используя параметры командной строки, предназначение которых описано в файле помощи, поставляемым с программой. Также, есть возможность автоматической установки программы в сеть при помощи MSI файла. При этом будут учтены настройки для каждого подключаемого пользователя.
...Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском.
Макс Магляс (max.maglyas@softinform.com) Опубликовано — 16 декабря 2005 г.
Обсудить в конференции http://forum.ixbt.com/topic.cgi?id=23:030463
Автор: ghosty
Дата сообщения: 05.03.2006 14:33

Цитата:
...Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском.

Из этого, к сожалению, не следует, что морфология работала именно для русского языка.
Хотя модуль русской морфологии для dtsearch существует...
Автор: yanko12
Дата сообщения: 06.03.2006 06:16
Заостряю внимание на сторчках -
и ето всё вроде есть но его нет

? в конце - ...Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском.

? Поиск по звучанию ...эта функция работает и для русского языка! Например, набирая слово "ухо" в поисковом запросе, вы увидите в результате не только слова "ухо", но и "уха".

? Каждому слову в запросе можно устанавливать свой "вес", то есть значимость.


Цитата:
Хотя модуль русской морфологии для dtsearch существует...

А как он называется ?

Добавлено:
add -
http://www.computerra.ru/forum/read.php?FID=24&TID=16674&NID=251438
http://www.cio-world.ru/weekly/231397/page3.html - Корпоративный поиск Автор: Макс Магляс Опубликовано 04 октября 2005 года ... Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском. Система вполне адекватно находила нужные документы (хоть и с небольшой паузой - 11 гигабайт все-таки).
http://www.kinnet.ru/cterra/625/251438.html - Обыск местного значения Автор: Макс Магляс Опубликовано в журнале "Компьютерра" №5 от 07 февраля 2006 года ...Накладок с русским текстом при поиске не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском.
+ !! http://zhurnal.lib.ru/b/brigadir_j_a/text1.shtml - Сильнее напрягает недопонимание программой разных кириллических кодировок. В том же Архивариусе их поддерживается аж 33, из них пять по умолчанию. dtSearch о кодировках, в принципе, знает. Можно выбрать 4 штуки. Но! Не все. А только одну из четырех! Или очень загадочный автодетект. Что он делает - никто не знает. Могу предположить, что он сильно-сильно любит win1251, но не буду божиться.
Этот факт сильно снижает значимость мощнейшей, без всякого преувеличения, поисковой машины. Но больше всего лично меня добила неспособность программы хоть как-то заглянуть в CHM файлы! Она выдирает оттуда ровным счетом заголовок и нихрена более.
+ !! http://www.kpnemo.ru/comment.php?action=usercomms&id=66863 - Русской морфологии как и русского интерфейса нет. Но есть возможность находить похожие слова в любом языке. Также в DtSearch во время набора слова ты видишь, какие слова есть в индексе, а соответственно во всех твоих текстах. Поэтому поиск словоформ необязателен.
Архивариус не лучше и не хуже - он другой. Я им пользовался - мне удобнее DtSearch. выкладывать не буду - Архивариус наприсан российским программистом, стоит около трехсот рублей, и тестовая версия доступна на официальном сайте
Количество форматов, в которых ищут эти программы, одинаковое. А потом у DtSearch есть другие возможности недоступные архивариусу - читать: текст, официальный сайт, изучать программу.
http://zhurnal.lib.ru/comment/b/brigadir_j_a/text1 - Комментарии к Работа с текстом для правильных пацанов, часть 1
Автор: algol
Дата сообщения: 15.03.2006 03:33
А никто не сталкивался с таким вот вопросом:

Если пойти вот сюда "Ctrl+S/Browse words/Save List"
и сохранить весь индекс введя например *, а потом посмотреть в файл, то ни в одной из кодировок слова не становяться русскими.
В какой кодировке он их сохраняет??? Я уже и Штирлица пробовал напустить - все равно -- фигу.

вот пример текста:

█Б┘В╪╣
█Б┘В┘А╪л┘В╪й┘В
█Б┘В┘А╪л┘В╪й┘В╪│
█Б┘Ж┘Л┘З┘М
█Б┘К┘Ж┘Л┘Зe

Это в формате DOS;



А это в формате WIN:


Ы_Щ'Ш┐Щ'ШЄЩ_Ш┐h
Ы_Щ'Ш№
Ы_Щ'Щ_Ш<Щ'ШcЩ'
Ы_Щ'Щ_Ш<Щ'ШcЩ'Ш_
Ы_Щ&#9532;Щ<Щ&#9578;Щ_
Ы_Щ_Щ&#9532;Щ<Щ&#9578;e


При индексации автодетект и в самой проге все нормально видно.


При вставке в форум кодировки поменялись...

А было-бы не плохо сделать такой словарик скажем для подбора паролей или еще чего...
Автор: ghosty
Дата сообщения: 05.04.2006 01:41
Теперь, как известно, dtSearch поддерживает IFilters. Долго не мог понять, почему я не могу проиндексировать те же *.chm и *.djvu, если соотв. фильтры у меня установлены.
Оказывается в хелпе сказано, что работает он только с query.dll, что, видимо, должно означать отсутствие поддержки сторонних IFilters (не MS).
Например, отсюда: .http://www.citeknet.com/
или IFilter для *.djvu от LisardTech.

Кто-нибудь может сказать, как это ограничение обойти?
Автор: ghosty
Дата сообщения: 25.04.2006 10:55
dosya
Noise файл использовали?
yanko12
Попробуйте через IFilter настроить.

Маленькая сенсация! dtSearch все-таки работает с DJVU, CHM, RAR и пр.
У меня долго не получалось настроить его, т.к. в качестве тестового файла *.djvu я умудрился выбрать именно тот, который dtSearch (на моей системе - у разработчиков тот же файл индексируется нормально) обрабатывать отказывался.
Настраивается все достаточно просто:


Аналогично настраиваем и CHM. Кто-то говорил, что у него при этом CHM все-равно не индексируется. И тут все просто: нужно убрать *.chm из списка исключаемых по умолчанию (а также в соотв. полях имеющихся индексов):
Автор: eruc
Дата сообщения: 25.04.2006 16:23
Можно ли , чтобы dtSearch кроме содержимого файлов также индексировал имена файлов ??
Автор: ghosty
Дата сообщения: 25.04.2006 16:42
Indexing Options->Index filenames as text
Автор: vitaly1
Дата сообщения: 02.05.2006 23:15
Сталкивался ли кто-то с такой проблемой: сабж выделяет не те слова в найденых файлах (при том, что нужные слова в документе тоже есть)? Если было, то как справились?
Автор: ghosty
Дата сообщения: 02.05.2006 23:27
vitaly1
1) варианты решения должны быть в их FAQ'е;
2) можно попробовать другую версию (у Вас какая?).
Автор: vitaly1
Дата сообщения: 02.05.2006 23:40
ghosty
Да, FAQ читал, там подобная проблема описана. Хотелось узнать, не сталкивался ли кто-то с этим лично. Версия вроде бы 7.23 (стоит на другом компе, сейчас нет возможности глянуть).
Автор: ghosty
Дата сообщения: 02.05.2006 23:47
vitaly1
Странно, Вам решение проблемы нужно, или узнать, сталкивался кто-нибудь или нет?
Я сталкивался. У меня такая картина могла наблюдаться в том случае, когда индекс сделан в одной версии программы, а поиск - в другой (после апгрейда). Все, что нужно при этом сделать - обновить индекс.
Автор: vitaly1
Дата сообщения: 02.05.2006 23:58
ghosty
Ясно. Спасибо Конечно решение. Просто не хотелось индексить заново. По крайней мере старая версия вообще не понимала, что такое апдейт индекса - каждый раз начинала создавать его с нуля, несмотря ни на какие установки. Надеюсь, новая это умеет делать.
Автор: ghosty
Дата сообщения: 03.05.2006 09:48
vitaly1
Я не помню такой версии, в которой нельзя было бы обновлять индекс. Однако теперь я вспомнил, что для решения проблемы нужно именно перестроить индекс.
Если в окне Update Index установить галочку Clear index before adding documents, индекс будет создан заново, если снять, будет обновляться.
Другие возможные причины неправильного выделения найденных слов (нестрашный глюк, на самом деле, - как правило, выделяются слова где то рядом с найденными ):
The document was modified since it was indexed
An indexing setting was changed since the document was indexed
The document was indexed with a different version of dtSearch
The document was indexed with the dtSearch Spider, and you are searching using dtSearch Web
Browser security settings disabled JavaScript

Да и не глюк это. Даже не понятно, как в принципе решать эту проблему без перестройки индекса.
Автор: vitaly1
Дата сообщения: 03.05.2006 12:35
ghosty
Спасибо. поэкспериментрую. Хотя в моей старой версии (6 с чем-то там) эту галку я тоже снимал/ставил, все равно индексил заново.

Да, и спасибо за информацию об IFilter-ах, теперь можно индексить рары и дежавюшки Правда, когда я ему подсунул дежавюшку в раре, такого он уже не вынес и вылетел.
Автор: ghosty
Дата сообщения: 03.05.2006 13:02
vitaly1

Цитата:
Правда, когда я ему подсунул дежавюшку в раре, такого он уже не вынес и вылетел.

Тут у меня создалось впечатление, что глюк не в dtSearch, а в самом айфильтре для дежавю. У меня тоже на одном файле dtSearch вел себя не совсем адекватно (из-за чего я и не мог никак нормально настроить айфильтр). Я отослал этот файл разработчикам, и они намекали, что проблема не с их стороны:
The IFilter is being applied; it is just crashing on the file. Tracing it in the debugger, dtSearch successfully invokes the DjVu IFilter and asks it to parse the file, and it never returns.
Вообще, служба поддержки у них просто изумительная...
Автор: Widok
Дата сообщения: 03.05.2006 13:48
шапка включена
Автор: vitaly1
Дата сообщения: 03.05.2006 14:17
ghosty
Не подкинете ссылок на айфильтры? Нашел пока ifilter.org и www.citeknet.com.

А у Вас дежавюшки внутри раров индексит?
Автор: los2
Дата сообщения: 04.05.2006 21:26
vitaly1,
_http://www.ifiltershop.com
Автор: Restr
Дата сообщения: 05.05.2006 08:51

Цитата:
Маленькая сенсация! dtSearch все-таки работает с DJVU, CHM, RAR и пр.


Действительно, после установки IFilter for RAR Archive files
_http://www.citeknet.com/download.aspx?url=ifilters/RAR/Citeknet.RAR.IFilter.Setup-1.5.3.msi
поиск в RAR стал вестись.

Подскажите, этот IFilter полностью бесплатный, или имеет ограничения по сроку использования.
Автор: vitaly1
Дата сообщения: 05.05.2006 09:19
Restr
Пишут, что freeware.
los2
Спасибо!
Автор: yanko12
Дата сообщения: 07.05.2006 17:03
Хотел скачать IFilter для DJVU - нигде нет, или он не нужен ?
или его функции выполняет другой IFiltr ?
Автор: vitaly1
Дата сообщения: 07.05.2006 17:08
yanko12
Нужен. См. на сайте lizardtech.com
Автор: yanko12
Дата сообщения: 09.05.2006 21:34
ответ на http://forum.ru-board.com/topic.cgi?forum=35&topic=7123&start=240#lt
ghosty02:54 09-05-2006

Цитата:
Только что ради интереса попробовал проиндексировать один ПДФ с кешированием - все прекрасно. Сидит себе в индексе с картинками. Вообще, это в Программы вопрос.


ты удалить забыл наверно саму pdf-ку
и картинки в htm-ках он у тебя тоже показывает ?

У меня сейчас на новом dtSearch 7.30 (Build 7270) - конкретная pdf-ка www.rmj.ru/rmj/t13/n19/pdf/RMJ19.pdf
с галкой cashe document in the index
и удалённой после создания индекса самой RMJ19.pdf
- ничего нет , т е он нашол в верхнем окошке что искомое слово есть в етом файле но в нижнем окне ничего не показывает
пользую XPSP1

кстати например pdf-ки типа http://www.rmj.ru/rmj/t13/n6/RMJ06.pdf
у меня вообще не индексируются dtSearch-ем (страницей выше я уже писал об ентом)
почему - непонятно
Автор: djyuran
Дата сообщения: 10.05.2006 18:54
1) Ткните ще раз плиз, как подключать IFilter. Скачать-скачал, поставил. А dtSearch всё равно не индексирует RAR!

2) Как обновить индекс, чтобы он всё заново не переиндексировал?

3) Самое обидное, что одну из моих pdf он так и не проиндексировал. Она на русском языке. Не картинка. Причем слово поиска есть в названии. Могу её выложить для проверки...
Автор: ghosty
Дата сообщения: 11.05.2006 00:57
yanko12

Цитата:
кстати например pdf-ки типа http://www.rmj.ru/rmj/t13/n6/RMJ06.pdf
у меня вообще не индексируются dtSearch-ем (страницей выше я уже писал об ентом)
почему - непонятно

У меня индексируется только если установить галку кэширования документа. Вообще, это такие кривые ПДФ'ы, которые и любой другой индексер обрабатывать будет со скрипом. Твои эти ПДФ'ки сделаны из Кварка, да еще и Маковской версии %) Их бы причесать каким-нибудь PDF-клинером (или как его там...), или в Акробате попробовать оптимизировать.
В FAQ'e разработчики честно говорят, что с криво сделанными файлами индексер не работает. Т.е. то, что ты увидишь при копи-пейст из PDF'a, индексер увидит точно также. Там же в FAQ'e должно быть написано, что можно сделать.

А вот с кэшированием, действительно, что-то не так. Вообще-то кэширование предлагается в качестве меры по ускорению поиска в тексте. Т.е. про возможность открытия док-в при условии их отсутствия в изначальном месте не говорится
Надо написать им...

djyuran

Цитата:
1) Ткните ще раз плиз, как подключать IFilter. Скачать-скачал, поставил. А dtSearch всё равно не индексирует RAR!

См. в шапке.

Цитата:
2) Как обновить индекс, чтобы он всё заново не переиндексировал?

См. мое последнее сообщение на предыдущей странице.

Цитата:
3) Самое обидное, что одну из моих pdf он так и не проиндексировал. Она на русском языке. Не картинка. Причем слово поиска есть в названии. Могу её выложить для проверки...

См. начало этого сообщения Можно и посмотреть на пдфку.

Попробуйте IFilter для пдфок настроить. Может, поможет?
Автор: KUMICH
Дата сообщения: 26.05.2006 21:37
Может знает кто, как iFilters подружить с windows 98 se ?
Автор: los2
Дата сообщения: 26.05.2006 23:01
KUMICH,
подозреваю что не выйдет,т.к. у этой ОС нет поддержки Indexing Service
_http://msdn.microsoft.com/library/default.asp?url=/library/en-us/indexsrv/html/ixrefint_9sfm.asp
Автор: Bozo
Дата сообщения: 17.06.2006 10:55
Скачал CHM IFilter отсюда http://www.citeknet.com/Products/IFilters/CHMIFilter/tabid/64/Default.aspx установил, настроил dtSearch, теперь при индексировании dtSearch выполняет недопустимую операцию. Видимо IFilter бажный. Где взять нормальный IFilter для CHM?
Автор: neyva
Дата сообщения: 04.07.2006 13:42
Решаема ли проблемма поиска в текстовых файлах разных кодировов ? DOS, WIN ?

Когда в одном индексном массиве, или даже архиве присутвуют такие файлы.

Страницы: 1234567

Предыдущая тема: NetManager Light


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.