Ru-Board.club
← Вернуться в раздел «Программы»

» dtSearch

Автор: MrPerfect
Дата сообщения: 09.02.2003 05:09
Тема в Варезнике


dtSearch Engine — надежный и эффективный поисковый движок с поддержкой баз данных, предназначенный для встраивания в состав веб-сайтов и приложений. Поддерживает программное управление встроенным текстовым парсером с функциями подсветки искомых фрагментов, а также встроенными файловыми конверторами, которые обеспечивают преобразование в формат HTML документов, созданных в OpenOffice, MS Office и целом ряде других популярных приложений. Программа содержит эталонный код и поддержку для ADO, SQL, C++, C++.NET, Java, VB, VB.NET, C#, Delphi, ASP и ASP.NET. Обеспечивает более двух дюжин опций индексированного и неиндексированного текстового поиска для всех популярных типов файлов. Поддерживает полнотекстовый поиск во всех типах поддерживаемых файлов. Имеется также поиск с многократным ранжированием и другие опции сортировки при поиске.

dtSearch Desktop - программа, позволяющая искать гигабайты текста за считанные секунды на локальном компьютере, путем создания индекса, хранящего расположение слов в ваших файлах. Программа предлагает функции подсветки искомых фрагментов в найденных документах и поддерживает обширный перечень баз данных почтовых сообщений и файловых форматов. Штатные возможности программы включают более двух десятков функций индексированного, неиндексированного, полнотекстового и структурированного поиска, включая настраиваемый нечеткий поиск, поиск с использованием синонимов, терминов и словарей, логические операторы, ранжирование по релевантности, ранжирование по местоположению, поиск фраз и созвучий, поиск по маске, поиск с учетом порядка следования и взаимного расположения искомых единиц, морфологический поиск, поиск в заданном диапазоне числовых значений, настраиваемые веса искомых единиц. Кроме того, благодаря поддержке Юникода, программа обеспечивает поиск информации на самых разных национальных языках.

Возможности программы:
• Прокрутка списка слов для мгновенного отклика после введения поискового запроса
• Функции индексированного, неиндексированного, полнотекстового и структурированного поиска
• Обзор и настройка параметров тезауруса
• Показ всех проиндексированных полей документа с помощью специальной кнопки
• Отображение истории поиска
• Поиск сообщений, показывая хиты в полученных документах
• Опции буфера обмена, запуск файлов и другие инструменты для работы с извлечением данных
• Экспорт результата поиска в различные форматы данных

Особенности программы:
• Поиск с использованием морфологии
• Поиск с использованием синонимов
• Нечеткий поиск
• Фонетический поиск
• Поиск в базах данных (через ODBC)
• Поддержка сообщений Outlook
• Поддержка различных кодировок
• Работа в локальной сети
• Индексация веб страниц на заданную глубину
Автор: evoroz
Дата сообщения: 10.02.2003 09:06
MrPerfect

Цитата:
dtSearch Publish - Publish a searchable database to CD, DVD, etc. Здесь я не знаю, что это точно означает. Поиск на CD, DVD, ... ?
Эту штуку я не знаю, где загрузить. В Варезнике упоминается, что она встроена в dtSearch Engine.


После инсталяции Engine в меню появился dtSearch CD Wizard. Означает возможность создания собственного CD-ROM. Работает так: указывается откуда брать тексты и куда записать тексты и индекс (+ загрузчик главной старницы). Эту директорию и можно записать. Русский текст конвертируется в юникод.
Автор: MrPerfect
Дата сообщения: 10.02.2003 13:46
Забыл сказать - поиск в только в файлах с нужными расширениями можно производить, используя маски, вводя, например, в поле Filename filters:
hello?.doc - в данном случае будет производиться индекс и поиск только в файлах DOC, имя которых начинается на hello, а вместо ? может присутствовать любой одиночный знак.
Если так: hello??.doc - два любых одиночных знака;
hello???.doc - три любых одиночных знака;
???.doc - три любых одиночных знака;
???hello.doc- три любых одиночных знака; и т.д.
Если ввести:
hello*.doc
Здесь аналогично, только на месте * может быть любое количество любых символов.
В общем, все потребности удовлетворяются.

evoroz
Спасибо за информацию. То есть dtSearch CD Wizard = dtSearch Publish. А как с этим быть:
dtSearch Engine $ 999
dtSearch Publish $2,500
Это - заявленная стоимость программ.
Автор: evoroz
Дата сообщения: 11.02.2003 08:26
MrPerfect

Цитата:
А как с этим быть:
dtSearch Engine $ 999  
dtSearch Publish $2,500  


Точно не знаю. Но, например, если ты задумал делать КОММЕРЧЕСКИЕ cd-rom платишь 2500 и делай что хочешь. Подобная практика лицензирования совершенно точно есть у других производителей аналогичных программ. [Обычно предлагаются 2 варианта: % от тиража или сумма за все].

P.S. Тоже забыл: поиск на cd-rom осуществляется в эксплорере и в юникоде. А для этого докально запускается сервер Apache ! (или альтернативно другой сервер).
Автор: Autoset
Дата сообщения: 16.03.2003 23:00
Подскажите, пожалуйста, почему в окне indexed word list не отображается статистика слов. Спасибо.
Автор: evoroz
Дата сообщения: 18.03.2003 12:07
Autoset

Цитата:
Подскажите, пожалуйста, почему в окне indexed word list не отображается статистика слов.

Как у себя не крутил, все время отображается!
Может быть что-то сбилось в настройках или у тебя косит бета-версия.
Автор: Autoset
Дата сообщения: 19.03.2003 08:14
Причина найдена. Создавая индекс надо имя писать латиницей (у меня были русские имена). А потом можно поменять на русские, будет работать. Спасибо за участие.
Автор: trik
Дата сообщения: 28.03.2003 20:30
как уменшить размер индекса создаваемого почемуто у меня всегда получается индекс такой же или больший чем исходный текст
Автор: MrPerfect
Дата сообщения: 29.03.2003 07:30
trik
У меня на малом объёме документов - индекс почти такого же объёма, на большом количестве документов - индекс занимает малый размер.

В справке к программе, в поиске набираем compress. Получаем ответ:

When you reindex a document that you had previously indexed, dtSearch marks the information about the old version of the document as "obsolete" but does not remove it from the index. Compressing an index removes this obsolete information and also optimizes the index for faster searching.
To compress an index, check the Compress index after adding documents box in the Update Index <Indexing_Documents.htm> dialog box.

If you have updated the index several times, you may want to check Compress index after adding documents. Compressing an index removes obsolete document information from an index. It can take a while (dtSearch completely reconstructs the index) but it makes the index smaller and makes searches faster.

В менеджере индексов при обновлении индекса есть галка:
Compress index after adding documents
Автор: trik
Дата сообщения: 14.04.2003 02:38
ето все я исследовал уже мало помогает вот посмотрел индекс блин да она все слова оличающиеся только окончаниями запихала но я почитал вроде можно добавить поддержку морфологии у кого нибудь есть ето
база у меня 1.2 гига примерно индекс тоже около етого компрессированный
Автор: MrPerfect
Дата сообщения: 14.04.2003 07:20
trik
Пробуй альтернативу
http://forum.ru-board.com/topic.cgi?forum=35&topic=5824
Автор: LevT
Дата сообщения: 19.04.2003 10:11


Кто разбирался с dtSearch Engine (или вдруг является ее лиценизионнным пользователем)?

Почему объявленный в справке файл vw_rot13.cpp - пример использования File Parser API - в инсталляции отстутсвует? Как бы им разжиться?



Автор: ppch
Дата сообщения: 13.05.2003 18:35
dtSearch штука хорошая. Но вот не хватает русской морфологии. Загоняет он в свой индекс кучу всякого шума.
Проблемку можно решить отредактровав файлик dtsearch.noi, который содержит список неиндексируемых слов - предлоги, местоимения, междометия и т.д. .

Но где взять эти самые русские "шумные" слова? Может кто сталкивался - помогите плиз.
Автор: evoroz
Дата сообщения: 14.05.2003 08:29
ppch

Цитата:
dtSearch штука хорошая. Но вот не хватает русской морфологии. Загоняет он в свой индекс кучу всякого шума.
Проблемку можно решить отредактровав файлик dtsearch.noi, который содержит список неиндексируемых слов - предлоги, местоимения, междометия и т.д. .  
 
Но где взять эти самые русские "шумные" слова?


Как я понимаю, морфология - это изменение слов по падежам и пр. Решаться эта проблема должна с помощью внешнего словаря.
Список неиндексируемых - стоп - слов можно и самому сочинить. Или перевести с английского в том же файле.
Автор: ppch
Дата сообщения: 14.05.2003 20:03
evoroz

Решить проблему с русской морфологией совсем не просто, внешнего словаря тут далеко не достаточно. А вот приуменьшить эту проблему можно, подсунув dtSearch список русских стоп-слов.
Сочинять их самому бесполезно, все такие слова "великого и могучего" все равно не вспомнишь.
Так что надо искать. Нужны просто полные списки русских местомений, междометий, предлогов, союзов ну и т.д.


Автор: evoroz
Дата сообщения: 19.06.2003 08:58
Попробовал dtSearch с Windows 2003 Server. Для того, чтобы все работало пришлось добавить в IIS Manager -Web Service Extensions строку типа -
Web Service Extension: dtSearch (название)
Required Files: c:\inetpub\dtsearch\dtisapi6.dll (DLL отвечающая за поиск).
Автор: ppch
Дата сообщения: 19.06.2003 10:35
Если кому нужен словарь русских стоп-слов для dtSearch, сообщите - вышлю по мылу. В стоп-словаре примерно 500 слов.
Автор: atp
Дата сообщения: 29.10.2003 12:27
ppch

Цитата:
Если кому нужен словарь русских стоп-слов для dtSearch, сообщите - вышлю по мылу. В стоп-словаре примерно 500 слов.


Прошу выслать Noise, стоп-словаре
Автор: ppch
Дата сообщения: 06.11.2003 09:49
atp
Ну и куда я тебе его вышлю?
Хоть бы мыло свое написал
Автор: NSentinel
Дата сообщения: 11.11.2003 15:27
Никто не пытался прикрутить к dtSearch поддержку форматов CHM и RAR ? А то книги лежат... И если RAR не так актуально, в конце концов, можно или ZIP сделать, или вообще распаковать, то CHM очень даже хотелось бы.
Автор: ppch
Дата сообщения: 17.11.2003 19:59
NSentinel
А что декомпилировать CHM-ки в HTML не катит? Не очень конечно системно, но это все равно проще чем писать прибамбаху под dtsearch (хотя его API позволяет написать внешний парсер).
Автор: NSentinel
Дата сообщения: 17.11.2003 22:43
ppch

Цитата:
А что декомпилировать CHM-ки в HTML не катит?

Катит конечно Но это из области "использовать dtSearch любой ценой"
Учитывая моё кол-во книг - не приемлемо, да и не удобно, мне было бы проще парсер написать... К тому же в Tech Support'е dtSearch пообещали сделать эту возможность в течение 2004 года Как они сказали, проблема в отсутствии инфы по формату
Автор: ppch
Дата сообщения: 25.11.2003 18:21
NSentinel
Попробуй ISYS. Тоже поисковичок, и CHM-ки вроде берет. Хотя в остальном он мне не нравиться
Автор: NSentinel
Дата сообщения: 26.11.2003 06:25
ppch
Ты для себя сделал выбор в пользу dtSearch?
Автор: ppch
Дата сообщения: 26.11.2003 11:46
Сравнительный анализ показывает, что за исключением списка поддерживаемых форматов, dtSearch опережает ISYS по всем параметрам.
Хотя наверно это отдельная тема для обсуждения.
Автор: revinsky
Дата сообщения: 08.12.2003 00:00
ppch
а интерфейс dtSearch на русский ты случайно не переводил?
Автор: ppch
Дата сообщения: 08.12.2003 12:26
revinsky
Переводил, но не успел - вышла новая версия
Так что плюнул я на это дело.
Сейчас пишу свою прогу на движке dtSearch.
Если кому интересно, можно было бы и объеденить усилия в этом направлении
Автор: evoroz
Дата сообщения: 08.12.2003 13:36
ppch

Цитата:
Сейчас пишу свою прогу на движке dtSearch.

И что она делает?
Автор: revinsky
Дата сообщения: 08.12.2003 16:08
ppch

Цитата:
Если кому интересно, можно было бы и объеденить усилия в этом направлении

ну если только в качестве бета-тестера

а так, если бы точно знать, какие файлы переводить, я бы к скачанному мной dtSearch 6.30 (Build 6386) перевел бы весь интерфейс и хелп-файлы
Автор: evoroz
Дата сообщения: 08.12.2003 20:11
Кстати полгода назад фирма искала бета-тестеров в России. Может и сейчас еще нужны ...

Страницы: 1234567

Предыдущая тема: NetManager Light


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.