Ru-Board.club
← Вернуться в раздел «Программы»

» WebSite-Watcher

Автор: alt76
Дата сообщения: 19.05.2008 12:40
crackcrack
когда-то пробовал, была таже проблема. что да почему не вникал, просто подключил напрямую.
Автор: ThePRG
Дата сообщения: 12.06.2008 21:42
Подскажите, как добиться корректной загрузки некоторых сайтов, например http://ru.wikipedia.org/wiki/Starcraft_II
Если точнее, то при открытии сайта через WSW с использованием IE, т.е. при открытии локально сохранённой страницы с подсвеченными изменениями, страница не похожа на саму себя.
Вот можете сравнить с оригиналом: http://img230.imageshack.us/img230/6523/clipboard01yb1.jpg
Спасибо.

Автор: MrPerfect
Дата сообщения: 17.06.2008 15:19
ThePRG

Цитата:
как добиться корректной загрузки некоторых сайтов, например http://ru.wikipedia.org/wiki/Starcraft_II

С этим сейчас никак. В ближайшей версии ошибка работы с wikipedia будет исправлена.

4.42 Beta-4
http://aignes.com/beta.htm

Цитата:
[x] Improved handling of imported CSS files (wikipedia pages are now displayed correctly)
Автор: unhappy
Дата сообщения: 25.07.2008 19:28
Подскажите пожалуйста, есть ли аналогичный по функционалу php скрипт?
То есть аналог программы работающий с web-сервера.
Автор: MrPerfect
Дата сообщения: 25.07.2008 21:23
unhappy
Полагаю, что с огромной вероятностью такого не существует.
Автор: alt76
Дата сообщения: 25.07.2008 23:02
crackcrack

Цитата:
Кто пробовал сабж подключить через прокси HandyCache?
У меня полностью нарушилась структура открытого файла, и по этой причине не смог произвести подсветку изменений.

кста, на новой 4.42 версии все работает на ура
дело видимо в:

Цитата:

Version 4.42 (21-Jul-2008)
[+] Pages with gzip format supported
Автор: baribal
Дата сообщения: 08.08.2008 15:35
Помогите настроить эту программу. Вот значит есть урл - http://torrents.ru/forum/viewforum.php?f=7&sort=2 (только надо быть зерегистрированным, чтобы мои настройки проверить). Кукизы добавил, всё работает. Но мне например надо мониторить только появление новых записей о фильмах. Я через мастер форума выделил область, где мне искать обновления:

Фильтр отслеживаемые - RegexToRegex(Топики,Упорядочить по\

Но в данном случае программа будет рапортавать об изменении, если в этих 3-х столбиках (Торрент    Отв.    Посл. сообщение) поменяется или цифра, или имя последнего ответившего. Сделал:

Фильтр игнорируемые - regex(\d+ \| \d+ (\d+\.\d+|\d+) [M,G]B \d+ \d+ \d+\-\d+\-\d+ \d+\:\d+ \w+ )

Выборка происходит нормально при тесте, т.е. значения этих 3-х столбиков захватываются программой:

...
1 | 1 1.41 GB 1 0 2008-08-08 14:03 имя
1 | 0 1.46 GB 0 0 2008-08-08 13:50 имя
1 | 3 916 MB 1 0 2008-08-08 14:23 имя
1 | 0 1.86 GB 0 0 2008-08-08 13:38 имя
...

но почему-то не игнорируются. Всё-равно если изменится хоть одна цифра, или в последнем столбике изменится имя последнего ответившего, то программа рапортует об изменении.

Помогите настроить так, чтобы она рапортавала _только_, если появляется новая тема.
Автор: MrPerfect
Дата сообщения: 10.08.2008 17:05
baribal
Я не очень представляю, что вы хотите отслеживать, но предполагаю, что столбец "Темы" подраздела "Топики", игнорируя столбцы "Торрент, Отв., Посл. сообщение". Вам лучше подойдёт не мастер форума, а создание фильтров вручную.

1. Создаём закладку как веб-страницу и проверяем один раз (инициализируем).

2. Открываем свойства закладки - кнопка Мастер фильтра
Внизу слева переходим на вкладку Text. Нажатие Ctrl+F, вводим фразу для поиска "топики" (без кавычек). находим этот текст, выделяем его - кнопка Создать фильтр вручную - Новый фильтр Игнорируемые - Выделенный текст в начале страницы - Выделенный текст содержит изменяющиеся числа - Добавить в фильтр. Итог - весь текст от начала страницы до ключевого слова "Топики" включительно игнорируется и изменения в нём не выделяются цветом.

3. Там же в мастере фильтра крутим страницу вниз до текста "Страница 1 из 364". Выделяем его - кнопка Создать фильтр вручную - Новый фильтр Игнорируемые - Выделенный текст в конце страницы - Выделенный текст содержит изменяющиеся числа - Добавить в фильтр. Итог - весь текст включительно от ключевого слова "Страница 1 из 364" до конца страницы игнорируется и изменения в нём не выделяются цветом.

4. Выделяем любую дату/время на странице, например "2008-08-10 15:52". Кнопка Создать фильтр вручную - Новый фильтр Игнорируемые - Дата/Время - Добавить в фильтр. Итог - любые упоминания на странице даты в таком формате игнорируются и не выделяются цветом.

5. Мастер фильтра - вверху вкладка Ручной фильтр. В поле Новый фильтр Игнорируемые вставляем отдельной строкой
regex(\d+)
Итог - любые числа на странице игнорируются. Ранее в программе была такая опция, сейчас увы нет.

6. Осталось игнорировать упоминания о размерах в мегабайтах и гигабайтах. На вкладке Мастер выделяем любой текст с мегабайтами, лучше вместе с цифрами, например "677 MB" (без кавычек). Кнопка Создать фильтр вручную - Новый фильтр Игнорируемые - Выделенный текст - Выделенный текст содержит изменяющиеся числа - Добавить в фильтр. Итог - любые упоминания о размерах в мегабайтах игнорируются и не выделяются цветом.

7. Пункт 6 повторить для размеров в гигабайтах, выделив любой текст, например "1.37 GB" (без кавычек). Итог - все упоминания о размерах в гигабайтах игнорируются и не выделяются цветом.
Автор: baribal
Дата сообщения: 13.08.2008 16:57
MrPerfect
Дело в том, что в столбце "Посл. сообщение" информация в таком виде:

2008-08-13 13:59
Вася

2008-08-13 13:55
Петя

2008-08-13 13:57
Коля

Т.е. каждый раз когда человек отвечает в тему, столбец "Посл. сообщение" этой темы изменяется вышеописанным образом - изменяется время (с этим можно справится), но также и имя последнего ответившего в эту тему (под временем). Как в таком случае быть? Я сделал вот такое регулярное выражение:

regex(\d+\-\d+\-\d+ \d+\:\d+ \w+ )

Происходит выборка в таком виде:

2008-08-09 01:07 Петя
2008-07-30 18:15 Вася
2008-08-12 08:39 Коля

Вроде всё ок, но имена написанные русскими буквами не выбираются. И как быть с 2-х словными именами типа: Василий Петрович или с символами в именах (-, _ и т.д.)? \w+ \w+ ставить и в [] перечислять эти символы? Я плохо в регулярных выражениях разбираюсь. Спасибо заранее за помощь.






Автор: MrPerfect
Дата сообщения: 13.08.2008 20:21
baribal

Цитата:
в столбце "Посл. сообщение" информация в таком виде:

2008-08-13 13:59
Вася

Когда изменяется имя, то с этим будет трудно что-то сделать, поскольку имена будут разные. Возможно в будущем появятся расширенные возможности фильтрации таблиц или улучшенная фильтрация форумов.

Цитата:
но имена написанные русскими буквами не выбираются

Я не понимаю ваш смысл "не выбираются". Что это? Вы не можете их выделить? Вы добавляете их в фильтр, но при проверке изменений эти ключевые слова не игнорируются? Что? Версия WebSite-Watcher, используемая вами?


Цитата:
Василий Петрович

Так и нужно выделять, никаких символов и перечислений. И вы что ж, хотите имена всех пользователей форума добавлять в фильтр? Вам потребуется пара миллионов световых лет.
Автор: baribal
Дата сообщения: 14.08.2008 10:24
MrPerfect


Цитата:
Когда изменяется имя, то с этим будет трудно что-то сделать, поскольку имена будут разные.


regex(\d+\-\d+\-\d+ \d+\:\d+ \w+ ) - вот этот фильтр выбирает большинство, кроме 2-х словных имён и имён, написанных русскими буквами. Конечно просто имя через фильтр не сделаешь, но если перед именем стоит опред. вида дата и время, то в принципе достаточно вписать в фильтр в конце любое слово или последовательность символов. Что я и сделал.


Цитата:
Я не понимаю ваш смысл "не выбираются".

Это значит, что при тесте фильтра они не появляются в результатах. 4.42 версия.


Цитата:
И вы что ж, хотите имена всех пользователей форума добавлять в фильтр?

Мне кажется, что с помощью регулярных выражений это сделать можно, только глубже их копнуть.
Автор: MrPerfect
Дата сообщения: 16.08.2008 09:20
baribal

Цитата:
regex(\d+\-\d+\-\d+ \d+\:\d+ \w+ ) - вот этот фильтр выбирает большинство

Регулярные выражения есть очень чувствительная и специфическая штука. Вот удалил я все фильтры, добавил только ваш. Ничего не фильтруется для вашей форумной страницы.
Автор: baribal
Дата сообщения: 18.08.2008 12:12
MrPerfect
А вы под зарегистрированным пользователем заходите или нет?
Автор: MrPerfect
Дата сообщения: 19.08.2008 19:08
baribal
Незарегистрированным.
Автор: baribal
Дата сообщения: 20.08.2008 14:55
MrPerfect
Надо зарегистрированным. Тогда фильтр имеет смысл.
Автор: Intexid
Дата сообщения: 03.10.2008 14:04
Можно ли, чтобы при обнаружении новой версии странички, WSW качал не все картинки со старой, а только те, которые добавились?
Автор: MrPerfect
Дата сообщения: 03.10.2008 20:10
Свойства закладки - Изображения - Дополнительно - Всегда загружать все изображения
Если эта опция включена, изображения загружаются заново, если отключена - загружаются только новые или изменённые. Теоретически так. Должно работать.
Автор: Intexid
Дата сообщения: 04.10.2008 02:00
MrPerfect
Ты совершенно прав!
Сначала как-то неправильно понял смысл этой настройки..
..еще один плюсик в копилку WebSite-Watcher
Автор: fril
Дата сообщения: 11.10.2008 10:14
А можно ли отслеживать 2-3 первых топика в разделе, другими словами топик обновляется, он становится первым, программа его проверяет, об изменения докладывает, или если создается новый топик, она его тоже что бы обрабатывала....
Ну что нибудь в этом роде
Автор: MrPerfect
Дата сообщения: 11.10.2008 19:36
fril
Такой функциональности сейчас нет. В будущем, возможно, будет. Это уже анализ (parsing) и извлечение данных (data mining) плюс последующая их обработка по заданным критериям.
Автор: baget
Дата сообщения: 15.10.2008 09:13
MrPerfect, благодарю за советы опубликованные на форуме, очень помогают освоить программу, т.к. не силен в этих делах.
Помогите настроить:
Отслеживаю, например, 3 web-странички, надо чтоб каждая отображалась и обновлялась на своей вкладке внутреннего браузера.
Как сделать?


Автор: MrPerfect
Дата сообщения: 15.10.2008 21:09
baget

Цитата:
надо чтоб каждая отображалась и обновлялась на своей вкладке внутреннего браузера

Сейчас это невозможно. Вкладки в браузере предназначены для обычного хождения по страницам в сети.
Чтобы при обновлении трёх закладок они открывались для просмотра в трёх отдельных вкладках встроенного браузера, такого нет. Открывается всё в одной вкладке, первая закладка обновилась - открылась в браузере для просмотра, вторая проверена и обновилась - открылась в браузере, третья проверена и обновилась - открылась в браузере. Итог - по окончании проверки трёх закладок, если они все определены как изменённые, то вы увидите в браузере третью закладку. Но кнопкой Назад в панели инструментов браузера вы сможете просмотреть и остальные.
Автор: VitRom
Дата сообщения: 30.11.2008 15:10
Когда-то попользовался 3.х, но с трафиком было тяжко, а 3.х всегда скачивал страницы целиком и пользоваться HEAD и Range не умел. А как с этим дела в 4.42, 5?
Автор: MrPerfect
Дата сообщения: 30.11.2008 20:13

Цитата:
пользоваться HEAD и Range не умел

Извините, стесняюсь спросить, а что означает у вас уметь пользоваться HEAD и Range?
Автор: VitRom
Дата сообщения: 01.12.2008 13:22

Цитата:
что означает у вас уметь пользоваться HEAD и Range?
То же, что у всех
Стандартные команды HTTP -- они и в Африке...
Т.е. возможности:
1. Перед проверкой контента спросить сервер HEAD my-url и закачивать или не закачивать тело в зависимости от ответа сервера Last-Modified.
В логах, скажем, ДанлоадМастера или РеГета при попытке "проверить обновление" уже закачанного файла это хорошо видно.
2. Если интересующее находится только в начале страницы, говорить GET my-url... Range: 0-2000 к примеру и скачивать только первые 2кб.
Это тоже хорошо видно в логах "качалок" при закачках больше чем в 1 поток.
Автор: MrPerfect
Дата сообщения: 01.12.2008 15:27
Первым делом упомяну об основных функциях программы. Первая - обнаружить изменение вебстраницы (или любого другого файла - бинарного, текстового, rss). Вторая, пожалуй, самая важная - показать обнаруженные изменения в наглядном виде.

Поле Last-Modified запрашивается, но не только на основании этого ответа страница загружается. Сервер банальным образом может не выдать ответ на этот запрос. Что делать тогда?

Range, я полагаю, применимо только к бинарным файлам, что и используют файлокачалки.

Цитата:
Если интересующее находится только в начале страницы

Как вы это определите?!? Почему в начале? А если сегодня - в начале, а завтра - в конце? А если интересующее имеется в 3567 местах веб-страницы? Что делать тогда?
Автор: VitRom
Дата сообщения: 02.12.2008 14:59
MrPerfect, мне это напоминает давний спор с автором сабжа. Он упорно кивал на то, что не все сервера поддерживают HEAD. Ну очень упорно. А на возражение вроде того, что "не все поддерживают" и "все не поддерживают" -- это несколько разные вещи -- просто замолк и перестал отвечать. И я до сих пор в сомнениях -- вроде он не дурак, так как же не понял такой простой вещи-то?! Или это психология -- подсознательная обида на "ткнувшего носом" (указавшего нечто, лежащее "на виду") -- или ещё что...

Так и Ваши возражения выглядят несколько... скажем так -- надуманными. Или "притянутыми за уши". Разумеется, полностью полагаться на упомянутые возможности глупо. Но не использовать их, когда можно -- глупо не менее.

Цитата:
Сервер банальным образом может не выдать ответ на этот запрос. Что делать тогда?
Да, это сложный вопрос... Можно подумать?
Эврика! Может, тогда и скачать полностью?

Цитата:
не только на основании этого ответа страница загружается.
А на основании чего ещё?! Если, например (следим за цифрами!), страница скачана и положена ("проинициализирована" или как это там) в базу 10.10.08, причём сервер при скачке отдал Last-Modified 02.10.08, то, если назавтра (11.10) он снова скажет 02.10.08 -- ему, наверное, можно поверить? И какое тогда ещё может быть основание (кроме ручного указания именно этого сервера как исключения)?!

Цитата:
Range, я полагаю, применимо только к бинарным файлам
AFAIK к любому отдаваемому. "Бинарный файл" ненамного отличается от многоязычного Юникодового текста. А Content-Type в ответе сервера -- это для браузера. Не попадались случаи, когда сервер отдаёт бинарники с типом хтмл-текст? И ничего, нормально. В отличие от бинарного/текстового режимов ФТП
Скорее, Range применяется (серверами) только к бинарным файлам, но сервер серверу рознь, и таких "ублюдков" не много. Кажется (хотя тут я не уверен), даже Майкрософт ИИС уже научился

Цитата:

Цитата: Если интересующее находится только в начале страницы
Как вы это определите?!?
Автор: MrPerfect
Дата сообщения: 02.12.2008 20:41

Цитата:
Но не использовать их, когда можно -- глупо не менее

Я вам сообщил, что Last-Modified запрашивается и используется, что вам ещё надо? Не подходит программа - не пользуйтесь.

Цитата:
что не все сервера поддерживают HEAD

Может быть так оно и есть. Какая вам разница, чем запрашивается last-modified - через get или head.


Цитата:
Эврика! Может, тогда и скачать полностью?

Гм. Кроме htm ещё есть кучи asp, php, страницы с javascript, новостные сайты, форумы, содержание страниц которых меняется каждое мгновенье. Конечно, что вы ещё предложите - качать полностью. Да и если вам нет разницы в объёме трафика, то какая вам может быть разница, как проверяется страница на обновление.


Цитата:
А на основании чего ещё

Алгоритм работы - коммерческая тайна, мне недоступная. Проверка по дате файла есть запрос last-modified.


Цитата:
Глазами, однако

Это с вашей точки зрения. А с моей - нужная информация может появиться в любом месте страницы и я хочу узнать об этом, а не пропустить мимо.


Цитата:
Например, писать вверху страницы в виде заголовка имя продукта вместе с текущей версией.

Пример страницы дайте.
Автор: VitRom
Дата сообщения: 04.12.2008 11:06

Цитата:
Я вам сообщил, что Last-Modified запрашивается и используется
Спасибо. Просто слова "запрашивается, но не только на основании этого ответа" несколько смутили и запутали.
Цитата:
что вам ещё надо?
ну, я вообще-то спрашивал про две версии, release и beta:
Цитата:
как с этим дела в 4.42, 5?


Цитата:
Не подходит программа - не пользуйтесь
calm down, take it easy! Само собой, если не подходит, то и не буду пользоваться, и никто не заставит Вот я и пытаюсь выснить -- подходит или нет

Цитата:
Какая вам разница, чем запрашивается last-modified - через get или head
О, да совершенно никакой!.. Просто это... ну, того... в ответе на HEAD идут только заголовки, а в ответе на GET за заголовками сразу идёт контент... А трафик лишним не бывает

Цитата:
Проверка по дате файла есть запрос last-modified
Помнится, это было и раньше. Другое дело, что в последней версии, с которой я слез, проверка "по дате" была отдельным "режимом", т.е. я мог проверять или по дате, или по содержимому (с сопутствующими фичами вроде выделения цветом), но не комбинировать это. А сейчас (4.42, 5.beta)?
Цитата:
Пример страницы
Это насчёт полезности Range, не так ли? Лехко! http://kessels.com/jkdefrag/
Автор: MrPerfect
Дата сообщения: 04.12.2008 21:21

Цитата:
запрашивается, но не только на основании этого ответа" несколько смутили и запутали

Это основной используемый по умолчанию метод проверки страниц.

Цитата:
я вообще-то спрашивал про две версии, release и beta:

Разницы в интересующем вас нет в 4.42, 5.

Цитата:
я и пытаюсь выснить -- подходит или нет

Страницы можно проверять без загрузки любой графики со страниц, только текстовое содержание страницы, поэтому проверка выполняется достаточно быстро.

Цитата:
в ответе на HEAD идут только заголовки, а в ответе на GET за заголовками сразу идёт контент... А трафик лишним не бывает

Не бывает. Но то, что get поддерживается всеми серверами, а head - не всеми, наверное всё-таки имеет значение, хоть вы и уверяете обратное.

Цитата:
в ответе на GET за заголовками сразу идёт контент

Может имеет значение и ещё что-то получаемое из контента для более точного определения - изменилась страница или нет.

Цитата:
я мог проверять или по дате, или по содержимому (с сопутствующими фичами вроде выделения цветом), но не комбинировать это. А сейчас (4.42, 5.beta)?

Version 4.00 (22-Sep-2004)

Цитата:
New method "Automatic". This method chooses the methods "check-by-content", "check-by-date" or "check-by-size" automatically or uses a combination of them. It can also speed up checking of static websites enormously if there is more than one check per day.

Вот этот новый метод (основной сейчас) я и имел ввиду, что проверка выполняется не только на основании Last-Modified. Здесь полностью не раскрыт весь алгоритм метода, где-то на офффоруме он немного подробнее рассматривался. Метод ещё имеет различие в зависимости от типа проверяемой страницы или файла.
Сейчас 4 метода - автоматический, по дате файла, по размеру файла, по содержанию. Я предлагал новый метод "по дате файла и размеру файла" для быстроты проверки и большей гарантии от ошибочных тревог об обновлении, но это издохло.

Цитата:
я мог проверять или по дате, или по содержимому (с сопутствующими фичами вроде выделения цветом), но не комбинировать это

Вот сейчас автоматический метод есть комбинация режимов.

Цитата:
с сопутствующими фичами вроде выделения цветом

Любой метод при обнаружении изменения загружает страницу, сравнивает ёё с прежней версией и подсвечивает изменения.

Цитата:
Это насчёт полезности Range, не так ли? Лехко! http://kessels.com/jkdefrag/

Ну здесь полезность я не особо вижу. Последняя версия выпущена 31 августа, то есть обновления редки. Добавляете закладку без загрузки графики, задаёте проверять раз в месяц, трафик не пострадает.
Есть ещё варианты - установить более широкий интервал проверки - один раз в три месяца.
Можно добавить в закладку исполняемый файл
http://www.kessels.com/JkDefrag/JkDefrag-3.36.zip
и включить уведомление при ошибке. Итог - при исчезновении этого файла (появился новый, старый исчез) вы получите уведомление, то есть узнаете, что страница обновилась. Проверка двоичного файла очень быстра.

Можете добавить в закладки следующий файл
http://www.kessels.com/JkDefrag/JkDefrag-3.37.zip
плюс уведомление при инициализации (при появлении файла)
Сейчас он не существует, но как только появится, то вы получите уведомление. Но здесь существует опасность, что имя будущего файла будет другим.

Но основное с range поймите - полезная для вас информация в любой момент может измениться, изменить своё положение на странице и вы об этом можете НЕ УЗНАТЬ.

Страницы: 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950

Предыдущая тема: как поставить пароль


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.