Ru-Board.club
← Вернуться в раздел «Программы»

» Offline Explorer

Автор: rzt
Дата сообщения: 21.12.2004 14:57
OlegChernavin
задача скачать одну новостную страницу со ссылками на новости глубиной до 1 уровня:

ставлю настройки проекта —
http://news.ferghana.ru/main.php
Уровень = 1
Типы файлов » Текст » Загружать согласно фильтрам URL
Типы файлов » Изображения » Загружать с начального сервера

Загружать файлы с начального сервера
Загружать файлы с начального катадога и ниже
Дополнительно » Вычислять выражения в скриптах

после окончания загрузки (грузится явно больше url чем ссылок на) некоторые страницы по ссылкам с главной http://news.ferghana.ru/main.php открываются, некоторые по каким-то причинам нет. Какие там правила отбора у Offline Explorer непонятно.
На отсутствующие ссылки выдаёт типа:
Нажмите здесь, чтобы перейти в онлайн:
http://news.ferghana.ru/detail.php?id=85089493470.33,1107,12062604
http://news.ferghana.ru/detail.php?id=994576905232.14,1385,7293074

основная информация там в этих detail.php?id

Автор: OlegChernavin
Дата сообщения: 21.12.2004 19:25
Я создал проект для загрузки сайта, согласно Вашим установкам. Одно отличие - запретил грузить картинки, т.к. они не влияют на решение проблемы. Закачалось все. Лишнего вроде ничего не было, только ссылки, которые на этом сайте. Там, конечно. не только новости, но если надо, это можно отфильтровать в Фильтрах URL - Имена файлов.

Специально пробежался по большинству ссылок на новости - все работает без проблем в оффлайн. Так что либо что-то не упомянуто из настроек, либо были проблемы именно в процессе загрузки, может соединение медленное или нестабильное. Я бы посоветовал поставить сравнительно большое число попыток в Настройках - напр. 20 или больше.

А насчет фильтрации ссылок - все работает нормально, он поставил в очередь все ссылки на этом сайте. Лишних вроде не было.
Автор: rzt
Дата сообщения: 22.12.2004 13:41
OlegChernavin
Спасибо.

А можно ли Offline Explorer настроить как-то на закачку с сайта типа
«Windows 2000 Resource Kits» http://www.microsoft.com/resources/documentation/windows/2000/server/reskit/en-us/default.asp
так чтобы закачивалась древовидная структура слева.


Автор: rzt
Дата сообщения: 23.12.2004 11:49
вот ещё проблемный сайт, хотя у него структура выложена по каталогам:
http://www.oszone.net/windows/
настройки такие:

Уровень = 3

Additional=DeleteOldFiles

Загружать только изменённые и новые файлы

Типы файлов » Текст » Загружать согласно фильтрам URL
Типы файлов » Изображения » Загружать только с начального сервера
Типы файлов » Пользовательские » Загружать согласно фильтрам URL

Фильтры URL » Сервер » Загружать файлы с начального сервера
Фильтры URL » Каталог » Загружать файлы с начального катадога и ниже
Фильтры URL » Имя файла » Загружать все имена

почему-то по команде закачать отсутствующие файлы всегда начинается закачка сначала, хотя почти все файлы есть и не менялись.
Автор: OlegChernavin
Дата сообщения: 23.12.2004 15:31

Цитата:
«Windows 2000 Resource Kits» http://www.microsoft.com/resources/documentation/windows/2000/server/reskit/en-us/default.asp


С этим проблема - там какой-то ActiveX control не хочет нормально данные про дерево загружать в оффлайн.

Добавлено

Цитата:
вот ещё проблемный сайт, хотя у него структура выложена по каталогам:
http://www.oszone.net/windows/
настройки такие:

Уровень = 3

Additional=DeleteOldFiles


Только что проверил - нормально все - продолжает качать только те файлы, которые не закачались. Скорее всего, удалены какие-то файлы и они перезакачиваются.
Автор: icywind
Дата сообщения: 23.12.2004 16:18
OlegChernavin
Очень не хватает такой вещи: допустим я запускаю на ночь OE на скачивание обоев с какого-нибудь сайта, утром приостанавливаю очередь в файл, но довольно часто вижу утром
BSOD на экране... Поэтому приходится опять с предыдущего файла очереди начинать и ждать, пока OE кучу скриптов и html'ок перелопатит в поисках картинок.... А это все лишний трафик. Вот если можно было бы автоматом сохранять очередь через определённые промежутки времени, то это было бы здорово!
И еще такой вопрос - скачал я картинки с одного сайта, через некоторое время захотел проверить обновления - OE снова будет перелопачивать все страницы или нет? Другим словом, сохраняются ли в файле проекта сведения об обработанных, но не сохраненных объектах? (например, размер html'ок при скачивании картинок)? Это тоже лишний трафик
Автор: OlegChernavin
Дата сообщения: 23.12.2004 19:13
Информация об HTML не сохраняется, так что страницы он заново скачает, а картинки (которые уже на диске) - нет. Это просто невозможно, потому что надо хранить сведения обо всех ссылках, которые в этих страницах. Проще сохранить сами страницы.

Насчет BSOD - а в какой версии это возникает? Я недавно одну проблему исправил, может это как раз оно и было.
Автор: sapavlov
Дата сообщения: 24.12.2004 07:45
Коллеги, извините, если здесь случайно было такое обсуждение - дайте ссылочку, если нет - помогите.

Кто-нибудь пробовал качать форумы на, блин, народе-яндексе?
Вот, например, такой:
http://narod.yandex.ru/userforum/forum.xhtml?owner=alis6

пробовал и телепортом, и ОЕ - скачивается первая страница форума, и сообщения с нее. Просмотр дальнейшего - невозможен. Телепорт дает сообщение с интернет-адресом нескачанной страницы, на который народ говорит, что адрес слишком длинный.

А скачать эту заразу очень нужно.

Может, у кого есть опыт или идеи по этой части?
Автор: icywind
Дата сообщения: 24.12.2004 10:40
OlegChernavin
Да нет, я думаю мои BSOD'ы не OE вызваны.... Просто на проце кулер убитый уже и иногда останавливается... Поэтому единственным выходом может стать автобэкап очереди через определенный промежуток времени. IMHO, такая проблема не только у меня возникает....
Автор: OlegChernavin
Дата сообщения: 24.12.2004 11:47

Цитата:
Кто-нибудь пробовал качать форумы на, блин, народе-яндексе?
Вот, например, такой:
http://narod.yandex.ru/userforum/forum.xhtml?owner=alis6


Это можно сделать так - с нажатыми Ctrl+Alt клавишами кликнуть по ссылке на одну из страниц, напр. на 2-ю. Появится новый проект с несколькими строками. В строке

POST=vari=2&go_to_page=1&... заменить

go_to_page=1&
на
go_to_page={:1..232}&

Добавить еще одну строку в поле URLs:

Additional=ConvertPOSTToFileName

Нажать ОК и попробовать загрузить проект.


Цитата:
Да нет, я думаю мои BSOD'ы не OE вызваны.... Просто на проце кулер убитый уже и иногда останавливается... Поэтому единственным выходом может стать автобэкап очереди через определенный промежуток времени. IMHO, такая проблема не только у меня возникает....


ОК. Попробую такую фичу добавить. Не буду обещать ничего, но если окажется не сложно, то сообщу здесь.
Автор: ERG73
Дата сообщения: 24.12.2004 19:12
Такая проблема:
1.нжно качать каждый день один сайт с новостями
так Offline Explorer постоянно обновляет файлы, хотя они не изменяются
Вот пример: http://www.sta.gov.ua/news.php3?6889
Как решить?
2.Есть список страничек в текстовом файле, котрые я хочу скачать (файлик обновляется каждый день)
Могу ли их импортировать в ОЕ?

Автор: icywind
Дата сообщения: 24.12.2004 19:15

Цитата:
ОК. Попробую такую фичу добавить. Не буду обещать ничего, но если окажется не сложно, то сообщу здесь.

Если получится, то будет просто замечательно! Будет еще один плюс в пользу ОЕ (которых, впрочем, и так немало - чего одна тех. поддержка стоит)
Автор: Krakozavr
Дата сообщения: 26.12.2004 01:33
Господа, обчитался топика, но что-то или не ншел, или пропустил...

1) качается БОООЛЬШОЙ проект. И я вижу, что он обрабатывается НЕ ТАК - надо менять параметры. ОК, меняю - подхватятся ли внесенные изменения (в фильтры URL)? сделанные БЕЗ ОСТАНОВКИ ПРОЕКТА - для последующих адресов?
2) проблема такого вот большого проекта. Сайт prodtp.ru - структура сайта организована без структуры вложенных каталогов, на PHP-шных параметрических линках. И хочу я выдрать только один из разделов этого сервера, не качая остальные. Ну вот что-то никак не получается.... В качестве ключевых слов исключения пытаюсь указать фрагменты этих самых длинных урлов, уникальные для соответствующих разделов сервера - но что-то ОЕ их игнорирует и пытается качать то списки мемберов, то веблинки - хотя они вроде как явным образом исключены из загрузки. Пример:

линк http://www.prodtp.ru/modules.php?op=modload&name=web_links&file=index&req=outsidelinksetup&lid=302
это раздел, который качать НЕ НАДО.

Я пытался его резать и по *web_link* и по web_links; и через URL и через каталог... и все равно обнаруживаю эти ссылки в очереди и в загруженных файлах. Что я делаю не так?

3) идеальным вариантом было бы указать только уникальный фрагмент искомого линка как маску для ЕДИНСТВЕННО ВОЗМОЖНЫХ линков скачки - но это невозможно, кажется?....
Автор: icywind
Дата сообщения: 26.12.2004 18:29
Krakozavr

Цитата:
подхватятся ли внесенные изменения (в фильтры URL)? сделанные БЕЗ ОСТАНОВКИ ПРОЕКТА - для последующих адресов?

У меня без остановки проекта внесенные в фильтры изменения не срабатывали.

Цитата:
Я пытался его резать и по *web_link* и по web_links; и через URL и через каталог...

А для php "Загружать согласно фильтрам URL" выбирать не пробовал? (Типы файлов ->Текст) IMHO, в нем все дело...

Цитата:
идеальным вариантом было бы указать только уникальный фрагмент искомого линка как маску для ЕДИНСТВЕННО ВОЗМОЖНЫХ линков скачки - но это невозможно, кажется?....

Почему? Фильтры URL -> Имя файла -> Произвольная конфигурация - задаешь маску и выбираешь "Маски включения имен файлов" из выпадающего списка.
Автор: OlegChernavin
Дата сообщения: 27.12.2004 15:03

Цитата:
1.нжно качать каждый день один сайт с новостями
так Offline Explorer постоянно обновляет файлы, хотя они не изменяются
Вот пример: http://www.sta.gov.ua/news.php3?6889
Как решить?


Сервер не дает дату изменения файла и он каждый раз их представляет как измененные. Для такого случая надо пользоваться режимом "Пропускать существ. файлы на уровне больше 0". Т.е. ОЕ скачает новостную ленту в любом случае и будет потом скачивать только отсутствующие файлы.


Цитата:
2.Есть список страничек в текстовом файле, котрые я хочу скачать (файлик обновляется каждый день)
Могу ли их импортировать в ОЕ?


Да, достаточно открыть текстовый файл в любом редакторе, все это скопировать в буфер обмена и потом нажать кнопку Вставить в ОЕ.


Цитата:
1) качается БОООЛЬШОЙ проект. И я вижу, что он обрабатывается НЕ ТАК - надо менять параметры. ОК, меняю - подхватятся ли внесенные изменения (в фильтры URL)? сделанные БЕЗ ОСТАНОВКИ ПРОЕКТА - для последующих адресов?


Там происходит следующее - большинство параметров будут влиять на вновь скачанные файлы. Т.е. если после изменения параметров в очереди есть HTML файлы и они скачаются, то ссылки из них будут вытаскиваться и добавляться в очередь в соответствии с изменениями. Но изменения уровеня на них влиять не будут.


Цитата:
Если получится, то будет просто замечательно! Будет еще один плюс в пользу ОЕ (которых, впрочем, и так немало - чего одна тех. поддержка стоит)


Сейчас начну делать. Если получится - напишу тут.

Добавлено
Вроде готово:

http://www.metaproducts.com/download/betas/oep1898.zip

Вот такую строку надо будет добавить в поле адресов:

SuspendToFileEvery=60;c:\file.wdq

60 - интервал в минутах.
Автор: icywind
Дата сообщения: 27.12.2004 15:50
OlegChernavin

Цитата:
Сервер не дает дату изменения файла и он каждый раз их представляет как измененные.

А если вместо даты размер проверять? IMHO, в большинстве случаев это надежнее - при редактировании размер сохраняется очень редко... А то последнее время довольно часто такие кривые сервера попадаться стали. Может стоит какой-нибудь параметр добавить? Или он уже есть?
Автор: OlegChernavin
Дата сообщения: 27.12.2004 17:09

Цитата:
А если вместо даты размер проверять? IMHO, в большинстве случаев это надежнее - при редактировании размер сохраняется очень редко... А то последнее время довольно часто такие кривые сервера попадаться стали. Может стоит какой-нибудь параметр добавить? Или он уже есть?


Он есть в Про версии - можно галку поставить "Проверка размеров файлов". Однако этот сервер не отдает ни размер, ни дату. И такое очень нередко случается.
Автор: icywind
Дата сообщения: 27.12.2004 17:50
OlegChernavin

Цитата:
Он есть в Про версии - можно галку поставить "Проверка размеров файлов".

Про эту опцию я знаю. Просто на досуге просматривал всю тему, здесь нашел похожую проблему... Она как-нибудь решилась?
Автор: OlegChernavin
Дата сообщения: 27.12.2004 18:55
Да нет. Там было другое - размер не изменялся, но сервер выдавал явно новую дату изменения файла. Такое бывает сравнительно редко и сайт в данном случае этим глюком вроде как не страдает. Он вообще никакой даты изменения файла не отдает. Хотя размера тоже у него нет.
Автор: ERG73
Дата сообщения: 27.12.2004 21:41

Цитата:
Цитата:
2.Есть список страничек в текстовом файле, котрые я хочу скачать (файлик обновляется каждый день)
Могу ли их импортировать в ОЕ?

Да, достаточно открыть текстовый файл в любом редакторе, все это скопировать в буфер обмена и потом нажать кнопку Вставить в ОЕ.

А нельзя ли как-то без рук обойтись
Чтобы автоматом все делалось
Автор: OlegChernavin
Дата сообщения: 28.12.2004 13:07

Цитата:
А нельзя ли как-то без рук обойтись
Чтобы автоматом все делалось


Т.е. чтобы проект сам загружал список адресов из файла?

Попробуйте поместить туда следующий макрос:

{:file=c:\file.txt}

Работает?
Автор: rzt
Дата сообщения: 30.12.2004 14:35
OlegChernavin
C новым годом!

Может ли такая настройка влиять на правильность определения времени изменения файлов в ОЕ:

в реестре
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem\NtfsDisableLastAccessUpdate=1 DWORD
в сочетании с настройкой OE для проекта в целом
«Загружать только изменнённые и новые файлы».

вопрос задаю, потому что заметил, что OE для некоторых сайтов грузит явно старые и присутсвующие локально файлы.
А вот это NtfsDisableLastAccessUpdate=1 влияет на правильность работы службы индексирования - определения изменённых файлов по запросу типа «@Access > 2004-12-28»

Добавлено
В Offline Explorer ещё желательно добавить функцию многопоточной закачки и докачки для больших файлов (как у менеджеров закачки типа RegetDeluxe, FlashGet).
И всё – можно тогда RegetDeluxe убрать совсем.
Автор: ERG73
Дата сообщения: 30.12.2004 21:33

Цитата:
Цитата:
А нельзя ли как-то без рук обойтись
Чтобы автоматом все делалось


Т.е. чтобы проект сам загружал список адресов из файла?

Попробуйте поместить туда следующий макрос:

{:file=c:\file.txt}

Работает?


Да, спасибо
Автор: FLiP_xT
Дата сообщения: 03.01.2005 02:57
OlegChernavin
Почему в таблице сравнения характеристик оффлайн броузеров нету отличного бесплатного ( под лицензией GPL) оффлайн браузера HTTRack WebSite Copier??? Множество параметров задания настроек проектов, парсер ява классов и д.р. фичи. Скачать эту программу можно с http://www.httrack.com.
Автор: OlegChernavin
Дата сообщения: 03.01.2005 13:59

Цитата:
Может ли такая настройка влиять на правильность определения времени изменения файлов в ОЕ:


Индексирование совсем тут не используется. Загрузка старых файлов связана именно с соотв. серверами, которые генерят страницы из ASP, PHP и т.д. При этом страница на сервере каждый раз создается заново и сервер ее считает обновленной, даже если ее реальное содержимое не меняется.


Цитата:
В Offline Explorer ещё желательно добавить функцию многопоточной закачки и докачки для больших файлов (как у менеджеров закачки типа RegetDeluxe, FlashGet).


Тут не все просто - когда загружается много файлов с сайта, важно балансировать именно загрузку файлов, а не кусков, чтобы сайт загружался с оптимальной скоростью. Дозагрузка в ОЕ есть, но она работает просто - только один раз, если соединение было разорвано. Более полноценную дозакачку сделать несложно, но есть опасность, что будет оставаться много недокачанных файлов и временный каталог будет быстро переполняться.

Т.е. надо будет делать и какой-то менеждер недокачанных файлов, т.е. уже сильное усложнение программы. Я бы посоветовал попробовать Download Express - и легко и бесплатно.

http://www.metaproducts.com/download/desetup.exe


Цитата:
Почему в таблице сравнения характеристик оффлайн броузеров нету отличного бесплатного ( под лицензией GPL) оффлайн браузера HTTRack WebSite Copier??? Множество параметров задания настроек проектов, парсер ява классов и д.р. фичи.


Да, слышал о ней. Как нибудь постараюсь время найти. Спасибо!

Всех с Новым Годом!
Автор: rzt
Дата сообщения: 03.01.2005 14:41
OlegChernavin
дополнение по вопросу

Цитата:

влияние настройки OE для проекта в целом
«Загружать только изменённые и новые файлы».


Цитата:

Индексирование совсем тут не используется. Загрузка старых файлов связана именно с соотв. серверами, которые генерят страницы из ASP, PHP и т.д. При этом страница на сервере каждый раз создается заново и сервер ее считает обновленной, даже если ее реальное содержимое не меняется.


Поможет ли для таких сайтов настройка
Проект «Проверка размеров файлов»
или
Дополнительно » Проверять целостность файлов

или только хуже будет?
Автор: OlegChernavin
Дата сообщения: 03.01.2005 16:01

Цитата:
Поможет ли для таких сайтов настройка
Проект «Проверка размеров файлов»


Не для всех, но поможет. Если сервер отдает размер файла, то ОЕ сможет делать нормальную проверку. Однако есть немало серверов, которые ни размер, ни дату изменения не хотят отдавать.


Цитата:
Дополнительно » Проверять целостность файлов


Это к проверке на обновление не относится. Просто если в процессе скачивания соединение оборвется, то ОЕ проверит, полностью ли файл скачался или нет. Если нет, то он будет скачан заново.
Автор: rzt
Дата сообщения: 03.01.2005 16:15
OlegChernavin
Спасибо.
На всякий случай хочу уточнить для таких сайтов – если сервер размер файла не отдаёт и каждый раз при выдаче обновляет дату создания, то при установки настройки
Проект » Проверка размеров файлов
файл будет загружаться полностью, так?

А нельзя как-то объединить настройку
«Не загружать существующие файлы» и «Проверка размеров файлов»?





Автор: nicka
Дата сообщения: 04.01.2005 03:20
как скачать этот сайт,чтоб работал скроллинг текста внутри каждой страницы...
Автор: OlegChernavin
Дата сообщения: 04.01.2005 11:15

Цитата:
На всякий случай хочу уточнить для таких сайтов – если сервер размер файла не отдаёт и каждый раз при выдаче обновляет дату создания, то при установки настройки
Проект » Проверка размеров файлов
файл будет загружаться полностью, так?


Да, именно так. К сожалению, на данный момент мне неизвестны другие способы проверки файлов на изменения, без предварительной загрузки. Кроме того, бывает, что страницы постоянно изменяются сервером. Их текст остается тем-же, но изменяется код загрузки баннеров для динамической рекламы.


Цитата:
А нельзя как-то объединить настройку
«Не загружать существующие файлы» и «Проверка размеров файлов»?


А как это будет работать? Это же совсем "противоположные" настройки. Может пригодится последняя настройка - Пропускать существующие файлы на уровне больше... ?

Добавлено

Цитата:
как скачать этот сайт,чтоб работал скроллинг текста внутри каждой страницы...


Я сейчас загрузил страницу www.alastu.net/jeff/children.shtml с уровнем 0 и на ней все прекрасно работает. Браузер MS IE 6.0.

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869

Предыдущая тема: X-Uploader программа для


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.