Ru-Board.club
← Вернуться в раздел «Программы»

» Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)

Автор: stowmar
Дата сообщения: 27.06.2012 14:07
продублирую вопрос из др темы: если например на сайте есть вкладка которая открывается по скрипту onclick, при этом адрес страницы не изменяется. можно ли загрузить данные из этой вкладки?
Автор: OlegChernavin
Дата сообщения: 27.06.2012 16:59
stowmar

Если не скачивается, попробуйте в режиме автосохранения в Offline Explorer - нужно выбрать скачанный проект, нажать кнопку Автосохранение на панели встроенного браузера и кнопку Просмотр на основной панели инструментов.
Автор: Falbhanachaich
Дата сообщения: 15.08.2012 03:39
Добрый день!
Вопрос к экспертам такой: как скачать с сайта файлы, которые не видит ни один загрузчик, но которые там есть (!!?).

Как это ни глупо или парадоксально звучит, но дело не так просто. Смысл такой: если пытаться выкачать сайт или его часть известными загрузчиками, то этот файл не виден ни при каких настройках и фильтрах. Однако, если ввести точный путь с именем файла, то файл закачивается именно с этого адреса!! Папка не закрытая (другие файлы там видны и качаются).

Конкретика:
Имеем сайт (subpath) http://delta-intkey.com/angio/
На сайте имеется файл intkeyw.zip
Файл этот увидеть (и соотв. скачать) можно единственным образом: введя полный путь; соотв. http://delta-intkey.com/angio/intkeyw.zip
То бишь, если доподлинно этого не знать (каким-то чудесным образом), проведать о его наличии вообще невозможно!

Я перепробовал несколько "звучных" и не очень даунлоадеров: Teleport Pro, Webzip7, Intellitamper... Ни при каких настройках этот файл не находится; в частности, в Teleport Pro можно ввести маску архивов, или даже принудительно поставить пользовательскую *.zip, но этот файл всё равно не найдётся!

Соответственно возникают сомнения, что на том или ином сайте присутствуют и другие файлы, которые могут быть нам нужны, но о которых мы так и не узнаем (хотя, в принципе, пути даже не зашифрованы).

Похожий вопрос, в частности, поднимался тж. вот здесь:
http://forum.xakep.ru/m_1582619/mpage_1/key_/tm.htm
но и там люди не дали вменяемого ответа.
Автор: Donatello
Дата сообщения: 15.08.2012 06:22
Falbhanachaich

Цитата:
Вопрос к экспертам такой: как скачать с сайта файлы, которые не видит ни один загрузчик, но которые там есть (!!?).


Никак, если только они не прописаны где-то в html (текстовом виде), либо только методом перебора. Что значит папка не закрытая? =) В этой папке лежит index.htm, который и выдается при заходе на http://delta-intkey.com/angio/ Если бы этого, либо любого другого индексного файла не было, то сервер мог бы выдать листинг каталогов/файлов, а мог бы выдать Доступ запрещен - 403 и т.п., если листинг каталогов запрещен.
Автор: OlegChernavin
Дата сообщения: 15.08.2012 13:28
Методом перебора можно - в Offline Explorer Pro есть макросы - можно попробовать все комбинации символов. Если задать небольшое количество символов и только маленькие буквы, то за несколько дней можно все перебрать:

http://delta-intkey.com/angio/{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}.zip

Автор: Falbhanachaich
Дата сообщения: 15.08.2012 14:38
Donatello
OlegChernavin

Благодарю за помощь, буду пробовать!

"Папка не закрытая" )) это моя некомпетентность, к слову пришлось; из топика там человек писал, что типа даже из зашифрованной папки можно вот так вытащить файл, зная его точный URL, вот я и написал...
Тогда ещё один вопрос, уже абстрактного характера: а почему другие файлы загрузчики видят в этой папке, а zip — нет? Потому что они в index.html прописаны? Или?
Да и, кстати, многие файлы графики Teleport Pro тоже пропускает; причём как-то совсем спорадично, выборочно. В подпапках этого сайта он пропустил много файлов, которые ОН ЖЕ увидел, но по маске (например, файлы thon*.gif, lede*.gif, halor414.gif), и которые увидел даже тот же Intellitamper...
Автор: Donatello
Дата сообщения: 15.08.2012 18:48
Falbhanachaich

Цитата:
Тогда ещё один вопрос, уже абстрактного характера: а почему другие файлы загрузчики видят в этой папке, а zip — нет? Потому что они в index.html прописаны? Или?


Какие другие? Мне за тебя посмотреть html-код index.htm и вставить его сюда или всё-таки ты сам знаешь, как посмотреть html-код страницы? ))
Ещё раз, на пальцах... Есть начало всего - индексный файл, в данном случае index.htm На него натравливается программа, программа смотрит html-код страницы и забирает оттуда все ссылки, также она может обработать вставленые скрипты на странице - вытащить ссылки и из них. И в зависимости от настроек, уже начинает ходить/скачивать по этим ссылкам, далее, если она ещё находит ссылки, она также по ним пойдет и так до бесконечности, пока не кончатся ссылки или не ограничится это всё настройками. Если программа в процессе работы обращается к каталогу, где разрешен листинг, то сервер вываливает ей список папок или файлов, со всеми вытекающими. У OE можно также включить опцию - Исследовать все возможные подкаталоги. Вот например здесь - http://delta-intkey.com/angio/www/ индексного файла нет и разрешен листинг. Такие программы называют ещё пауками, она может уйти х.з. куда, но... по паутинке. А из воздуха брать ссылки, они как бы не умеют ))

Там достаточно много каталогов с разрешенным листингом - http://delta-intkey.com/www/offline.htm
http://delta-intkey.com/angio/images
http://delta-intkey.com/www
Автор: Falbhanachaich
Дата сообщения: 16.08.2012 00:42
Всё (надеюсь) более или менее ясно. Как посмотреть код — вроде как знаю )) даже был грешок такой, ваял почти полностью на блокноте сайт, с форумами и гостевыми)
Вот чего не знал — принципа работы подобных программ; я-то думал, что они просто видят структуру и содержание сайта, как я вижу свой жёсткий диск в проводнике, со всеми файлами . А не идут по цепочке ссылок, начиная от индекса. Отсюда и глупый вопрос, но теперь вы меня просветили, за что душевное спасибо.
Автор: Donatello
Дата сообщения: 16.08.2012 02:27
Falbhanachaich

Цитата:
я-то думал, что они просто видят структуру и содержание сайта, как я вижу свой жёсткий диск в проводнике, со всеми файлами . А не идут по цепочке ссылок, начиная от индекса.


Странные какие-то думки... А кто им должен предоставлять карту сайта? Чтобы видеть структуру чего-то, нужно эту структуру ещё создать. Они идут оттуда, откуда зашли - какой URL был указан начальным.
Автор: donbaton
Дата сообщения: 27.09.2012 13:26
Помогите. Нужно бесплатной программой скачать сайт. Проблема в том, что между обращениями к страницам надо задать паузу в 7 секунд, так как стоит ограничение на сайте.
Автор: OlegChernavin
Дата сообщения: 27.09.2012 14:21
В Offline Explorer можно без проблем поставить паузу в 7 секунд и даже рандомную, например, от 5 до 10. И одно соединение.
Автор: HandyCache
Дата сообщения: 17.10.2012 13:59
Добрый день! В OfflineExplorer есть возможность скачивать страницы до ключевого слова - SkipParsingAfter. Когда указанный текст найден, остальная часть файла пропускается. но он скачивает всю страницу, а на hdd сохраняет до ключевого слова (часть страницы). Существует ли оффлайн-браузер который может скачивать страницу частично, экономя трафик и время?
Автор: OlegChernavin
Дата сообщения: 17.10.2012 16:11
HandyCache

Я постараюсь сделать это в ближайшее время. На самом деле, можно не докачивать страницу, если найден текст из такой опции.
Автор: HandyCache
Дата сообщения: 17.10.2012 16:30
OlegChernavin Спасибо. Буду ждать.
Автор: zzzUUUzzz
Дата сообщения: 01.11.2012 02:48
Скачиваю с адреса www.koran.islamnews.ru , но после нажатия на кнопку "Показать" происходит перенаправление на сайт. Может надо код кнопки поменять? Кто-то знает куда копать?
Автор: OlegChernavin
Дата сообщения: 01.11.2012 11:43
zzzUUUzzz

В Offline Explorer - окне Свойств проекта - секция Обработка - нужно включить обработку HTML форм.
Автор: Roman2S
Дата сообщения: 10.11.2012 20:16
Ребята, подскажите оффлайн браузер который поддерживал фильтер урлов, где можно указать только какие урлы можно скачивать.

К сожалению скачал Offline Explorer, но там только запрет с каких урлов нельзя скачивать.
Автор: OlegChernavin
Дата сообщения: 11.11.2012 17:15
Roman2S

В Offline Explorer есть все виды фильтров. В диалоге Свойств проекта есть секция Фильтры URL - там есть списки для исключения и для разрешения (грузить только по этим ключевым словам).
Автор: Roman2S
Дата сообщения: 12.11.2012 13:30
Да, вы правы - там есть - исключение на загрузку определённых урлов. А вот разрешение не нашёл, только по словам (т.е. анкорам), мне нужно к примеру, загрузить все старницы:

site.com/in?vvv=
site.com/in?p=

Как это добавить в условие, текст там может быть разный ...
Автор: OlegChernavin
Дата сообщения: 12.11.2012 14:11
Roman2S

Фильтры URL - Имена файлов - добавить в разрешенный список:

in?vvv=
in?p=

Все, что не соответствует этим маскам будет исключено.
Автор: north
Дата сообщения: 12.11.2012 17:37
Добрый день, существует ли шаблон для скачки с livejournal. Т.е. скачать полностью нужный журнал не цепляя богомерзкую рекламу супа. Или только колдовать самому. Спасибо.
Автор: OlegChernavin
Дата сообщения: 12.11.2012 17:52
north

В Offline Explorer настроить проект для скачивания только с начального сервера, например, http://metroelf.livejournal.com/, установить во всех Фильтрах Файлов загрузку только по Фильтрам URL.
Автор: Nikolay777
Дата сообщения: 13.11.2012 15:44
а для мамбы как настроить?
Автор: OlegChernavin
Дата сообщения: 13.11.2012 18:53
Nikolay777

А с обычными настройками что не так выходит? Я знаю, что большие картинки не скачиваются из-за AJAX.
Автор: OlegChernavin
Дата сообщения: 15.11.2012 22:04
HandyCache

Сделал эту фичу, чтобы не докачивать страницу, если найден текст из команды SkipParsingAfter.
Автор: HandyCache
Дата сообщения: 04.12.2012 19:33
OlegChernavin
Спасибо, при первой необходимости буду пользоваться этой функцией.
Автор: dimon0476
Дата сообщения: 16.12.2012 10:53
For ALL:
нужно выкачать сайт с сохранением структуры каталогов. Использую Телепорт. При закачке английской версии сайта все в порядке. Но когда русский - многие каталоги в папке отображаются как абра-катабра (иероглифы) и потом не работают ссылки на локальные страницы. Чем закачать русский сайт? В чем проблема?
Автор: dimon0476
Дата сообщения: 16.12.2012 14:53
Нашел проблему: получается, что все идет в кодировке ANCI, а надо в UTF-8. Тогда без крякозябров будет. В Телепорте это как-то переключается иил какой программой качать?
Автор: OlegChernavin
Дата сообщения: 16.12.2012 16:41
dimon0476

Это можно сделать в Offline Explorer - в окне настроек проекта - секция Обработка - есть галка "Использовать Unicode в именах файлов". Должно работать. Если нет, напишите, я поправлю.
Автор: dimon0476
Дата сообщения: 16.12.2012 16:48
OlegChernavin, а нельзя это как-то поправить в Телепорте. К нему привык уже.

Страницы: 1234567891011121314151617181920

Предыдущая тема: AutoCAD помогите с установкой


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.