продублирую вопрос из др темы: если например на сайте есть вкладка которая открывается по скрипту onclick, при этом адрес страницы не изменяется. можно ли загрузить данные из этой вкладки?
» Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)
stowmar
Если не скачивается, попробуйте в режиме автосохранения в Offline Explorer - нужно выбрать скачанный проект, нажать кнопку Автосохранение на панели встроенного браузера и кнопку Просмотр на основной панели инструментов.
Если не скачивается, попробуйте в режиме автосохранения в Offline Explorer - нужно выбрать скачанный проект, нажать кнопку Автосохранение на панели встроенного браузера и кнопку Просмотр на основной панели инструментов.
Добрый день!
Вопрос к экспертам такой: как скачать с сайта файлы, которые не видит ни один загрузчик, но которые там есть (!!?).
Как это ни глупо или парадоксально звучит, но дело не так просто. Смысл такой: если пытаться выкачать сайт или его часть известными загрузчиками, то этот файл не виден ни при каких настройках и фильтрах. Однако, если ввести точный путь с именем файла, то файл закачивается именно с этого адреса!! Папка не закрытая (другие файлы там видны и качаются).
Конкретика:
Имеем сайт (subpath) http://delta-intkey.com/angio/
На сайте имеется файл intkeyw.zip
Файл этот увидеть (и соотв. скачать) можно единственным образом: введя полный путь; соотв. http://delta-intkey.com/angio/intkeyw.zip
То бишь, если доподлинно этого не знать (каким-то чудесным образом), проведать о его наличии вообще невозможно!
Я перепробовал несколько "звучных" и не очень даунлоадеров: Teleport Pro, Webzip7, Intellitamper... Ни при каких настройках этот файл не находится; в частности, в Teleport Pro можно ввести маску архивов, или даже принудительно поставить пользовательскую *.zip, но этот файл всё равно не найдётся!
Соответственно возникают сомнения, что на том или ином сайте присутствуют и другие файлы, которые могут быть нам нужны, но о которых мы так и не узнаем (хотя, в принципе, пути даже не зашифрованы).
Похожий вопрос, в частности, поднимался тж. вот здесь:
http://forum.xakep.ru/m_1582619/mpage_1/key_/tm.htm
но и там люди не дали вменяемого ответа.
Вопрос к экспертам такой: как скачать с сайта файлы, которые не видит ни один загрузчик, но которые там есть (!!?).
Как это ни глупо или парадоксально звучит, но дело не так просто. Смысл такой: если пытаться выкачать сайт или его часть известными загрузчиками, то этот файл не виден ни при каких настройках и фильтрах. Однако, если ввести точный путь с именем файла, то файл закачивается именно с этого адреса!! Папка не закрытая (другие файлы там видны и качаются).
Конкретика:
Имеем сайт (subpath) http://delta-intkey.com/angio/
На сайте имеется файл intkeyw.zip
Файл этот увидеть (и соотв. скачать) можно единственным образом: введя полный путь; соотв. http://delta-intkey.com/angio/intkeyw.zip
То бишь, если доподлинно этого не знать (каким-то чудесным образом), проведать о его наличии вообще невозможно!
Я перепробовал несколько "звучных" и не очень даунлоадеров: Teleport Pro, Webzip7, Intellitamper... Ни при каких настройках этот файл не находится; в частности, в Teleport Pro можно ввести маску архивов, или даже принудительно поставить пользовательскую *.zip, но этот файл всё равно не найдётся!
Соответственно возникают сомнения, что на том или ином сайте присутствуют и другие файлы, которые могут быть нам нужны, но о которых мы так и не узнаем (хотя, в принципе, пути даже не зашифрованы).
Похожий вопрос, в частности, поднимался тж. вот здесь:
http://forum.xakep.ru/m_1582619/mpage_1/key_/tm.htm
но и там люди не дали вменяемого ответа.
Falbhanachaich
Цитата:
Никак, если только они не прописаны где-то в html (текстовом виде), либо только методом перебора. Что значит папка не закрытая? =) В этой папке лежит index.htm, который и выдается при заходе на http://delta-intkey.com/angio/ Если бы этого, либо любого другого индексного файла не было, то сервер мог бы выдать листинг каталогов/файлов, а мог бы выдать Доступ запрещен - 403 и т.п., если листинг каталогов запрещен.
Цитата:
Вопрос к экспертам такой: как скачать с сайта файлы, которые не видит ни один загрузчик, но которые там есть (!!?).
Никак, если только они не прописаны где-то в html (текстовом виде), либо только методом перебора. Что значит папка не закрытая? =) В этой папке лежит index.htm, который и выдается при заходе на http://delta-intkey.com/angio/ Если бы этого, либо любого другого индексного файла не было, то сервер мог бы выдать листинг каталогов/файлов, а мог бы выдать Доступ запрещен - 403 и т.п., если листинг каталогов запрещен.
Методом перебора можно - в Offline Explorer Pro есть макросы - можно попробовать все комбинации символов. Если задать небольшое количество символов и только маленькие буквы, то за несколько дней можно все перебрать:
http://delta-intkey.com/angio/{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}.zip
http://delta-intkey.com/angio/{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}{:a..z}.zip
Donatello
OlegChernavin
Благодарю за помощь, буду пробовать!
"Папка не закрытая" )) это моя некомпетентность, к слову пришлось; из топика там человек писал, что типа даже из зашифрованной папки можно вот так вытащить файл, зная его точный URL, вот я и написал...
Тогда ещё один вопрос, уже абстрактного характера: а почему другие файлы загрузчики видят в этой папке, а zip — нет? Потому что они в index.html прописаны? Или?
Да и, кстати, многие файлы графики Teleport Pro тоже пропускает; причём как-то совсем спорадично, выборочно. В подпапках этого сайта он пропустил много файлов, которые ОН ЖЕ увидел, но по маске (например, файлы thon*.gif, lede*.gif, halor414.gif), и которые увидел даже тот же Intellitamper...
OlegChernavin
Благодарю за помощь, буду пробовать!
"Папка не закрытая" )) это моя некомпетентность, к слову пришлось; из топика там человек писал, что типа даже из зашифрованной папки можно вот так вытащить файл, зная его точный URL, вот я и написал...
Тогда ещё один вопрос, уже абстрактного характера: а почему другие файлы загрузчики видят в этой папке, а zip — нет? Потому что они в index.html прописаны? Или?
Да и, кстати, многие файлы графики Teleport Pro тоже пропускает; причём как-то совсем спорадично, выборочно. В подпапках этого сайта он пропустил много файлов, которые ОН ЖЕ увидел, но по маске (например, файлы thon*.gif, lede*.gif, halor414.gif), и которые увидел даже тот же Intellitamper...
Falbhanachaich
Цитата:
Какие другие? Мне за тебя посмотреть html-код index.htm и вставить его сюда или всё-таки ты сам знаешь, как посмотреть html-код страницы? ))
Ещё раз, на пальцах... Есть начало всего - индексный файл, в данном случае index.htm На него натравливается программа, программа смотрит html-код страницы и забирает оттуда все ссылки, также она может обработать вставленые скрипты на странице - вытащить ссылки и из них. И в зависимости от настроек, уже начинает ходить/скачивать по этим ссылкам, далее, если она ещё находит ссылки, она также по ним пойдет и так до бесконечности, пока не кончатся ссылки или не ограничится это всё настройками. Если программа в процессе работы обращается к каталогу, где разрешен листинг, то сервер вываливает ей список папок или файлов, со всеми вытекающими. У OE можно также включить опцию - Исследовать все возможные подкаталоги. Вот например здесь - http://delta-intkey.com/angio/www/ индексного файла нет и разрешен листинг. Такие программы называют ещё пауками, она может уйти х.з. куда, но... по паутинке. А из воздуха брать ссылки, они как бы не умеют ))
Там достаточно много каталогов с разрешенным листингом - http://delta-intkey.com/www/offline.htm
http://delta-intkey.com/angio/images
http://delta-intkey.com/www
Цитата:
Тогда ещё один вопрос, уже абстрактного характера: а почему другие файлы загрузчики видят в этой папке, а zip — нет? Потому что они в index.html прописаны? Или?
Какие другие? Мне за тебя посмотреть html-код index.htm и вставить его сюда или всё-таки ты сам знаешь, как посмотреть html-код страницы? ))
Ещё раз, на пальцах... Есть начало всего - индексный файл, в данном случае index.htm На него натравливается программа, программа смотрит html-код страницы и забирает оттуда все ссылки, также она может обработать вставленые скрипты на странице - вытащить ссылки и из них. И в зависимости от настроек, уже начинает ходить/скачивать по этим ссылкам, далее, если она ещё находит ссылки, она также по ним пойдет и так до бесконечности, пока не кончатся ссылки или не ограничится это всё настройками. Если программа в процессе работы обращается к каталогу, где разрешен листинг, то сервер вываливает ей список папок или файлов, со всеми вытекающими. У OE можно также включить опцию - Исследовать все возможные подкаталоги. Вот например здесь - http://delta-intkey.com/angio/www/ индексного файла нет и разрешен листинг. Такие программы называют ещё пауками, она может уйти х.з. куда, но... по паутинке. А из воздуха брать ссылки, они как бы не умеют ))
Там достаточно много каталогов с разрешенным листингом - http://delta-intkey.com/www/offline.htm
http://delta-intkey.com/angio/images
http://delta-intkey.com/www
Всё (надеюсь) более или менее ясно. Как посмотреть код — вроде как знаю )) даже был грешок такой, ваял почти полностью на блокноте сайт, с форумами и гостевыми)
Вот чего не знал — принципа работы подобных программ; я-то думал, что они просто видят структуру и содержание сайта, как я вижу свой жёсткий диск в проводнике, со всеми файлами . А не идут по цепочке ссылок, начиная от индекса. Отсюда и глупый вопрос, но теперь вы меня просветили, за что душевное спасибо.
Вот чего не знал — принципа работы подобных программ; я-то думал, что они просто видят структуру и содержание сайта, как я вижу свой жёсткий диск в проводнике, со всеми файлами . А не идут по цепочке ссылок, начиная от индекса. Отсюда и глупый вопрос, но теперь вы меня просветили, за что душевное спасибо.
Falbhanachaich
Цитата:
Странные какие-то думки... А кто им должен предоставлять карту сайта? Чтобы видеть структуру чего-то, нужно эту структуру ещё создать. Они идут оттуда, откуда зашли - какой URL был указан начальным.
Цитата:
я-то думал, что они просто видят структуру и содержание сайта, как я вижу свой жёсткий диск в проводнике, со всеми файлами . А не идут по цепочке ссылок, начиная от индекса.
Странные какие-то думки... А кто им должен предоставлять карту сайта? Чтобы видеть структуру чего-то, нужно эту структуру ещё создать. Они идут оттуда, откуда зашли - какой URL был указан начальным.
Помогите. Нужно бесплатной программой скачать сайт. Проблема в том, что между обращениями к страницам надо задать паузу в 7 секунд, так как стоит ограничение на сайте.
В Offline Explorer можно без проблем поставить паузу в 7 секунд и даже рандомную, например, от 5 до 10. И одно соединение.
Добрый день! В OfflineExplorer есть возможность скачивать страницы до ключевого слова - SkipParsingAfter. Когда указанный текст найден, остальная часть файла пропускается. но он скачивает всю страницу, а на hdd сохраняет до ключевого слова (часть страницы). Существует ли оффлайн-браузер который может скачивать страницу частично, экономя трафик и время?
HandyCache
Я постараюсь сделать это в ближайшее время. На самом деле, можно не докачивать страницу, если найден текст из такой опции.
Я постараюсь сделать это в ближайшее время. На самом деле, можно не докачивать страницу, если найден текст из такой опции.
OlegChernavin Спасибо. Буду ждать.
Скачиваю с адреса www.koran.islamnews.ru , но после нажатия на кнопку "Показать" происходит перенаправление на сайт. Может надо код кнопки поменять? Кто-то знает куда копать?
zzzUUUzzz
В Offline Explorer - окне Свойств проекта - секция Обработка - нужно включить обработку HTML форм.
В Offline Explorer - окне Свойств проекта - секция Обработка - нужно включить обработку HTML форм.
Ребята, подскажите оффлайн браузер который поддерживал фильтер урлов, где можно указать только какие урлы можно скачивать.
К сожалению скачал Offline Explorer, но там только запрет с каких урлов нельзя скачивать.
К сожалению скачал Offline Explorer, но там только запрет с каких урлов нельзя скачивать.
Roman2S
В Offline Explorer есть все виды фильтров. В диалоге Свойств проекта есть секция Фильтры URL - там есть списки для исключения и для разрешения (грузить только по этим ключевым словам).
В Offline Explorer есть все виды фильтров. В диалоге Свойств проекта есть секция Фильтры URL - там есть списки для исключения и для разрешения (грузить только по этим ключевым словам).
Да, вы правы - там есть - исключение на загрузку определённых урлов. А вот разрешение не нашёл, только по словам (т.е. анкорам), мне нужно к примеру, загрузить все старницы:
site.com/in?vvv=
site.com/in?p=
Как это добавить в условие, текст там может быть разный ...
site.com/in?vvv=
site.com/in?p=
Как это добавить в условие, текст там может быть разный ...
Roman2S
Фильтры URL - Имена файлов - добавить в разрешенный список:
in?vvv=
in?p=
Все, что не соответствует этим маскам будет исключено.
Фильтры URL - Имена файлов - добавить в разрешенный список:
in?vvv=
in?p=
Все, что не соответствует этим маскам будет исключено.
Добрый день, существует ли шаблон для скачки с livejournal. Т.е. скачать полностью нужный журнал не цепляя богомерзкую рекламу супа. Или только колдовать самому. Спасибо.
north
В Offline Explorer настроить проект для скачивания только с начального сервера, например, http://metroelf.livejournal.com/, установить во всех Фильтрах Файлов загрузку только по Фильтрам URL.
В Offline Explorer настроить проект для скачивания только с начального сервера, например, http://metroelf.livejournal.com/, установить во всех Фильтрах Файлов загрузку только по Фильтрам URL.
а для мамбы как настроить?
Nikolay777
А с обычными настройками что не так выходит? Я знаю, что большие картинки не скачиваются из-за AJAX.
А с обычными настройками что не так выходит? Я знаю, что большие картинки не скачиваются из-за AJAX.
HandyCache
Сделал эту фичу, чтобы не докачивать страницу, если найден текст из команды SkipParsingAfter.
Сделал эту фичу, чтобы не докачивать страницу, если найден текст из команды SkipParsingAfter.
OlegChernavin
Спасибо, при первой необходимости буду пользоваться этой функцией.
Спасибо, при первой необходимости буду пользоваться этой функцией.
For ALL:
нужно выкачать сайт с сохранением структуры каталогов. Использую Телепорт. При закачке английской версии сайта все в порядке. Но когда русский - многие каталоги в папке отображаются как абра-катабра (иероглифы) и потом не работают ссылки на локальные страницы. Чем закачать русский сайт? В чем проблема?
нужно выкачать сайт с сохранением структуры каталогов. Использую Телепорт. При закачке английской версии сайта все в порядке. Но когда русский - многие каталоги в папке отображаются как абра-катабра (иероглифы) и потом не работают ссылки на локальные страницы. Чем закачать русский сайт? В чем проблема?
Нашел проблему: получается, что все идет в кодировке ANCI, а надо в UTF-8. Тогда без крякозябров будет. В Телепорте это как-то переключается иил какой программой качать?
dimon0476
Это можно сделать в Offline Explorer - в окне настроек проекта - секция Обработка - есть галка "Использовать Unicode в именах файлов". Должно работать. Если нет, напишите, я поправлю.
Это можно сделать в Offline Explorer - в окне настроек проекта - секция Обработка - есть галка "Использовать Unicode в именах файлов". Должно работать. Если нет, напишите, я поправлю.
OlegChernavin, а нельзя это как-то поправить в Телепорте. К нему привык уже.
Страницы: 1234567891011121314151617181920
Предыдущая тема: AutoCAD помогите с установкой
Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.