Ru-Board.club
← Вернуться в раздел «Программы»

» Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)

Автор: diskoff
Дата сообщения: 17.12.2013 23:52
доброго времени суток !
Народ не подскажете позволяет HTTrack
скачивать определённую ветку сайта к которой имею доступ ?
Если да то как ? где вводить логин и пароль ?

Может там где прокси ???
Автор: ASE_DAG
Дата сообщения: 18.12.2013 00:15
diskoff, если «ветка сайта» — это ветка дерева URI, то да, разумеется. Это же базовый функционал. Как вы искали, что пропустили это мимо?

> где вводить логин и пароль?
Чем не устраивает способ, описанный в шапке ветки про httrack?
Автор: tt43
Дата сообщения: 21.03.2014 05:34
ребята, подскажите какой программою легче всего ( и проще) скачать какую-либо ветку
на форуме...да вот даже хотя бы на этом форуме ?
Автор: Engaged Clown
Дата сообщения: 21.03.2014 06:10
tt43
На этом форуме можно уложиться в 3 шага:
1) Нажимаем "Версия для печати".
2) Ждём, пока прогрузится до конца.
3) Нажимаем CTRL-S и сохраняем.
Автор: tt43
Дата сообщения: 21.03.2014 06:35
ну а если рассматривать программы конкретные.
скачал себе web copy (вроде так называется)- вообще ничего толком не смог скачать...
установил после этого httrack - четсно признаюсь. вот именно то,что задумал скачать- так и не скачал, не смого скачать по причине того,что добавляет в скачку много каких-то левых страниц...
вот порекомендовали Teleport ...
Автор: OlegChernavin
Дата сообщения: 21.03.2014 16:10
tt43

Опишите, что конкретно хотите скачать - адрес, что нужно, что пропустить. Я смогу дать конкретный совет.
Автор: shadow3000
Дата сообщения: 08.04.2014 17:18
камрады, кто подскажет, какая софтина может качнуть картинки с сайта, прописав в их имени текст с исходной страницы? пример: нужно скачать фото товаров и сохранить в виде имен файлов с фото их артикулы, которые прописаны текстом на исходной странице с фото.
вот пример
страничка http://www.arkit.ru/lampa-kll-sw-11-vt-2700-k-e14-energosberegayushchaya-svecha-na-vetru-mini
нужно качнуть фото лампочки и прописать именем картинки этот артикул который написан рядом: Артикул:SQ0323-0136
Автор: Nikolai2004
Дата сообщения: 08.04.2014 22:49
shadow3000
это только предварительной скачкой страницы и её парсингом можно сделать.
под каждый сайт нужно писать специальный код. учите программирование.
вот даю вам готовый скрипт для AutoHotkey

Код: page = http://www.arkit.ru/lampa-kll-sw-11-vt-2700-k-e14-energosberegayushchaya-svecha-na-vetru-mini

UrlDownloadToFile, %page%, temp.html
FileEncoding, UTF-8

Loop, read, temp.html
IfInString, A_LoopReadLine, <img src="http://www.arkit.ru/sites/default/files/styles/product_big/
{
url:=A_LoopReadLine
StringGetPos, pos, url, http://
StringTrimLeft, url, url, pos
StringGetPos, pos, url, .jpg
StringLeft, url, url, % pos+4
Break
}

Loop, read, temp.html
IfInString, A_LoopReadLine, <div class="a">
{
art:=A_LoopReadLine
StringGetPos, pos, art, <div class="field-item even">
StringTrimLeft, art, art, % pos+29
StringGetPos, pos, art, </div>
StringLeft, art, art, pos
Break
}

FileDelete, temp.html
UrlDownloadToFile, %url%, %art%.jpg
Автор: shadow3000
Дата сообщения: 08.04.2014 22:57
Nikolai2004
спасибо за ответ, см личку.

кто может сделать полностью (практически) автоматизированный вариант, на скриптах или еще как, пишите в личку, готов рассмотреть варианты с разумной оплатой.
Автор: shadow3000
Дата сообщения: 10.04.2014 16:38

Цитата:
в первой строке после page = подставляете адрес любого товара с сайта arkit.ru


хотя бы подскажите, как это сделать потоковым способом, не вручную же адрес подставлять, тогда смысл скрипта теряется. это так можно взять, и каждуй фотку "сохранить как" руками???
Автор: AnTul
Дата сообщения: 17.09.2014 10:06
Посмотрел те, что в шапке - живой только ОЕ. Подскажите, пожалуйста, есть ли современные бесплатные или недорогие оффлайн-браузеры?
Автор: SergeyZX
Дата сообщения: 19.09.2014 14:55
Добрый день! Понадобилось скачать сайт. Стоит HTTrack. Но сайт обрубает доступ после загрузки определенного числа файлов. Прогрмма в свою очередь каждый раз после подключения пытается качать сначала, в том числе при апдейте, т.е. сайт загружается частично, и какдый раз число файлов крутится около одной цифры. Как программу заставить при новом подключении загружать отсутсвующие страницы и файлы, а то, что есть, уже не трогать?
Второе, не могу понять почему, но не загружены картинки на страницах статей. Т.е. на индексных страницах изображения загрузились, но если пройти по ссылкам до самих страниц со статьями, то на них нигде нет изображений. Это где я чего еще не включил?
Автор: OlegChernavin
Дата сообщения: 19.09.2014 20:23
SergeyZX

Возможно, что на странице настроек Update Mode надо выбрать "Continue interrupted download".
Автор: dustraman
Дата сообщения: 22.05.2015 02:40
всем всего самого лучшего!

я журналист и музыкальный коллекционер. вместе с несколькими друзьми из разных стран мы, за долгие годы, собрали гигантскую, уникальную коллекцию, очень строго и аккуратно организованную и дополненную большим количеством дополнительной информации. очень надеемся, что со временем всё это превратится в нечто вроде вроде музыкальной онлайн библиотеки, если удастся решить проблемы с копирайтом...

хотя каждый из нас тратит бОльшую часть свободных денег на музыку и мы постоянно переписывемся со многими музыкантами и коллекционерами по всему миру, часто приходится сохранять материалы из сети - в том числе и такие, которые... ...не особенно желают сохраняться на ваши винчестеры (по разным причинам). неудивительно, что за многие годы я освоил все возможные и невозможные приёмы и способы "выемки" и сохранения онлайн-информации... на сегодняшний проблем с эти деликатным делом практически не осталось.

кроме одной. а именно - сохранения некоторых сайтов, состоящих исключительно из flash-контента. то есть, что здесь активно обсуждалось. в принципе, небольшие сайты можно - и даже предпочтительно - сохранять вручную, отдельными страницами. но последнее время появляются такие звери, которые даже этого не позволяют (не говоря уже об использовании оффлайн-браузеров)!! в самом крайнем случае, можно даже просто делать сканы страниц. но если на страницах присутствуют блоки невыделяемого текста с прокруткой, стрим-видео и так далее, ручная сборка/разборка всего этого превращается в утомительную и даже какую-то унизительную работу, занимающую кучу времени...

прошу прощения за долгое предисловие. вот конкретный вопрос: если способ сохранить весь активный/информативный контент вот этого (например) сайта за (относительно) небольшое время (пускай хотя бы без видео):
http://www.susanjacks.com ???

буду бесконечно благодарен за любую помощь или РЕАЛЬНО ценный совет!
Автор: Nikolai2004
Дата сообщения: 22.05.2015 21:28
dustraman
казалось бы, посоветую-ка я универсальный метод качания любого флеш-сайта, а фиг.
метод хороший, много раз испытан, но на susanjacks.com он что-то не работает.

короче, есть такой кэширующий прокси-сервер HandyCache. в теории всё просто: запускаем, настраиваем на него браузер, загружаем сайт, ходим по нужным страницам. HandyCache при этом всё сохраняет, даже сложные составные флеш-объекты. потом переводим HandyCache в автономный режим и сайт продолжает работать уже без интернета.

но сайт susanjacks.com очень хитрый и через обычный http-proxy вообще не загружается. зато он работает через socks5 proxy, но к сожалению в этом режиме HandyCache не кэширует содержимое. может если вы дальше поищете решение в этом направлении, то что-то выйдет?
Автор: mithridat1
Дата сообщения: 25.05.2015 18:42
Nikolai2004

Цитата:
но сайт susanjacks.com очень хитрый и через обычный http-proxy вообще не загружается.

Непонятно,с чего вы это взяли - у меня отлично загружается через squid (правда,видео не грузится,но и без прокси аналогично).Значит,теоретически ваш способ загрузки сайтов должен работать.
Автор: dustraman
Дата сообщения: 25.05.2015 23:35

Цитата:
Nikolai2004


Цитата:
mithridat1


спасибо! опробую HandyCache и, вообще, поэкспериментирую с прокси.
всё видео забрал в отдельную папку, с остальным, надеюсь, получится.
Автор: STAR4ak
Дата сообщения: 29.07.2015 23:11
Всем доброго времени суток. Недавно столкнулся с задачей отслеживания объявлений в одном из разделов на сайте avito. Планирую применить следующий подход: выкачивать с определенной периодичностью раздел сайта и затем, по необходимости, искать объявление по разным датам сохраненного раздела. Подскажите, может кто сталкивался с аналогичной задачей, как решили. Что лучше использовать для решения данной задачи, есть ли бесплатные средства?
Автор: OlegChernavin
Дата сообщения: 29.07.2015 23:41
STAR4ak

Я думаю, любой оффлайн браузер может скачать разделы и объявления. А вот насчет поиска - что именно Вы имеете в виду?
Автор: AntikillerPM
Дата сообщения: 30.07.2015 04:30
STAR4ak
может тебе WebSite подойдет
http://forum.ru-board.com/topic.cgi?forum=5&topic=2071
Автор: STAR4ak
Дата сообщения: 30.07.2015 20:24
Спасибо, что обратили внимание на мою проблему.

AntikillerPM, обязательно посмотрю.

OlegChernavin, идея в том, чтобы настроить скачивание раздела по расписанию, а татем, когда понадобиться отследить историю того или иного объявления, брать и вручную находить данное объявление в сохраненных версиях. Я понимаю что вариант не самый лучший. но пока в голову приходит только он. Кстати, а поиск по сохраненному разделу будет работать, тот что реализован на сайте avito?
Автор: OlegChernavin
Дата сообщения: 30.07.2015 23:14
STAR4ak

В Offline Explorer Pro есть функция делать копии файлов, если они изменились. Таким образом, можно будет поднять историю изменений простым способом.

Одно "но" - сначала надо будет создать проект для закачивания одного объявления и скачать его 3-4 раза, чтобы посмотреть, будет ли программа определять, что оно не изменилось, или блоки рекламы и динамический контент будут менять файл при каждом скачивании.
Автор: AnTul
Дата сообщения: 31.07.2015 22:03
http://www.cyotek.com/cyotek-webcopy/features
- я никак не разобрался с этой программой. Может ли она скачать отдельные файлы (аудио/видео...)?
http://forum.ru-board.com/topic.cgi?forum=5&topic=47932#lt
Автор: 1ANP
Дата сообщения: 17.09.2015 00:57
Подскажите, каким оффлайн-браузером можно выкачивать файлы с сайтов используя поиск например в Гугле (или любом другом поисковике).
Например в гугле я могу задать поисковую строку такого типа:
site:____ filetype:___, в поисковике отобразятся результаты запроса в виде ссылок на файлы - на первые десять файлов.
Как мне выкачать все файлы нужного расширения с нужного сайта (из нужного подкаталога) таким образом?
---
upd: разобрался - OfflineExplorer
Автор: SSergew
Дата сообщения: 15.11.2015 15:45
Какой программой или браузером выкачать этот сайт, без видео и аудио, только текст:
http://azbyka.ru/
?
Автор: ASE_DAG
Дата сообщения: 15.11.2015 16:31
SSergew, в чем проблема? Любой. У этой «Азбыки» предельно простой и машино-дружественный гипертекст — проще могло бы быть, только если б они полное файловое дерево наружу выдали.
Автор: moivhod
Дата сообщения: 01.12.2015 09:12
Качаю с http-сервера. Потом в папке скачивания вижу кучу файлов с длинными именами типа _25d1_2583_25d1_2587_25d0_25b5 без всякого расширения, никакой структуры каталогов, какая должна быть на сервере. С чем это связано?
Автор: ASE_DAG
Дата сообщения: 01.12.2015 09:28
moivhod, с тем, что вы что-то делаете не так.
Автор: moivhod
Дата сообщения: 01.12.2015 09:56

Цитата:
moivhod, с тем, что вы что-то делаете не так.


Хахаха! Это и ежу понятно) Есть какие догадки, что надо посмотреть и что поменять в настройках? Я вижу скачивание идет по нужным url, но в папке скачивания набор файлов без расширения...


Кстати, в папках на сервере есть кириллица, это не может быть причиной?
Автор: ASE_DAG
Дата сообщения: 01.12.2015 10:54
moivhod> Есть какие догадки, что надо посмотреть и что поменять в настройках?

Нет, конечно — телепаты в зимней спячке; а я даже не знаю, о настройках чего вы говорите (если вы не заметили, вы пишете в ветке, посвященной вопросу вообще, а не конкретной программе), не говоря уж о том, какие они у вас там.

Страницы: 1234567891011121314151617181920

Предыдущая тема: AutoCAD помогите с установкой


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.