Ru-Board.club
← Вернуться в раздел «Программы»

» HTTrack Website Copier

Автор: Taran2ul
Дата сообщения: 26.10.2011 12:50
Подскажите как правильно тормозить закачку. А то там очистка кэша и ....
Автор: ruboardusr2010
Дата сообщения: 08.12.2011 11:51
у меня такая же проблема, все удаляет при закрытии вообще непонятно зачем так сделано?
Автор: ruboardusr2010
Дата сообщения: 09.12.2011 08:52
получен офиц. ответ
If you closed the program you did NOT pause it, you canceled the mirror.
Cancel/continue is broken, all files not already processed has been lost from
the cache and will be redownloaded.
o pause, mirror -> pause. Minimize the window, hibernate if necessary, mirror
-> resume later. Do NOT close the program, do NOT shut down.
Автор: shveicar
Дата сообщения: 24.12.2011 11:33
Здравствуйте, давно хотел спросить, как правильно выставлять паузу между загрузкой (в offline explorer это злементарно - время в секундах) пытаюсь ставить в опции "пауза между загрузкой" - и после каждого запроса выскакивает окно с требованием нажать ок для продолжения...
Автор: aftertime
Дата сообщения: 05.02.2012 14:17
возникли проблемы с кодировкой имен проектов и кодировкой файлов index.html
начал изучать тему- оказалось слабос поддержкой utf-8.
ответ автора программы
если коротко - планы глобальные. изменений ждем с 2008 года
Автор: shveicar
Дата сообщения: 19.02.2012 23:11
Кстати недавно узнал - вышла новая версия 3.44-5 вроде стабильнее чем 3.43
Интересно, Автор программы планирует сделать опцию - "приостановить проект в файл" тогда, цены-бы, данной программе не было.
Автор: SerJantX
Дата сообщения: 28.02.2012 12:22
xitsa

Цитата:
AndreyPA
Может, это уже поздновато, но…
Меня работа с ним тоже напрягала по-началу. Вот один совет:
При выборе адреса, откуда скачивать, есть такая кнопка Set options…,
нажимаешь, выбираешь вкладку Scan rules, на ней описаны регулярные выражения, по которым он будет выбирать ссылки на дальнейшее скачивание. Чтобы добавить новое правило, нажми Include link(s), выбери criterion:links on this domain string: сервер, с которого скачиваешь, например: ru-board.com.

Попробовал, ни чего не получилось
1. мне нужно к примеру скачать отсюда все посты и только(со всеми вложениями, сполерами, картинками и т.п.), т.е. без выхода за пределы этой ветки.

2. к примеру нужно помимо постов еще скачать линки с шапки, в данном примере они на другие ветки не ведут кроме нижней, представим что все что имеющиеся в шапке ведет на другие ветки которые также нужно полностью скачать, что делать? Т.е. нужны только ветки а не весь сайт, ни ссылки ведущие в ЛС, к цитатам, редактированию и прочих сворачивающих от темы.

Помогите пожалуйста.
Автор: JHeavy
Дата сообщения: 09.03.2012 13:17
Здравствуйте, очень нравится программа, но я не могу никак понять как скачивать ветки с форумов т.е. как правильно указать начальную страницу и конечную страницу и чтобы все страницы между ними качались. Скачивается только 1 страница. Если не трудно напишите пример с пояснениями. ASE_DAG писал несколько примеров, помоему для сайта radiokot где все качается, но для других сайтов у меня не получилось сделать по аналогии. Пользуюсь WinHTTrack и с командами мало знаком
Заранее спасибо
Автор: rebelboy2323
Дата сообщения: 09.03.2012 13:41
Я скачивал от сюда у меня нормально все поставилось - Сайт софта
Автор: ArJ
Дата сообщения: 24.05.2012 19:52
[more] [more] [more] Привет всем!

Столкнулись с такой проблемой, используя wget:

Например, есть файл на сайте site.com/Files/LibFiles/80.wmv Парсинговый скрипт ищет его как login:pasword@live-st.ru/Files/LibFiles/80.wmv. В таком же виде по умолчанию он кладет его в кэш прокси.

2. Сайт написан так, что пользователь зайдя в свой кабинет открывает этот файл как site.com/Files/LibFiles/80.wmv Но такого объекта в кэше прокси нет.

Раньше мы устанавливали редирект прокси с login:pasword@site.com/Files/LibFiles/80.wmv на site.com/Files/LibFiles/80.wmv, но проблема была в корректном создании списка редиректа.

Сейчас хотим пойти другим путем, необходимо, чтобы он по умолчанию обращался без пароля, а пароль возвращал только в случае запроса сервера. Как-то так.

Часть файлов под паролем, часть нет.

Можно ли решить данную проблему при помощи HTTrack? И вообще как ее можно решить (под Юниксом в командной строке)?

Если кто может быстро пофиксить, оплатим работу.
alex.kubarev@gmail.com skype:synqalex [/more] [/more] [/more]
Автор: ASE_DAG
Дата сообщения: 24.05.2012 20:42
ArJ

Цитата:
Привет всем!

Столкнулись с такой проблемой, используя wget:

Например, есть файл на сайте site.com/Files/LibFiles/80.wmv Парсинговый скрипт ищет его как login:pasword@live-st.ru/Files/LibFiles/80.wmv. В таком же виде по умолчанию он кладет его в кеш прокси.

2. Сайт написан так, что пользователь зайдя в свой кабинет открывает этот файл как l site.com/Files/LibFiles/80.wmv Но такого объекта в кеше прокси нет.

Раньше мы устанавливали редирект прокси с login:pasword@site.com/Files/LibFiles/80.wmv на site.com/Files/LibFiles/80.wmv, но проблема была в корректном создании списка редиректа.

Сейчас хотим пойти другим путем, необходимо, чтобы он по умолчанию обращался без пароля, а пароль возвращал только в случае запроса сервера. Как-то так. И да, бежать должно в командной строке.

Часть файлов под паролем, часть нет.

Можно ли решить данную проблему при помощи HTTrack? И вообще как ее можно решить (под Юниксом в командной строке)?


И вам привет. Может быть, я просто туго соображаю, но я не понял, ни что вы вообще делаете, ни какое место у вас занимают Вэ-гет и кэширующий прокси.
Отвечая на конкретный вопрос: можно ли указать сабжу отправлять аутентификационные данные только после отлупа анонимного запроса, скажу, что не видел такой странной опции, ни у него, ни у какого-либо другого HTTP-клиента. В первую очередь, полагаю, потому не видел, что это и так дефолтное поведение; в том числе и у Вэ-гета.
Замечу также, что если у вас есть некий «парсинговый скрипт», т. е. вы используете Вэ-гет не в рекурсивном режиме, то нет никаких проблем реализовать еще один уровень проверки, дописав пару строчек.

P. S. Милый слоненок. ;-)
Автор: Andreykhv
Дата сообщения: 06.09.2012 13:20
ASE_DAG
Подскажите пожалуйста можно ли выкачать закрытый форум http://www.traderacademy.ru/forum/ ?
Почему то ввод логина и пароля не помогает.
Файл cookies.txt с нужными куками куда кидать в папку с программой или в папку где сохраняется форум?
Автор: ASE_DAG
Дата сообщения: 06.09.2012 18:59
Andreykhv
> можно ли выкачать закрытый форум http://www.traderacademy.ru/forum/
Можно. По крайней мере у меня никаких проблем с авторизацией по кукам не возникло.

> ввод логина и пароля не помогает
Не очень понятно, куда вы их там вводили.

> cookies.txt с нужными куками куда кидать
> в папку с программой или в папку где сохраняется форум
Ни то, ни другое. «Кинуть в текущую директорию» — это в ту директорию, в которой вы будете находится, отдавая команду. Т. е. если вы приказываете так:
you@yourpc:~/mydownloads$ httrack 'http://www.traderacademy.ru/forum/'
то куки должны быть в файле ~/mydownloads/cookies.txt.

> с нужными куками
Вот еще что. Я не зря указал в шапке, что лишние не помешают. Возможно вы выбирая нужные, ненароком забыли какую-то. Я выслал вам личкой достаточный перечень кук с действительными значениями — сопоставьте со своим.
Автор: Andreykhv
Дата сообщения: 06.09.2012 20:35
ASE_DAG
Спасибо Вам за готовность помочь.
Логин и пароль ввожу нажимая кнопку добавить URL в соответствующие поля.
Все настройки программы по умолчанию.
У меня windows. Программу запускаю ярлыком.
Файл cookies.txt программа создала в папке где сохраняется форум но он отличается от вашего. Файл cookies.txt который я извлек с помощью расширения «Export Cookies» он отличался от файла программы и от вашего и ситуацию не изменил. Подскажите пожалуйста в чем может быть причина.
Автор: ASE_DAG
Дата сообщения: 06.09.2012 21:27
Andreykhv
> нажимая кнопку добавить URL в соответствующие поля
Т. е. вы пользуетесь каким-то из двух граф. интерфейсов, а не просто httrack’ом. К сожалению, мне из них не знаком ни один.

> У меня windows.
Это пока не проблема. httrack кроссплатформенен и может быть сам, безо всяких гуев, использован под Виндой точно так же, как я вам показал: cookies.txt в текущую папку и
>httrack "http://www.traderacademy.ru/forum/"

Однако если коминтерпретатор Винды вам не нравится, то можете установить Цигвин (Cygwin) — с ним будет проще.

> Файл cookies.txt который я извлек с помощью расширения «Export Cookies»
> он отличался от ... вашего
> в чем может быть причина
Причина того, что он отличается? Ну во-первых, как вы заметили, «Export Cookies» сохраняет все куки, что помнит ФФ, для всех сайтов. А во-вторых, некоторые куки имеют временную или случайную составляющую.
Автор: Andreykhv
Дата сообщения: 06.09.2012 22:38
ASE_DAG
куки которые создает программа выглядят так

# HTTrack Website Copier Cookie File
# This file format is compatible with Netscape cookies
www.traderacademy.ru    TRUE    /    FALSE    1999999999    SESS6666cd76f96956469e7be39d750cc7d9    d4nr4dnrhpeia5s2aghcvg1ma7
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bbcalendar    b8424425aa5156d5a860deb8a5545e91f30f88fba-3-%7Bs-7-.calyear._s-4-.2011._s-8-.calmonth._i-12_s-8-.calview1._s-12-.displaymonth._%7D
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bblastvisit    1346958244
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bbforum_view    07af71d5f927c653434db2105f6b4ad07f5b44f8a-5-%7Bi-1_i-1346958248_i-2_i-1346958249_i-35_i-1346958257_i-38_i-1346958262_i-55_i-1346958270_%7D
www.traderacademy.ru    TRUE    /    FALSE    1999999999    bblastactivity    0
gyrlog.ru    TRUE    /    FALSE    1999999999    cuid    V/Ja0FBI9EeMtvHiE6AyAg==

а куки из мозиллы такие

www.traderacademy.ru    FALSE    /    FALSE    0    SESS6666cd76f96956469e7be39d750cc7d9    hkb2461oacp1f76916cg1q54r2
www.traderacademy.ru    FALSE    /    FALSE    0    bbsessionhash    729eb579f664cd70c16709ad951cf004
www.traderacademy.ru    FALSE    /    FALSE    0    bblastvisit    1346957784
www.traderacademy.ru    FALSE    /    FALSE    0    bblastactivity    1346957784
www.traderacademy.ru    FALSE    /    FALSE    0    bbuserid    115147
www.traderacademy.ru    FALSE    /    FALSE    0    bbpassword    8265cf847f5c03cc1328f8ad0ea5426f
www.traderacademy.ru    FALSE    /    FALSE    0    top_menu_slider_state    user_cabinet
www.traderacademy.ru    FALSE    /    FALSE    0    has_js    1
.traderacademy.ru    TRUE    /    FALSE    0    __utma    269248180.366057278.1346957767.1346957767.1346957767.1
.traderacademy.ru    TRUE    /    FALSE    0    __utmb    269248180.2.10.1346957767
.traderacademy.ru    TRUE    /    FALSE    0    __utmc    269248180
.traderacademy.ru    TRUE    /    FALSE    0    __utmz    269248180.1346957767.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)


Автор: ASE_DAG
Дата сообщения: 06.09.2012 22:53
Andreykhv
> куки которые создает программа выглядят так
Они вас, очевидно, не интересуют.

> а куки из мозиллы такие
Мне кажется, что ничем, кроме собственно значений, зависящих от времени и от случайных величин, не отличаются от тех, что я вам высылал. Их и надо положить с именем cookies.txt в текущую директорию.

P. S. Что у вас с размером шрифта?
Автор: Andreykhv
Дата сообщения: 06.09.2012 22:59
ASE_DAG
И подскажите пожалуйста что значит текущая директория? Это папка которая открыта? и как отдавать команду httrack "http://www.traderacademy.ru/forum/" ?
Автор: ASE_DAG
Дата сообщения: 06.09.2012 23:43
Andreykhv
> что значит текущая директория? Это папка которая открыта?
Да.

> как отдавать команду httrack "http://www.traderacademy.ru/forum/"
Если это вопрос про то, как пользоваться командной оболочкой, доступной в вашей системе, то обратитесь к тем, кто с ней хорошо знаком — в ветку «Командная строка Windows», например. Мне вам это об’яснять не вполне сподручно.
Ну или, если не хотите мучаться с виндовым шеллом, поставьте, как я уже предлагал, Цигвин. Не забудьте только при установке выбрать в т. ч. и httrack.
Автор: Andreykhv
Дата сообщения: 08.09.2012 09:08
ASE_DAG
Получатся что через граф.интерфейс HTTrack Website Copier не все функции доступны или работают?
Подскажите пожалуйста при установке Цигвин какие пакеты выбрать чтобы можно было запустить HTTrack Website Copier ?
Автор: ASE_DAG
Дата сообщения: 08.09.2012 17:36
Andreykhv
> через граф.интерфейс HTTrack Website Copier не все функции доступны или работают?
Я не знаю. Говорю же, что не знаком ни с тем, ни с другим гуем. Вообще такое вполне может быть, но в данном случае, скорее всего, вы просто не нашли, как это сделать через гуй, а я и не искал. :-)

> при установке Цигвин какие пакеты выбрать чтобы можно было запустить HTTrack?
Кроме тех, что выбраны по умолчанию — только собственно httrack. И это общее правило — существует же разрешение зависимостей (dependencies resolving): вы выбираете только нужный вам пакет, а пакетный мэнэджер добавит и все остальное, что нужно еще.
Автор: Andreykhv
Дата сообщения: 08.09.2012 18:13
В HTTrack в по умолчанию стоит принимать куки. И есть поля для адреса сайта, логина и пароля. Вроде все просто. После ввода логина и пароля в строке адреса появляется http://xxx:yyy@www.traderacademy.ru/forum/ где x логин y пароль как Вы ASE_DAG указывали в одном из постов. Но что не идет

Автор: ASE_DAG
Дата сообщения: 08.09.2012 19:24
Andreykhv
> В HTTrack в по умолчанию стоит принимать куки.
Я знаю.

> http://xxx:yyy@www.traderacademy.ru/forum/
Это HTTP basic authentication. А вам нужна авторизация POST-запросом (сделаете браузером) с сохранением состояния в куках — скормите полученные браузером куки сабжу.

Ну как, вы там поставили Цигвин?
Автор: Andreykhv
Дата сообщения: 13.09.2012 18:29
Цигвин поставил. Пакеты выбрал по умолчанию скачалось 3,5 гига после установки получилось 7.
Лучше дальше потихоньку буду осваивать линукс.
У меня второй операционной системой стояла Ubuntu я ее реанимировал.
Запустил HTTrack через терминал из папки где лежали куки загрузка пошла но авторизации не произошло. Подскажите пожалуйста в чем может быть дело?
Автор: ASE_DAG
Дата сообщения: 13.09.2012 19:33
Andreykhv
> в чем может быть дело?
Гм. Архизабавно. Лишние куки таки мешают, если их слишком много. Отфильтруйте предварительно нужные:

$ grep 'traderacademy.ru' cookies.txt > cookies.txt.tmp
$ mv cookies.txt{.tmp,}
$ httrack 'http://www.traderacademy.ru/forum/'


Надо поправить шапку, подыскав иное расширение — которое экпортитирует только куки для текущего сайта.
Автор: Andreykhv
Дата сообщения: 13.09.2012 20:04
Лишние куки я удалил. Оставил только www.traderacademy.ru там шесть строчек
Автор: ASE_DAG
Дата сообщения: 13.09.2012 20:15
Andreykhv
> www.traderacademy.ru
Нет, неправильно. Не $ grep 'www.traderacademy.ru' cookies.txt > cookies.txt.tmp, а $ grep 'traderacademy.ru' cookies.txt > cookies.txt.tmp.
Автор: Andreykhv
Дата сообщения: 13.09.2012 21:01
Спасибо за команду! Вырезал я ей нужные куки но что все равно не произошла авторизация. Может я не правильно запускаю HTTrack?
Автор: ASE_DAG
Дата сообщения: 13.09.2012 23:08
Andreykhv
> Может я не правильно запускаю HTTrack?
Я не знаю, как вы его запускаете. Вы этого не сообщили.
Автор: Andreykhv
Дата сообщения: 14.09.2012 19:27
ASE_DAG
Подскажите пожалуйста с какими настройками вы запускаете HTTrack и какая у вас версия программы? у меня 3.43

Страницы: 123456

Предыдущая тема: Спутниковый Интернет


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.