HTTrack Website Copier

Автор: ShigaLex
Дата сообщения: 30.07.2007 20:34

Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.

Автор: ShigaLex
Дата сообщения: 31.07.2007 06:28

httrack-3.41-3.exe
httrack-noinst-3.41-3.zip

Автор: Starina_Muller
Дата сообщения: 01.08.2007 14:56

Функциональность отличная, а фейс покачал, но всеравно нравиться.

Автор: Titanov
Дата сообщения: 03.08.2007 18:24

Пользуюсь почти год - очень нравиться, а что до фейса - то главное чтобы дело свое знала...

Автор: arko77
Дата сообщения: 17.08.2007 23:16

Цитата:

Функциональность отличная

Автор: riston
Дата сообщения: 19.08.2007 21:11

Свою работу хорошо знает...

Автор: Shigal
Дата сообщения: 25.08.2007 21:46

Попробывал - понравилось...

Автор: seagram
Дата сообщения: 27.08.2007 23:42

Любопытно, очень любопытно...

Автор: bacardi
Дата сообщения: 05.09.2007 11:46

Неплохо

Автор: zelmer
Дата сообщения: 13.09.2007 12:06

Очень даже неплохо...

Автор: zauber
Дата сообщения: 04.10.2007 10:26

Очень приятная в работе программа

Автор: K_Ok_O_S
Дата сообщения: 05.06.2008 02:00

Люди, подскажите, плиз, как скачать сабжем только файлы с маской
http://photofile.es/photo/ttanya25/3563337/*.jpg

Это full-size картинки из альбома http://photofile.es/users/ttanya25/3563337/ ,если задать в адресной строке броузера любой из них, скажем,
http://photofile.es/photo/ttanya25/3563337/77735387.jpg , то открывается. А скачать - не получается - пробовал разные настройки... Чего я не понимаю?

Автор: orbis
Дата сообщения: 26.06.2008 10:11

Очень даже...

Автор: AndreyPA
Дата сообщения: 07.08.2008 09:57

Я очень хотел научится пользоваться но не получается
Мне надо
Скачать сайт :
1.ссылки брать только с этого сайта все внешние и прочие отмести
2.сложить все в одну папку и все
Можно примерчик настроек

Автор: sek1
Дата сообщения: 09.09.2008 13:38

Пользуюсь в течении 3-х лет .
Программой доволен - особенно на слабых компьютерах.

Автор: xitsa
Дата сообщения: 13.09.2008 21:48

AndreyPA
Может, это уже поздновато, но…
Меня работа с ним тоже напрягала по-началу. Вот один совет:
При выборе адреса, откуда скачивать, есть такая кнопка Set options…,
нажимаешь, выбираешь вкладку Scan rules, на ней описаны регулярные выражения, по которым он будет выбирать ссылки на дальнейшее скачивание. Чтобы добавить новое правило, нажми Include link(s), выбери criterion:links on this domain string: сервер, с которого скачиваешь, например: ru-board.com.

Автор: Dr_Mihelson
Дата сообщения: 19.03.2009 22:55

HTTrack Website Copier 3.43-4

Автор: Ranok
Дата сообщения: 04.05.2009 23:21

Все чень хорошо и нужно ( жаль тема притихла), НО!... Использование то логина и пароля не работает!!! Так нужно форум скачать - все качает но там где нужно в вести логин и пароль - просто качает страницу ВВЕСТИ ЛОГИН И ПАРОЛЬ )) Юморно)))

Автор: K_Ok_O_S
Дата сообщения: 05.05.2009 07:32

Я тоже пытался скачать картинки для жены с запароленного раздела сайта http://www.dmc.com/majic/pageServer/100101000f/en/Free-charts.html, но из командной строки так у меня ничего и не получилось...

Жаль, что в GUI не внесли эту функцию - так было бы понятнее, для не особо продвинутых...

Автор: usr721
Дата сообщения: 25.06.2009 23:09

Сохраняет имена файлов на кирилице корякулями (похоже как если открыть файл в utf8 редактором не понимающим эту кодировку), как побороть проблему?

Автор: Weinaum
Дата сообщения: 23.10.2009 18:44

понравилась программа, но вот что то не пойму, как ограничения скорости снять?
в настройках по дефолту стоит 25 кб/с, убираю,как будто этого ограничения быть больше не должно, а все равно больше чем 25 не дает скорости. Причем, на всех версиях, под вин, под линукс, с веб мордой - все везде одинаково - тянет 10 минут то что вгетом может за 10-20 секунд скачаться.
Есть ли вариант научить скорости?

Автор: donbaton
Дата сообщения: 19.02.2010 16:24

http://www.cmsimplewebsites.com/demos/clouds/
Вот по этой сссылке страницы обычные, а качать не хочет, как заставить?
Он делает ссылку в виде ссылки в интернет, а не качает страницу по ссылке локально.

А страницу, на которой эта ссылка, он скачал:
папка на пк/4/www.cmsimplewebsites.com/index7c5a.html?Templates_Section_2:Waterripple

Эта ссылка в интернете на этой странице:
http://www.cmsimplewebsites.com/?Templates:Clouds
"Click here for Demo of this template"

Как мне закачать сайт?

Автор: MENNENN
Дата сообщения: 03.03.2011 06:55

Реальная программа, жаль тему забросили.

Автор: ASE_DAG
Дата сообщения: 03.03.2011 20:22

MENNENN
Кто забросил? Куда забросил? У вас есть какие-то вопросы?

Автор: MENNENN
Дата сообщения: 04.03.2011 03:18

ASE_DAG
Здравствуйте, рад вас снова видеть!
В теме давно не наблюдалась активность пользователей, посмел предположить что про нее запамятовали.
В программе практически разобрался. Насколько понял, одной из главных составляющих программы является Фильтр (Scan Rules), который при оптимальной настройке позволяет добиться правильного сохранения сайта. Однако существует небольшой нюанс, который заставил меня усомнится в правильности сохранения.

В настройках добавил в фильтр -* +www.erowid.org/*

никуда не переходить и качать только с одного сайта. Спустя некоторое время после скачки, в некоторых папках и под папках появляются дубликаты c нижним подчеркиванием, наподобие этой www.erowid.org_
в них тоже закачиваются файлы. На официальном форуме программы есть ответ по этому поводу http://forum.httrack.com/readmsg/19828/19826/index.html Автор: William Roeder утверждает, что это возможно из за неправильного парсинга js или отсутствия порта 8080 в URL, но не объясняет, как этого избежать.
Каким образом нужно задать параметр в Scan Rules, чтобы эти папки не создавались? Возможно дело в самих настройках программы?
И еще, когда в настройках программы в разделе Spider выбираю параметр follow robots.txt rules в логах появляется отчет об ошибке.

Info: Note: due to www.erowid.org remote robots.txt rules, links begining with these path will be forbidden: /cgi-bin/, /archive/hyperreal/, /archive/rhodium/chemistry/nitrostyrenes/, /experiences/exp_pdf.php, /wp-*, /references/texts/ (see in the options to disable this)
Повлияет ли отключение параметра robots.txt на загрузку, или нет?

Надеюсь на вашу помощь. Благодарю за внимание!

Автор: ASE_DAG
Дата сообщения: 04.03.2011 03:42

MENNENN
> Здравствуйте, рад вас снова видеть!
Здравствуйте, взаимно.

> The only time I've seen a directory with a underscore
Ну а я не разу не встречал. Увы.

> -* +www.erowid.org/*
А вот это совершенно излишне.
$ httrack http://www.erowid.org/
и все.

Надо посмотреть в логе (hts_cache/new.txt, если закачка еще не закончена) с каких урлов было загружено содержимое этой директории www.erowid.org_ и по этой информации делать выводы.

> Повлияет ли отключение параметра robots.txt на загрузку, или нет?
Ну да, будут загружаться в том числе и те страницы, индексирование которых запрещено.

Автор: MENNENN
Дата сообщения: 04.03.2011 16:54

ASE_DAG
Появились сообщения об ошибке bogus state (incomplete type), Unknown (not HTTP/xx)

Код: Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?A=Search&AuthorSearch=yang&Exact=1 (from www.erowid.org/experiences/exp.php?ID=76990)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?New&S1=484 (from www.erowid.org/experiences/subs/exp_Cannabinoid_Receptor_Agonists.shtml)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp_pdf.php?ID=15164&format=latex (from www.erowid.org/experiences/exp.php?ID=15164)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/plants/nutmeg/ (from www.erowid.org/experiences/exp.php?ID=32591)

Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/includes/summary_herbs_db.css
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=117&page_url=/plants/coffee/coffee.shtml
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=31&page_url=/references/refs_view.php&Q&ID=6793&E&
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=2&page_url=/experiences/exp.php&Q&ID=28413&E&

Автор: ASE_DAG
Дата сообщения: 04.03.2011 22:16

MENNENN
> Unknown (not HTTP/xx)
Вы может быть удивитесь, но у меня сабж по этим ссылкам все прекрасно загружает.
$ httrack -g 'http://www.erowid.org/plants/nutmeg/'
HTTrack3.43-9+libhtsjava.so.2 launched on Fri, 04 Mar 2011 23:14:44 at http://www.erowid.org/plants/nutmeg/
(httrack -g http://www.erowid.org/plants/nutmeg/ )

Mirror launched on Fri, 04 Mar 2011 23:14:44 by HTTrack Website Copier/3.43-9+libhtsjava.so.2 [XR&CO'2010]
mirroring http://www.erowid.org/plants/nutmeg/ with the wizard help..
1/2: www.erowid.org/plants/nutmeg/ (14827 bytes) - OK
HTTrack Website Copier/3.43-9 mirror complete in 1 seconds : 1 links scanned, 1 files written (14827 bytes overall) [4585 bytes received at 4585 bytes/sec], 14827 bytes transfered using HTTP compression in 1 files, ratio 28%
(No errors, 0 warnings, 0 messages)
Done.

Так что в чем проблема, установить, увы, не могу.

> В общем не буду больше париться по этому поводу.
Разумно. ;)

Автор: gss77
Дата сообщения: 16.03.2011 08:01

Прошу подсказать - есть тема форума на 144 страницах с вложениями ... Как правильно настроить прогу для скачивания и автономного просмотра

Автор: John13friday
Дата сообщения: 16.03.2011 11:11

Цитата:

А в случае с этим skins.be напротив не вижу никакой проблемы — там разрешение указано прямо в имени файла.

Добавлено:
Если вам, к примеру все обои с сайта нужны (сколько же это вы скачивать то будете), то примерно так:
$ httrack -* +www.skins.be/page/* +wallpaper.skins.be/*1280x1024* +*1280x1024*.jpg
http://www.skins.be

ASE_DAG, спасибо за подсказку. Качает вроде то что надо
http://www.imagepost.ru/images/760/HTTrack.jpg
Только скорость низкая почему то, у меня входящая так то 5Мбит

Страницы: 1 2 3 4 5 6

Предыдущая тема: Спутниковый Интернет

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.

» HTTrack Website Copier