Рекурсивная загрузка веб-сайтов; оффлайн-браузеры — общая тема по вопросу; если вы еще не определились с выбором инструмента, то вам туда.
Функциональность отличная, а фейс покачал, но всеравно нравиться.
Пользуюсь почти год - очень нравиться, а что до фейса - то главное чтобы дело свое знала...
Цитата:
Функциональность отличная
Свою работу хорошо знает...
Попробывал - понравилось...
Любопытно, очень любопытно...
Неплохо
Очень даже неплохо...
Очень приятная в работе программа
Люди, подскажите, плиз, как скачать сабжем только файлы с маской
http://photofile.es/photo/ttanya25/3563337/*.jpg
Это full-size картинки из альбома http://photofile.es/users/ttanya25/3563337/ ,если задать в адресной строке броузера любой из них, скажем,
http://photofile.es/photo/ttanya25/3563337/77735387.jpg , то открывается. А скачать - не получается - пробовал разные настройки... Чего я не понимаю?
http://photofile.es/photo/ttanya25/3563337/*.jpg
Это full-size картинки из альбома http://photofile.es/users/ttanya25/3563337/ ,если задать в адресной строке броузера любой из них, скажем,
http://photofile.es/photo/ttanya25/3563337/77735387.jpg , то открывается. А скачать - не получается - пробовал разные настройки... Чего я не понимаю?
Очень даже...
Я очень хотел научится пользоваться но не получается
Мне надо
Скачать сайт :
1.ссылки брать только с этого сайта все внешние и прочие отмести
2.сложить все в одну папку и все
Можно примерчик настроек
Мне надо
Скачать сайт :
1.ссылки брать только с этого сайта все внешние и прочие отмести
2.сложить все в одну папку и все
Можно примерчик настроек
Пользуюсь в течении 3-х лет .
Программой доволен - особенно на слабых компьютерах.
Программой доволен - особенно на слабых компьютерах.
AndreyPA
Может, это уже поздновато, но…
Меня работа с ним тоже напрягала по-началу. Вот один совет:
При выборе адреса, откуда скачивать, есть такая кнопка Set options…,
нажимаешь, выбираешь вкладку Scan rules, на ней описаны регулярные выражения, по которым он будет выбирать ссылки на дальнейшее скачивание. Чтобы добавить новое правило, нажми Include link(s), выбери criterion:links on this domain string: сервер, с которого скачиваешь, например: ru-board.com.
Может, это уже поздновато, но…
Меня работа с ним тоже напрягала по-началу. Вот один совет:
При выборе адреса, откуда скачивать, есть такая кнопка Set options…,
нажимаешь, выбираешь вкладку Scan rules, на ней описаны регулярные выражения, по которым он будет выбирать ссылки на дальнейшее скачивание. Чтобы добавить новое правило, нажми Include link(s), выбери criterion:links on this domain string: сервер, с которого скачиваешь, например: ru-board.com.
Все чень хорошо и нужно ( жаль тема притихла), НО!... Использование то логина и пароля не работает!!! Так нужно форум скачать - все качает но там где нужно в вести логин и пароль - просто качает страницу ВВЕСТИ ЛОГИН И ПАРОЛЬ )) Юморно)))
Я тоже пытался скачать картинки для жены с запароленного раздела сайта http://www.dmc.com/majic/pageServer/100101000f/en/Free-charts.html, но из командной строки так у меня ничего и не получилось... Жаль, что в GUI не внесли эту функцию - так было бы понятнее, для не особо продвинутых...
Сохраняет имена файлов на кирилице корякулями (похоже как если открыть файл в utf8 редактором не понимающим эту кодировку), как побороть проблему?
понравилась программа, но вот что то не пойму, как ограничения скорости снять?
в настройках по дефолту стоит 25 кб/с, убираю,как будто этого ограничения быть больше не должно, а все равно больше чем 25 не дает скорости. Причем, на всех версиях, под вин, под линукс, с веб мордой - все везде одинаково - тянет 10 минут то что вгетом может за 10-20 секунд скачаться.
Есть ли вариант научить скорости?
в настройках по дефолту стоит 25 кб/с, убираю,как будто этого ограничения быть больше не должно, а все равно больше чем 25 не дает скорости. Причем, на всех версиях, под вин, под линукс, с веб мордой - все везде одинаково - тянет 10 минут то что вгетом может за 10-20 секунд скачаться.
Есть ли вариант научить скорости?
http://www.cmsimplewebsites.com/demos/clouds/
Вот по этой сссылке страницы обычные, а качать не хочет, как заставить?
Он делает ссылку в виде ссылки в интернет, а не качает страницу по ссылке локально.
А страницу, на которой эта ссылка, он скачал:
папка на пк/4/www.cmsimplewebsites.com/index7c5a.html?Templates_Section_2:Waterripple
Эта ссылка в интернете на этой странице:
http://www.cmsimplewebsites.com/?Templates:Clouds
"Click here for Demo of this template"
Как мне закачать сайт?
Вот по этой сссылке страницы обычные, а качать не хочет, как заставить?
Он делает ссылку в виде ссылки в интернет, а не качает страницу по ссылке локально.
А страницу, на которой эта ссылка, он скачал:
папка на пк/4/www.cmsimplewebsites.com/index7c5a.html?Templates_Section_2:Waterripple
Эта ссылка в интернете на этой странице:
http://www.cmsimplewebsites.com/?Templates:Clouds
"Click here for Demo of this template"
Как мне закачать сайт?
Реальная программа, жаль тему забросили.
MENNENN
Кто забросил? Куда забросил? У вас есть какие-то вопросы?
Кто забросил? Куда забросил? У вас есть какие-то вопросы?
ASE_DAG
Здравствуйте, рад вас снова видеть!
В теме давно не наблюдалась активность пользователей, посмел предположить что про нее запамятовали.
В программе практически разобрался. Насколько понял, одной из главных составляющих программы является Фильтр (Scan Rules), который при оптимальной настройке позволяет добиться правильного сохранения сайта. Однако существует небольшой нюанс, который заставил меня усомнится в правильности сохранения.
В настройках добавил в фильтр -* +www.erowid.org/*
никуда не переходить и качать только с одного сайта. Спустя некоторое время после скачки, в некоторых папках и под папках появляются дубликаты c нижним подчеркиванием, наподобие этой www.erowid.org_
в них тоже закачиваются файлы. На официальном форуме программы есть ответ по этому поводу http://forum.httrack.com/readmsg/19828/19826/index.html Автор: William Roeder утверждает, что это возможно из за неправильного парсинга js или отсутствия порта 8080 в URL, но не объясняет, как этого избежать.
Каким образом нужно задать параметр в Scan Rules, чтобы эти папки не создавались? Возможно дело в самих настройках программы?
И еще, когда в настройках программы в разделе Spider выбираю параметр follow robots.txt rules в логах появляется отчет об ошибке.
Info: Note: due to www.erowid.org remote robots.txt rules, links begining with these path will be forbidden: /cgi-bin/, /archive/hyperreal/, /archive/rhodium/chemistry/nitrostyrenes/, /experiences/exp_pdf.php, /wp-*, /references/texts/ (see in the options to disable this)
Повлияет ли отключение параметра robots.txt на загрузку, или нет?
Надеюсь на вашу помощь. Благодарю за внимание!
Здравствуйте, рад вас снова видеть!
В теме давно не наблюдалась активность пользователей, посмел предположить что про нее запамятовали.
В программе практически разобрался. Насколько понял, одной из главных составляющих программы является Фильтр (Scan Rules), который при оптимальной настройке позволяет добиться правильного сохранения сайта. Однако существует небольшой нюанс, который заставил меня усомнится в правильности сохранения.
В настройках добавил в фильтр -* +www.erowid.org/*
никуда не переходить и качать только с одного сайта. Спустя некоторое время после скачки, в некоторых папках и под папках появляются дубликаты c нижним подчеркиванием, наподобие этой www.erowid.org_
в них тоже закачиваются файлы. На официальном форуме программы есть ответ по этому поводу http://forum.httrack.com/readmsg/19828/19826/index.html Автор: William Roeder утверждает, что это возможно из за неправильного парсинга js или отсутствия порта 8080 в URL, но не объясняет, как этого избежать.
Каким образом нужно задать параметр в Scan Rules, чтобы эти папки не создавались? Возможно дело в самих настройках программы?
И еще, когда в настройках программы в разделе Spider выбираю параметр follow robots.txt rules в логах появляется отчет об ошибке.
Info: Note: due to www.erowid.org remote robots.txt rules, links begining with these path will be forbidden: /cgi-bin/, /archive/hyperreal/, /archive/rhodium/chemistry/nitrostyrenes/, /experiences/exp_pdf.php, /wp-*, /references/texts/ (see in the options to disable this)
Повлияет ли отключение параметра robots.txt на загрузку, или нет?
Надеюсь на вашу помощь. Благодарю за внимание!
MENNENN
> Здравствуйте, рад вас снова видеть!
Здравствуйте, взаимно.
> The only time I've seen a directory with a underscore
Ну а я не разу не встречал. Увы.
> -* +www.erowid.org/*
А вот это совершенно излишне.
$ httrack http://www.erowid.org/
и все.
Надо посмотреть в логе (hts_cache/new.txt, если закачка еще не закончена) с каких урлов было загружено содержимое этой директории www.erowid.org_ и по этой информации делать выводы.
> Повлияет ли отключение параметра robots.txt на загрузку, или нет?
Ну да, будут загружаться в том числе и те страницы, индексирование которых запрещено.
> Здравствуйте, рад вас снова видеть!
Здравствуйте, взаимно.
> The only time I've seen a directory with a underscore
Ну а я не разу не встречал. Увы.
> -* +www.erowid.org/*
А вот это совершенно излишне.
$ httrack http://www.erowid.org/
и все.
Надо посмотреть в логе (hts_cache/new.txt, если закачка еще не закончена) с каких урлов было загружено содержимое этой директории www.erowid.org_ и по этой информации делать выводы.
> Повлияет ли отключение параметра robots.txt на загрузку, или нет?
Ну да, будут загружаться в том числе и те страницы, индексирование которых запрещено.
ASE_DAG
Появились сообщения об ошибке bogus state (incomplete type), Unknown (not HTTP/xx)
Код: Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?A=Search&AuthorSearch=yang&Exact=1 (from www.erowid.org/experiences/exp.php?ID=76990)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?New&S1=484 (from www.erowid.org/experiences/subs/exp_Cannabinoid_Receptor_Agonists.shtml)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp_pdf.php?ID=15164&format=latex (from www.erowid.org/experiences/exp.php?ID=15164)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/plants/nutmeg/ (from www.erowid.org/experiences/exp.php?ID=32591)
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/includes/summary_herbs_db.css
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=117&page_url=/plants/coffee/coffee.shtml
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=31&page_url=/references/refs_view.php&Q&ID=6793&E&
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=2&page_url=/experiences/exp.php&Q&ID=28413&E&
Появились сообщения об ошибке bogus state (incomplete type), Unknown (not HTTP/xx)
Код: Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?A=Search&AuthorSearch=yang&Exact=1 (from www.erowid.org/experiences/exp.php?ID=76990)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp.cgi?New&S1=484 (from www.erowid.org/experiences/subs/exp_Cannabinoid_Receptor_Agonists.shtml)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/experiences/exp_pdf.php?ID=15164&format=latex (from www.erowid.org/experiences/exp.php?ID=15164)
Error: "Unknown (not HTTP/xx) response structure" (-1) at link www.erowid.org/plants/nutmeg/ (from www.erowid.org/experiences/exp.php?ID=32591)
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/includes/summary_herbs_db.css
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=117&page_url=/plants/coffee/coffee.shtml
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=31&page_url=/references/refs_view.php&Q&ID=6793&E&
Warning: file not stored in cache due to bogus state (incomplete type): www.erowid.org/cgi-bin/messages/message_view_record.php?message_id=2&page_url=/experiences/exp.php&Q&ID=28413&E&
MENNENN
> Unknown (not HTTP/xx)
Вы может быть удивитесь, но у меня сабж по этим ссылкам все прекрасно загружает.
$ httrack -g 'http://www.erowid.org/plants/nutmeg/'
HTTrack3.43-9+libhtsjava.so.2 launched on Fri, 04 Mar 2011 23:14:44 at http://www.erowid.org/plants/nutmeg/
(httrack -g http://www.erowid.org/plants/nutmeg/ )
Mirror launched on Fri, 04 Mar 2011 23:14:44 by HTTrack Website Copier/3.43-9+libhtsjava.so.2 [XR&CO'2010]
mirroring http://www.erowid.org/plants/nutmeg/ with the wizard help..
1/2: www.erowid.org/plants/nutmeg/ (14827 bytes) - OK
HTTrack Website Copier/3.43-9 mirror complete in 1 seconds : 1 links scanned, 1 files written (14827 bytes overall) [4585 bytes received at 4585 bytes/sec], 14827 bytes transfered using HTTP compression in 1 files, ratio 28%
(No errors, 0 warnings, 0 messages)
Done.
Так что в чем проблема, установить, увы, не могу.
> В общем не буду больше париться по этому поводу.
Разумно. ;)
> Unknown (not HTTP/xx)
Вы может быть удивитесь, но у меня сабж по этим ссылкам все прекрасно загружает.
$ httrack -g 'http://www.erowid.org/plants/nutmeg/'
HTTrack3.43-9+libhtsjava.so.2 launched on Fri, 04 Mar 2011 23:14:44 at http://www.erowid.org/plants/nutmeg/
(httrack -g http://www.erowid.org/plants/nutmeg/ )
Mirror launched on Fri, 04 Mar 2011 23:14:44 by HTTrack Website Copier/3.43-9+libhtsjava.so.2 [XR&CO'2010]
mirroring http://www.erowid.org/plants/nutmeg/ with the wizard help..
1/2: www.erowid.org/plants/nutmeg/ (14827 bytes) - OK
HTTrack Website Copier/3.43-9 mirror complete in 1 seconds : 1 links scanned, 1 files written (14827 bytes overall) [4585 bytes received at 4585 bytes/sec], 14827 bytes transfered using HTTP compression in 1 files, ratio 28%
(No errors, 0 warnings, 0 messages)
Done.
Так что в чем проблема, установить, увы, не могу.
> В общем не буду больше париться по этому поводу.
Разумно. ;)
Прошу подсказать - есть тема форума на 144 страницах с вложениями ... Как правильно настроить прогу для скачивания и автономного просмотра
Цитата:
А в случае с этим skins.be напротив не вижу никакой проблемы — там разрешение указано прямо в имени файла.
Добавлено:
Если вам, к примеру все обои с сайта нужны (сколько же это вы скачивать то будете), то примерно так:
$ httrack -* +www.skins.be/page/* +wallpaper.skins.be/*1280x1024* +*1280x1024*.jpg
http://www.skins.be
ASE_DAG, спасибо за подсказку. Качает вроде то что надо
http://www.imagepost.ru/images/760/HTTrack.jpg
Только скорость низкая почему то, у меня входящая так то 5Мбит
Предыдущая тема: Спутниковый Интернет
Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.