Ru-Board.club
← Вернуться в раздел «Программы»

» HTTrack Website Copier

Автор: ASE_DAG
Дата сообщения: 16.03.2011 20:48
John13friday
> спасибо за подсказку
Всегда пожалуйста. ;)

> скорость низкая
Какая именно скорость, и насколько она низкая? (Какая величина и какое у нее значение?)

gss77
> есть тема
Где?
Автор: John13friday
Дата сообщения: 16.03.2011 21:14

Цитата:
> скорость низкая
Какая именно скорость, и насколько она низкая? (Какая величина и какое у нее значение?)

На скриншоте скорость указана
Автор: ASE_DAG
Дата сообщения: 16.03.2011 22:25
John13friday
Это суммарный загруженный объем на прошедшее время со старта. Да нет, не очень низкое значение.
Автор: gss77
Дата сообщения: 17.03.2011 01:27
тема форума http://www.radiokot.ru/forum/viewtopic.php?t=2016 на 144страницах
Автор: ASE_DAG
Дата сообщения: 17.03.2011 19:11
gss77

$ httrack -* "+www.radiokot.ru/forum/viewtopic.php?f=25&t=2016*" 'http://www.radiokot.ru/forum/viewtopic.php?f=25&t=2016&start=0'

Не?
Автор: gss77
Дата сообщения: 18.03.2011 03:58
спасибо попробую (сейчас вне компьютера) потом отпишу
Автор: shveicar
Дата сообщения: 03.04.2011 23:33
Здравствуйте. у меня вопрос пытаюсь выкачать шаблоны с (web-mastery.info) перепробовал разные варианты выкачивает все кроме них при нажатии на скачать браузер рвется в онлайн Я только начал осваиваться с этой программой помогите если не сложно.
Автор: shveicar
Дата сообщения: 04.04.2011 21:39
Сам себе и отвечаю - помогла связка offline exlorer и handey HTTrack почему-то не справился (видимо каждому инструменту свое назначение).
Автор: Uzuhiko
Дата сообщения: 17.04.2011 07:08
Всем здравости.

Вот хочу высосать один сайтец, но выскакивает ошибка о каком-то зеркале... Вот скрин:



Сайт живой, работает нормально.
Автор: ASE_DAG
Дата сообщения: 17.04.2011 18:45
Uzuhiko
А если без гуя (я с ним просто не знаком, мне эта ошибка ни о чем не говорит)?
Автор: shveicar
Дата сообщения: 03.05.2011 00:26
Здравствуйте уважаемый ASE_DAG - У меня такой вопрос- Существует сайт где есть авторизованный вход(имя пользователя и пароль) соответственно информация для не авторизованного пользователя при скачивании сайта весьма скудна. Долго изучал настройки
HTTrack Website Copier но так и не нашел возможности настройки имя пользователя и пароля (кроме работы через прокси сервер). для авторизованной (так сказать закачке) - вопрос- возможна ли такая функция в принципе или поможет только offline explorer. я бы конечно пользовался им, но в данном случае сайт сильно заскриптован - и качает он очень медленно. Заранее благодарен за ответ.
Автор: ASE_DAG
Дата сообщения: 03.05.2011 00:33
shveicar
> ASE_DAG
А что вы лично ко мне обращаетесь? :) Здесь вроде бы форум.

Да, кочечно, можно. Для этого достаточно кинуть в текущую директорию (откуда запускаете httrack) файл cookies.txt с нужными куками в т.н. нетскейповском формате, сабж сам его подхватит.
Проще всего этот файл получить при помощи расширения Export Cookies.
Автор: shveicar
Дата сообщения: 03.05.2011 02:08
Большое спасибо! ASE_DAG
P.s: Обратился к вам, потому что вы чаще других следите за темой, и как я понимаю вы в вопросе HTTrack эксперт.
Автор: alexeyvsad
Дата сообщения: 03.05.2011 14:12
Люди, доброго вам времени суток! А под линуксом, точнее под Mandriva 2010 free эта прога почему может не запускацца? Установил из rpm-ки, всё без ошибок, кликаю по ярлыку выезжает Firefox с мессагой "Попытка соединения не удалась.
Firefox не может установить соединение с сервером localhost:8080." - Чё делать?

Добавлено:
И вообще, как она себя ведёт на больших сайтах? Я тут www.lyricsmania.com хотел ободрать, так TeleportPro честно сказал, что достиг предела своих возможностей на цыфре 65535 и всё, шабаш. А сабж не говорит ничего, но половина страниц отсутствует, причём на сайте они есть и открываются нормально. Это всё под Виндой я экспериментировал, теперь с горя на Линух хотел присесть, но и тут косяк...
Автор: shveicar
Дата сообщения: 03.05.2011 17:19
alexeyvsad - Здравствуйте
Вообще -телепорт-прога весьма слабая (хотя если нужны только картинки, то может и сгодиться) Нормальный сайт ей не взять- это лично мое мнение. Для создания нормальной копии сайта лучше использовать HTTrack Website Copier. хотя в некоторых случаях можно использовать offline explorer в связке с handy cache (для правильной работы скриптов). Все зависит от типа и защищенности сайта.
Автор: ASE_DAG
Дата сообщения: 04.05.2011 11:30
alexeyvsad
Во-первых, сабж прекрасно работает под Виндой.
Во-вторых, не уловил, о каком еще «ярлыке» идет речь.
Отдаете команду:
$ httrack [ключи] [фильтры] [URL]
, например:
$ httrack -* "+www.radiokot.ru/forum/viewtopic.php?f=25&t=2016*" 'http://www.radiokot.ru/forum/viewtopic.php?f=25&t=2016&start=0'
(с прошлой страницы), и поехало.

> но половина страниц отсутствует
А конкретно?

P.S. Вы, я надеюсь, не специально ради этого этого Мандриву поставили? :)
Автор: shveicar
Дата сообщения: 05.05.2011 23:40
Здравствуйте! у меня такой вопрос - недавно исследуя похожие темы (Сравниваем OfflineExplorer, TeleportPro, Webzip) набрел на интересную вопрос. Один пользователь не мог скачать сайт(сайт действительно оказался не прост) а именно fxyz.ru Но немного поразмыслив и подправив настройки мне удалось его сделать. Но вот загвоздка, не работают скрипты по вычислению формул(площади фигуры и другие) - работает только калькулятор- вообщем не буду многословен кому интересно может посмотреть (narod.ru/disk/12036814001/%20WEB2.rar.html) Так вот, хотелось бы знать можно что либо сделать чтобы скрипты работали (или проблема в плохой настройки при закачке Website Copier ) Я пока в скриптах не силен, но может кто разбирается? Если корректировка возможна получился бы не плохой справочник!
Автор: shveicar
Дата сообщения: 20.07.2011 23:18
Доброго времени всем. Скачал на днях последнюю (httrack3.44.1) версию и обнаружил что при настройке проекта, команда (httrack -*) не нужна во всяком случае на эту команду сервер присылает ответ "502 Bad Gateway (HC)" а без нее все в порядке, Как, интересно это можно объяснить? И еще, почему некоторые сайты с зоной (members) скачивать вообще не получается - это несмотря на экспорт cookies, например sexyjaqui.com/members/, а некоторые идут нормально например torylane.net/members/ и др. Такое ощущение что у них стоит какая-то защита на распознавание, пробовал менять идентификацию, но что-то не помогает. Но, это уже вопросы к экспертам.
P.S Надеюсь тема еще не забыта.
Автор: ASE_DAG
Дата сообщения: 08.09.2011 01:59
В связи с удовлетворением просьбы о закреплении первых постов отдельных тем со стороны нашей администрации (спасибо Димону) почал новую шапку. Дополнения и замечания приветствуются.

#: старый первый пост
Автор: shveicar
Дата сообщения: 28.09.2011 23:22
Так все-же если вариант с cookies.txt не помогает если другие способы имитировать идентификацию браузера,(кроме, конечно- прямой авторизации через@адрес.сайта)-на некоторых сайтах как я понимаю идет проверка пользователя через сервис safebrowsing-cache.google.com или др. При этом в кэш грузится шифрованный (во всяком случае прочесть стандартными средствами у меня не получилось - в блокноте - выглядит как набор символов..) файл и периодически он обновляется. Смена идентификации в опции -(идентифицировать как) не помогает... Или ни у кого подобных проблем нет?
Автор: ASE_DAG
Дата сообщения: 28.09.2011 23:44
shveicar
Пример проблемного сайта (с открытой регистрацией желательно, чтоб я проверить мог) можно?

> идентификации в опции -(идентифицировать как)
Юзер-агент что-ли?
Автор: shveicar
Дата сообщения: 29.09.2011 01:42
Спасибо: ASE_DAG

Цитата:
идентификации в опции -(идентифицировать как)
Юзер-агент что-ли?
Ну да, альтернатива cookies (пример-http://wkochev:william@lorilust.com/members/index.html) Ну а проблемные варианты - пример (
http://sexycherrypie.com/members/members01.html) Заранее извиняюсь за контент, - пароль в личке, В общем логика проста, если members стоит перед именем сайта то как правило все "ок", а вот если как в последнем примере (после адреса) то здесь облом... Закачка через прокси кэш (например - Handy) при такой авторизации все равно не помогает.. Хотя тот-же scrapbook (firefox) и например offline explorer - справляется без проблем. Но тут вопрос именно технический...
Автор: ASE_DAG
Дата сообщения: 29.09.2011 02:15
shveicar
>> Юзер-агент что-ли?
> Ну да.
Да нет, судя по всему. :-)

> http://wkochev:william@lorilust.com
А! HTTP-авторизация (Basic access authentication) вам нужна.

> альтернатива cookies
Скорее наоборот: это авторизация через куки была освоена как альтернатива обычной.

> Заранее извиняюсь за контент
Да ничего страшного. ;-)

> В общем логика проста, если members стоит перед именем сайта то как правило все "ок", а вот если как в последнем примере (после адреса) то здесь облом.
Не понял до конца чего вы хотели сказать, но вы однозначно чего-то напутали.

В общем так. Сабж вполне понимает логин-пароль в URI. В мане это действительно не упомянуто, видимо считается за само-собой разумеющуюся вещь.
$ httrack [ опции ] http://moew94:furg18@sexycherrypie.com/members/members01.html
Автор: shveicar
Дата сообщения: 29.09.2011 02:56
Прошу прощения ASE_DAG - Я видимо привел неудачный пример, Ну, что-ж усложняем задачу (адресс - http://peeasian.com/members_area/news.php) Как на счет этого варианта? (кстати там весьма хитрый скрипт на сервере, который отслеживает действия браузера, и чуть что сшибает авторизацию (например при частой смене языков, или нелогичной загрузки содержимого)...
Автор: shveicar
Дата сообщения: 29.09.2011 13:24
И еще у меня есть один вопрос- в HTTrack Website Copier есть опция - загрузить отдельные файлы, при этом все файлы грузятся в одну директорию.(даже если в настройках стоит загружать с охранением структуры сайта) как сделать так, чтобы файлы сохранялись в свои директории,- как на сервере? Конечно можно качать через прокси кэш, но это не всегда удобно.. Спасибо.
Автор: ASE_DAG
Дата сообщения: 30.09.2011 01:00
shveicar
> есть опция - загрузить отдельные файлы
Это которая -g (--get-files)?

> при этом все файлы грузятся в одну директорию
Да, таково дефолтное поведение для этой опции.

> даже если в настройках стоит загружать с охранением структуры сайта
Нет, это поведение вполне можно изменить.
$ httrack -g -N0 http://mirror.yandex.ru/debian/pool/main/
загрузит один файл index.html в ./mirror.yandex.ru/debian/pool/main, а не в . (текущую директорию) как без ключа -N0.

> усложняем задачу (адресс - http://peeasian.com/members_area/news.php) Как на счет этого варианта?
Сейчас попробую.
Автор: shveicar
Дата сообщения: 30.09.2011 01:20
ASE_DAG

Цитата:
Нет, это поведение вполне можно изменить.
Спасибо - Дельный совет (команды как и с wget ) как Я понимаю, Вы работаете с Linux? Есть ли разница в функционале (режимы возможностей загрузки) по сравнению с win xp или версии HTTrack Website Copier для обеих систем равнозначны? Еще раз благодарю за помощь.
Автор: ASE_DAG
Дата сообщения: 30.09.2011 02:43
shveicar
> Спасибо - Дельный совет
Всегда пожалуйста. ;-) Т.е. с этим вопросом разобрались?

> команды как и с wget
Не понял, честно говоря.

> Вы работаете с Linux?
Ну да, с Дебианом, а какое это имеет значение? Или вы про Баш и компанию?

> Есть ли разница в функционале по сравнению с win xp
Нет, конечно. Какая тут может быть платформозависимость — все кроссплатформенно, собирается из идентичных исходников. А если вы спрашиваете отстает ли в функционале гуевый (графический) фронтенд (WinHTTrack, или как его там) от самой программы, то не знаю, не знаком с этим гуем, но вполне может быть, что отстает.



> Сейчас попробую.
Мда... Действительно, ресурс противодействует качальщикам вовсю. Два раза подряд обновил страницу — все, авторизация сброшена, куки невалидны; и т. п. Ну, ничего, как говориться, на каждую хитрую дырку... Вам же оттуда видеозаписи нужны, правильно? Тогда имеет смысл сменить инструмент, а именно попытаться автоматировать поведение Файрфокса — это позволит при необходимости вмешиваться в процесс, чего сабж делать не позволяет.
В принципе, если озадачиться, то можно набросать юзер-скрипт с нуля, но лучше не велосипедировать, а пойти погуглить на предмет полуфабриката.
Автор: shveicar
Дата сообщения: 30.09.2011 11:34
Добрый день ASE_DAG
Цитата:
> команды как и с wget
Не понял, честно говоря.
Имел ввиду что (-g -N0 ) похожи на команды wget (-x -r -w3)
Цитата:
> Вы работаете с Linux?
Ну да, с Дебианом, а какое это имеет значение? Или вы про Баш и компанию?
Просто собираюсь поставить на Vmware -Linux для пробы, поэтому и интересуюсь возможностями.
Цитата:
Тогда имеет смысл сменить инструмент, а именно попытаться автоматировать поведение Файрфокса
- интересно, а как его можно автоматизировать?(кроме использования scrapbook+ конечно)

Цитата:
В принципе, если озадачиться, то можно набросать юзер-скрипт с нуля,
-А Что за скрипт? Дело в том что сайт, как говорится, у меня "в кармане" Пришлось разбить закачку на несколько этапов. Для начала поработал offline explorer и закачал только html с (не изменёнными) адресами далее, в дело пошел textpipe (извлечение мультимедийных ссылок и графики), а затем scrapbook + HandyCache (опция -загрузка отдельных файлов,)- на такой ход скрипты защиты не реагируют и при висячей странице можно качать сколько угодно. Просто интересно, какой еще вариант можно было использовать?
Но с этим сайтом ситуация более- менее ясна, в вот этот (http://members.euro-pornstars.com/index.php) - настоящая проблема, файлы видео и zip можно качать всего лишь отдельными файлами, иначе авторизация слетает, и по несколько штук в очереди - интересно как можно автоматизировать процесс чтобы закачивать хотя-бы штук по 50 за один раз? (кстати, про него я говорил когда упоминал службу safebrowsing-cache.google.com -эти файлы видны особенно хорошо когда работаешь через Handy Cache)Спасибо.
Да вот еще проблема, - загружал через HTTrack Website Copier файлы из текстового списка, так он на следующий день выдал - "достигнут предел в 100.000 файлов" и оборвал закачку, - а где установлено это ограничение (я где-то видел, что поддерживается до 1 миллиона ссылок) и как его убрать?





Автор: Gideon Vi
Дата сообщения: 13.10.2011 09:30
сабж не умеет выкачивать ролики с ютуба, размещенные на странице другого сайта?

Страницы: 123456

Предыдущая тема: Спутниковый Интернет


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.