» HTTrack Website Copier

Автор: ONEVZOR1
Дата сообщения: 01.09.2013 21:33

HTTrack Website Copier 3.47.25

Цитата:

+ New: support for IDNA / RFC 3492 (punycode) handling
+ New: openssl is no longer dynamically probed at stratup, but dynamically linked
+ Fixed: random closing of files/sockets, leading to “zip_zipWriteInFileInZip_failed” assertion, “bogus state” messages, or random garbage in downloaded files
+ Fixed: libssl.dylib is now in the search list for libssl on OSX (Nils Breunese)
+ Fixed: bogus charset because the meta http-equiv tag is placed too far in the html page
+ Fixed: incorrect \\machine\dir structure build on Windows (TomZ)
+ Fixed: do not force a file to have an extension unless it has a known type (such as html), or a possibly known type (if delayed checks are disabled)
+ Fixed: HTML 5 addition regarding “poster” attribute for the “video” tag (Jason Ronallo)
+ Fixed: memory leaks in proxytrack.c (Eric Searcy)
+ Fixed: correctly set the Z flag in hts-cache/new.txt file (Peter)
+ Fixed: parallel patch, typo regarding ICONV_LIBS (Sebastian Pipping)
+ Fixed: memory leak in hashtable, that may lead to excessive memory consumption
+ Fixed: on Windows, fixed possible DLL local injection (CVE-2010-5252)
+ Fixed: UTF-8 conversion bug on Linux that may lead to buggy filenames
+ Fixed: zero-length files not being properly handled (not saved on disk, not updated) (lugusto)
+ Fixed: serious bug that may lead to download several times the same file, and “Unexpected 412/416 error” errors
+ Fixed: images in CSS were sometimes not correctly detected (Martin)
+ Fixed: links within javascript events were sometimes not correctly detected (wquatan)
+ Fixed: webhttrack caused bus error on certain systems, such as Mac OSX, due to the stack size (Patrick Gundlach)
+ Fixed: bogus charset for requests when filenames have non-ascii characters (Steven Hsiao)
+ Fixed: bogus charset on disk when filenames have non-ascii characters (Steven Hsiao)
+ Fixed: 260-characters path limit for Windows (lugusto)
+ Fixed: non-ascii characters encoding issue inside query string (lugusto)
+ Fixed: HTML entities not properly decoded inside URI and query string
+ Fixed: URL-encoding issue within URI
+ Fixed: –timeout alias did not work
+ Fixed: more windows-specific fixes regarding 260-character path limit
+ Fixed: escaping issue in top index
+ Fixed: Linux build cleanup (gentoo patches merge, lintian fixes et al.)
+ Fixed: Fixed div-by-zero when specifying more than 1000 connections per seconds (probably not very common)
+ Fixed: Mishandling of ‘+’ in URLs introduced in 3.47-15 (sarclaudio)
+ Fixed: “Wildcard domains in cookies do not match” (alexei dot co at gmail dot com )
+ Fixed: buggy referer while parsing: the referer of all links in the page is the current page being parsed, NOT the parent page. (alexei dot com at gmail dot com)
+ Fixed: Russian translation fixes by Oleg Komarov (komoleg at mail dot ru)
+ New: Added .torrent => application/x-bittorrent built-in MIME type (alexei dot co at gmail dot com)
+ Fixed: unable to download an URL whose filename embeds special characters such as # (lugusto)
+ New: Croatian translation by Dominko Aždajić (domazd at mail dot ru)
+ Fixed: url-escaping regression introduced in the previous subrelease

Автор: Viveda
Дата сообщения: 18.09.2013 16:17

Добрый день всем.
Может кто сталкивался со следующей проблемой - при закачке сайта после определенного времени начинает отображаться такая страница:
"Приносим свои извинения...
... но Ваш компьютер отправляет запросы слишком часто. В целях защиты наших посетителей мы не можем обработать Ваш запрос немедленно.
Для продолжения работы, пожалуйста, введите символы, показанные на картинке:"
И стоит капча.

Попробовал с такими ключами:

Код:
viveda@SR528:~/websites$ httrack http://www.autoprospect.ru/volkswagen/golf2-jetta/ -W -O "~/websites/auto/golf" -%v2 -c1 -%c1

Автор: ASE_DAG
Дата сообщения: 19.09.2013 03:22

Viveda
А при чем здесь -GN? Там же не по об’ему ограничение, а по количеству соединений. Понижайте -%cN. Я взял 0.1 — вот уже двадцать минут загружает и пока не отшили. Но это, пожалуй, с большим запасом.

Автор: Viveda
Дата сообщения: 19.09.2013 09:04

ASE_DAG

Спасибо за подсказку, что-то я стормозил сильно - не догадался про %cN < 1

Попробовал 0.3 (раз в 3 сек. получается) - отшивают.
Сейчас на 0.1 - вроде полет нормальный, докачаю, проверю - отпишусь.

UPD.
0.1 тоже много, пришлось качать на 0,05 - все скачалось удачно.

Автор: JekaKot
Дата сообщения: 16.11.2013 08:05

Делаю зеркало сайта при помощи WinHTTrack последней версии.
Проблема в том, что сохраняет страницы в формате html, хотя сами страницы в "онлайн"-версии имеют формат htm. Соответственно, после создания зеркала переходы не работают:

Не подскажите, где что нужно подкрутить в настройках?

Автор: darnMagus
Дата сообщения: 08.11.2014 16:53

Добрый день!
Не подскажете, хочу сделать оффлайн версию сайта, но постоянно натыкаюсь на капчу ил на подтвержение, что я хочу зайти на сайт с данным логином паролем. Как это можно обойти?

Автор: AnTul
Дата сообщения: 17.12.2014 17:53

Подскажите, пожалуйста, как настроить, чтобы скачать только видео http://www.pravoslavie.ru/video/ за последние два года. Что-то у меня либо за несколько секунд заканчивает работать (понятно, что ничего не скачивает), либо, если внешние ссылки подцепляю, то долго начинает мусолить и скачивает всякий мусор, хотя в фильтрах я указал только видео. В общем, совсем запутался в этой программе. Впервые её запустил, раньше другой пользовался.

Автор: Victor_VG
Дата сообщения: 28.01.2015 22:48

JekaKot

Я бы mv -fR *.html *.htm использовал. Он же есть и в MinGW сборке не требующей POSIX поддержки.

Автор: ASE_DAG
Дата сообщения: 29.01.2015 02:38

AnTul, все видео же на Ютьюбе, нет? Тогда все просто: httrack не нужен, используйте youtube-dl.

Автор: AnTul
Дата сообщения: 29.01.2015 16:24

ASE_DAG
- да, спасибо, мне это уже объяснили. Но вот подскажите, как скачать видеофайлы с http://www.andreytkachev.com/ начиная с этого года? И как потом обновлять - если появились свежие, то закачивать только их? Я не нашёл в программе фильтр по дате создания.

Автор: Jean
Дата сообщения: 17.02.2015 18:40

Всем привет.
Не получается скачать сайт https://htmlacademy.ru
Кто спец по этой программке, можно ли скачать данный сайт?
В файле ошибок пишет:
HTTrack3.48-19+htsswf+htsjava launched on Tue, 17 Feb 2015 18:35:43 at http://evkrem%40ukr.net:f24e1@htmlacademy.ru +*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
(winhttrack -qwr3C2%Pxs2u1%s%uN2%I0p3DaK0H0%kf2o0A100000%c10%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -%l "ru, en, *" http://evkrem%40ukr%2enet:f24e1@htmlacademy.ru -O1 "D:\htmlacademy\htmlacademy_" +*.png +*.gif +*.jpg +*.jpeg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
18:35:43 Warning: * security warning: maximum number of connections per second limited to 5.000000 to avoid server overload
18:35:43 Warning: Moved Permanently for evkrem%40ukr.net:pasword@htmlacademy.ru/robots.txt
18:35:43 Warning: Redirected link is identical because of 'URL Hack' option: evkrem%40ukr.net:f24e1@htmlacademy.ru/robots.txt and https://htmlacademy.ru/robots.txt
18:35:43 Warning: Warning moved treated for evkrem%40ukr.net:f24e1@htmlacademy.ru/robots.txt (real one is https://htmlacademy.ru/robots.txt)
18:35:44 Warning: Moved Permanently for evkrem%40ukr.net:f24e1@htmlacademy.ru/
18:35:44 Warning: Redirected link is identical because of 'URL Hack' option: evkrem%40ukr.net:f24e1@htmlacademy.ru/ and https://htmlacademy.ru/
18:35:44 Warning: File has moved from evkrem%40ukr.net:f24e1@htmlacademy.ru/ to https://htmlacademy.ru/
18:35:44 Warning: No data seems to have been transferred during this session! : restoring previous one!

Автор: 3t
Дата сообщения: 09.04.2015 20:57

Download HTTrack Website Copier 3.48-21... Windows 2000/XP/Vista/Seven/8 installer version... httrack-3.48.21.exe 3.99 MiB (4182560 B) (16/Mar/2015) WinHTTrack (also included: command line version)
http://www.httrack.com/page/2/en/index.html

Автор: namlung
Дата сообщения: 17.04.2015 09:16

Всем привет !
Прблема следующая . Имеется сайт http://forum.santafe-autoclub.ru/ т.е форум .
Каждый день по полдня лежит и работает нестабильно , так как переполнен, а расширить место у админов сайта денег нет . я боюсь что скоро он вообще ляжет с концами .
Чем бы утянуть форум целиком , размер порядка 20 гигабайт .
так как это форум то вложения очень глубокие есть картинки .
Поможет ли данная прога мне в этом деле ? или нужно искать что то особенное ?
В английском полный ноль . поэтому читать мануал на английском будет трудно . не могли бы сказать показать основные моменты что б настроил и пошло поехало .
На сайте много нужного и ценного материала .
заранее спасибо

Автор: AnTul
Дата сообщения: 16.05.2015 21:30

Не нашёл в программе фильтр по времени. Чтобы скачать такие-то файлы с такой-то по такую-то дату. Неужели и в самом деле нет?

Автор: shveicar
Дата сообщения: 04.10.2015 12:33

Всем привет.
Кто нибудь знает, можно ли использовать данную программу для сбора url с определенного адреса (без скачивания самих файлов страниц)? просто все ссылки в файл txt.
В справке сказано, что есть команда

Код: http://site.com/ -O /tmp -Y

Автор: ASE_DAG
Дата сообщения: 04.10.2015 12:49

shveicar> для сбора url с определенного адреса (без скачивания самих файлов страниц)?

А как вы себе это вообще представляете? Откуда УРИ-то будут собираться, если не со страниц?

Добавлено:
А если вы имели в виду «не записывая на накопитель», то наверняка можно, но мне проще подсказать вам, как это сделать wget’ом и немного gawk’ом:

$ wget 2>&1 --mirror --spider --no-verbose "$URL" | gawk '/URL:/{ sub(/URL:/, "", $3); print $3 }'

Автор: shveicar
Дата сообщения: 05.10.2015 00:33

Цитата:

Добавлено:
А если вы имели в виду «не записывая на накопитель», то наверняка можно, но мне проще подсказать вам, как это сделать wget’ом и немного gawk’ом:

$ wget 2>&1 --mirror --spider --no-verbose "$URL" | gawk '/URL:/{ sub(/URL:/, "", $3); print $3 }'

Спасибо, это помогло.

Автор: shveicar
Дата сообщения: 30.10.2015 14:19

Кто нибудь знает, как можно добавить нумерацию к имени файла при скачивании файлов из файла списка?
В справке есть варианты с добавлением к имени md5 например

Код: "%М-%n%k.%t"

Автор: ASE_DAG
Дата сообщения: 30.10.2015 22:21

shveicar> но иногда это сильно удлиняет имя

Что значит «иногда»? У MD5-суммы фиксированная длина — 32 символа.

> вариант с "%q-%n%k.%t" работает далеко не всегда, иногда к имени добавляется просто -

Это баг, рапортуйте. (Разумеется, убедившись, что он еще не озвучен или даже не исправлен.)

> как можно избавится от создаваемого, каждый раз файла name.html.readme?

Удалить его. Мне сложно понимать комментированный на французском текст на Си, но, кажется, он создается безусловно.

Автор: shveicar
Дата сообщения: 31.10.2015 06:15

ASE_DAG

Цитата:

Что значит «иногда»? У MD5-суммы фиксированная длина — 32 символа.

Я говорил о варианте аналогичному %q small query string MD5 (16 bits, 4 ascii bytes)
но видимо это не предусмотрено.

Цитата:

Удалить его. Мне сложно понимать комментированный на французском текст на Си, но, кажется, он создается безусловно.

Это плохо, - когда по 80 тысяч файлов качается, это вызывает распухание папки.. Считай что вместо 80 выходит 160.. У меня скрипт настроен, что после загрузки из одного списка происходит удаление этого мусора, но может стоит попробовать удалять name.html.readme после загрузки каждого файла из списка..
Вроде есть параметр

Код: - V execute system command after each files

Автор: ASE_DAG
Дата сообщения: 31.10.2015 06:51

shveicar> Я говорил о варианте аналогичному %q small query string MD5 (16 bits, 4 ascii bytes)
но видимо это не предусмотрено.

Не понял.

> Это плохо

Сообщите об этом автору.

> после загрузки из одного списка происходит удаление этого мусора, но может стоит попробовать удалять name.html.readme после загрузки каждого файла из списка.

Это очевидно менее эффективно.

Автор: boobonick
Дата сообщения: 07.12.2015 20:31

Кто-нибудь знает как сделать чтобы в get/post запросе не добавлялось $Version=1; и $Path=/; Само добавляется, хотя приходит ответ с get/post данными без них

Автор: Asilus
Дата сообщения: 07.12.2015 23:08

ASE_DAG
А вы не могли бы привести свой вариант настроек для скачивания из топика с некого "усреднённого сайта" (ну скажем ixbt? ru-board))? Фильтры разобрать, скажем качать из топика только архивы или изображения в одну папку. Сколько не настраивал ничего удобоваримого не выходит ни на одном сайте.

Я знаю вы через комстроку пользуетесь, ну хотя бы так попробую.

Автор: LonerDergunov
Дата сообщения: 05.02.2016 17:58

64-х битная версия имеет какие-то преимущества (в скорости, стабильности...) или как часто бывает "для понтов" сделана?

Автор: ASE_DAG
Дата сообщения: 06.02.2016 15:46

LonerDergunov> 64-битная версия имеет какие-то преимущества

Это не версия, это сборка для определенной процессорной архитектуры.

> или как часто бывает "для понтов" сделана?

Шта?

Автор: LonerDergunov
Дата сообщения: 06.02.2016 16:13

Цитата:

это сборка для определенной процессорной архитектуры.

ОК. Если кратная формулировка оказалась недоступной пониманию, тогда рассусолю.
Будет ли какой заметный положительный эффект при использовании "сборки HTTrack Website Copier для 64-х битной процессорной архитектуры" под 64-разрядными системами Windоws Vista / Windоws 7 / Windоws 8 / Windоws 10 на компьютерах с современными процессорами (к примеру, процессорами Intel Core i7)? Если будет положительный эффект, то в чём он будет выражаться? (учитывая, что скорость скачивания веб-сайтов в первую очередь зависит не от архитектуры процессоров, а от ширины интернет-соединения и скорости записи данных на жёские диски).

Цитата:

Шта?

А вот та.
Помните рекомендацию от Microsoft?
"Так как все больше персональных компьютеров работают под управлением 64-разрядных операционных систем Windows, пользователей искушает возможность установки 64-разрядной версии Offiсe 2013...
32-разрядная версия Offiсe 2013 рекомендуется для большинства пользователей."
(кроме обработки огромных таблиц, баз данных...)

Эта рекомендация касается и большинства программ. Зачастую сейчас модно собирать две версии всего и вся - х32 и х64. В большинстве случаев это делается просто так, потому что все так делают, и не имеет под собой никакого практического обоснования. На 64-разрядных операционных системах скорость и качество работы обоих версий (х32 и х64) совершенно одинакова.

Автор: ASE_DAG
Дата сообщения: 06.02.2016 18:02

LonerDergunov> не имеет под собой никакого практического обоснования

Какое нужно «практическое обоснование», чтобы сделать нативную сборку? Вам не кажется, что это для того, чтоб использовать сборку для deprecated архитектуры, поддерживаемой только в порядке обратной совместимости, нужно найти какую причину, а не наоборот?

> Помните рекомендацию от Microsoft?

Впервые вижу.

> Большинству пользователей мы рекомендуем 32-разрядную версию Office, так как она совместима с большинством других приложений, в частности, с надстройками сторонних разработчиков. ...позволяет пользователям применять существующие элементы Microsoft ActiveX и надстройки COM с 32-разрядным набором Office.

Проприетащинопроблемы.

Автор: ohm
Дата сообщения: 07.02.2016 11:13

Цитата:

две версии всего и вся - х32 и х64. В большинстве случаев это делается просто так, потому что все так делают, и не имеет под собой никакого практического обоснования. На

Что установить_Windows 32-bit или 64-bit

Автор: Smitis
Дата сообщения: 07.02.2016 20:35

Насколько я помню, 32-х разрядные приложения выполняются на 64-х разрядной архитектуре несколько медленнее аналогичных 64-х разрядных приложений. Для большинства приложений это безразлично, субъективно человеку разницу не заметить. Ну и всякая фигня типа доступа к большим файлам, что в данном случае тоже несущественно.

Т.е., да, понты.

- У Вас есть 64-х разрядная версия?
- Да, любой разрядности по желанию клиента, заплатите в кассу!

Автор: AnHot
Дата сообщения: 16.02.2016 18:27

Скажите, как настроить, чтобы скачать джипеги со страницы http://www.pravoslavie.by/inf/stan_luche/144# по страницу http://www.pravoslavie.by/inf/stan_luche/350# У меня не получается. Через несколько секунд прекращает закачку, в папке несколько файлов - есть и гифы, но ни одного джипега, хотя я в фильтре выставил только *.jpg
Да, и диапазон сайтов я не знаю, как указать, поэтому просто http://www.pravoslavie.by/inf/stan_luche/*

Страницы: 1 2 3 4 5 6

Предыдущая тема: Спутниковый Интернет

Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.