Ru-Board.club
← Вернуться в раздел «Программы»

» Wget

Автор: igor_andreev
Дата сообщения: 03.05.2007 17:33
ATS2000

Цитата:
1) Скачиваются все подряд файлы и gif и rar

Повторюсь:
type FOLDER1.TXT | find /i "auth.php?item=" | find /i ".rar" >FILES1.TXT

Цитата:
2) rar файлы скачиваются со следующими именами:

Тоже на прошлой странице писал, из Content-Disposition wget только-только учится брать имя файла. Попробуй тестовую SVN версию в шапке. Может тогда, если SVN версия будет у тебя правильно определять имя файла - и скачивать получится с -N или -m
Автор: ATS2000
Дата сообщения: 04.05.2007 02:37
igor_andreev


Цитата:
Повторюсь:
type FOLDER1.TXT | find /i "auth.php?item=" | find /i ".rar" >FILES1.TXT


Забыл сказать, что сначала я именно так и пробывал. В итоге в FILES1.TXT пишутся и ссылки на gif и на rar но не все, а где-то до половины от того что находится в FOLDER1.TXT. Не работает фильтрация почему-то.



Автор: igor_andreev
Дата сообщения: 04.05.2007 02:44
ATS2000

Цитата:
Не работает фильтрация почему-то.

Не видя полностью html-код твоей страницы, сложновато подсказать более конкретно
Автор: ATS2000
Дата сообщения: 04.05.2007 03:31
igor_andreev


Цитата:
Не видя полностью html-код твоей страницы, сложновато подсказать более конкретно



FOLDER1.TXT


Цитата:
<img src="/images2/folder_open.gif" alt='root dir'> Folder1/<table border=0><tr align="center"><td></td><td>Наименование</td><td> </td><td>Дата/время</td><td> </td><td>Размер</td></tr><tr align="left"><td colspan="6"><hr></td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0428.RAR'>base0428.RAR</a></td><td> - </td><td>28-04-2007 09:33:22</td><td> - </td><td>1,61 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0423.RAR'>base0423.RAR</a></td><td> - </td><td>23-04-2007 09:55:08</td><td> - </td><td>1,71 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0416.RAR'>base0416.RAR</a></td><td> - </td><td>16-04-2007 09:42:47</td><td> - </td><td>1,50 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0409.RAR'>base0409.RAR</a></td><td> - </td><td>09-04-2007 09:43:05</td><td> - </td><td>852,07 Кбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0402.RAR'>base0402.RAR</a></td><td> - </td><td>02-04-2007 09:36:38</td><td> - </td><td>987,13 Кбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0326.RAR'>base0326.RAR</a></td><td> - </td><td>26-03-2007 10:07:41</td><td> - </td><td>1,16 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0319.RAR'>base0319.RAR</a></td><td> - </td><td>19-03-2007 09:48:29</td><td> - </td><td>1,20 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0312.RAR'>base0312.RAR</a></td><td> - </td><td>12-03-2007 09:42:46</td><td> - </td><td>1,38 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0305.RAR'>base0305.RAR</a></td><td> - </td><td>05-03-2007 09:48:48</td><td> - </td><td>1,28 Мбайт</td></tr><tr align="left"><td colspan="6"><hr></td></tr></table>


FILES1.TXT


Цитата:
<img src="/images2/folder_open.gif" alt='root dir'> Folder1/<table border=0><tr align="center"><td></td><td>Наименование</td><td> </td><td>Дата/время</td><td> </td><td>Размер</td></tr><tr align="left"><td colspan="6"><hr></td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0428.RAR'>base0428.RAR</a></td><td> - </td><td>28-04-2007 09:33:22</td><td> - </td><td>1,61 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0423.RAR'>base0423.RAR</a></td><td> - </td><td>23-04-2007 09:55:08</td><td> - </td><td>1,71 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0416.RAR'>base0416.RAR</a></td><td> - </td><td>16-04-2007 09:42:47</td><td> - </td><td>1,50 Мбайт</td></tr><td width=30><img src="/images2/file.gif" alt="[FILE]"></td><td><a href='auth.php?item=Folder1/base0409.RAR'>base0409.RAR</a></td><td> - </td><td>09-04-2007 09:43


Автор: igor_andreev
Дата сообщения: 04.05.2007 04:39
ATS2000
Ужос!
sed "s/<\/td>/\n/g" folder1.txt | find /i ".rar">files1.txt

sed.exe по инету полно, вот эту например возьми http://www.student.northpark.edu/pemente/sed/gsed407x.zip (44,5 Kb)

Автор: ATS2000
Дата сообщения: 04.05.2007 07:40
igor_andreev

ага, ужос ещё тот

За sed спасибо, не знал, только учусь


Итак, в итоге получился такой скрипт:



Цитата:
set http_proxy=http://192.168.150.1:8080
wget -O C:\Temp\FOLDER1.TXT --http-user="user" --http-passwd="pass" http://info.board.ru/auth.php?item=FOLDER1/
sed "s/<\/td>/\n/g" C:\Temp\FOLDER1.TXT | find /i ".rar" >C:\Temp\FILES1.TXT
wget -N --force-html -P C:\Temp\
--base=http://info.board.ru/ --http-user="user" --http-passwd="pass" -i C:\Temp\FILES1.TXT


В итоге его работы FILES1.TXT стал поприятнее выглядеть:


Цитата:
<td><a href='auth.php?item=FOLDER1/base0428.RAR'>base0428.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0423.RAR'>base0423.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0416.RAR'>base0416.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0409.RAR'>base0409.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0402.RAR'>base0402.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0326.RAR'>base0326.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0319.RAR'>base0319.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0312.RAR'>base0312.RAR</a>
<td><a href='auth.php?item=FOLDER1/base0305.RAR'>base0305.RAR</a>


Но при выполнении


Цитата:
wget -N --force-html -P C:\Temp\
--base=http://info.board.ru/ --http-user="user" --http-passwd="pass" -i C:\Temp\FILES1.TXT


файлы всё равно скачиваются с именами


Цитата:
auth.php@item=FOLDER1%2Fbase0305.RAR
auth.php@item=FOLDER1%2Fbase0312.RAR
auth.php@item=FOLDER1%2Fbase0319.RAR


и дата у файлов текущая







Добавлено:
igor_andreev

только что попробывал SVN версию из шапки, файлы стали качаться как надо!


Цитата:
base0305
base0312
base0319


действительно научили wget качать из Content-Disposition

Но проблема с датой осталась. Дата у файлов ставится текущей. Как бы побороть этот трабл?
Автор: igor_andreev
Дата сообщения: 04.05.2007 11:36
ATS2000
А этот info.board.ru корректно отдает Last-Modified? Если запустить wget с опцией -S( --server-response) http://info.board.ru/auth.php?item=FOLDER1/base0312.RAR
в ответе сервера правильное время последнего изменения файла?
Вроде Last-Modified: Mon, 12 Mar 2007 09:48:48 GMT

Автор: b3nd3rster
Дата сообщения: 04.05.2007 21:31
как сделать, чтобы файл при скачивании сохранялся в католог, в котором он лежит. к примеру скачивается ссылка такая - test1.ru/files/film/film.avi
по умолчанию все закачки осуществляются в каталог C:\Downloads
вот мне надо сделать так, чтобы wget автоматически создавал каталог с именем film и туда сохранял файл film.avi. но это надо сдлеать с помощь ключа cmd, так как требуется чтоьбы файлы сохранялись в свои каталоги.
Автор: igor_andreev
Дата сообщения: 04.05.2007 21:37
b3nd3rster

Directories:
-nd, --no-directories don't create directories.
-x, --force-directories force creation of directories.
-nH, --no-host-directories don't create host directories.
--protocol-directories use protocol name in directories.
-P, --directory-prefix=PREFIX save files to PREFIX/...
--cut-dirs=NUMBER ignore NUMBER remote directory components.


То есть тебе нужно wget -x -nH --cut-dirs=1
Автор: b3nd3rster
Дата сообщения: 04.05.2007 22:45
igor_andreev
спасибо, все качает. только можешь попдробнее объяснить на русском что за что отвечает, если не трудно, plz
Автор: igor_andreev
Дата сообщения: 04.05.2007 23:42
b3nd3rster

Цитата:
попдробнее объяснить на русском

http://hepd.pnpi.spb.ru/~shevel/Book/node100.html тыркни там в ссылку "Параметры создаваемых каталогов"
Автор: ATS2000
Дата сообщения: 05.05.2007 03:00
igor_andreev


Цитата:
А этот info.board.ru корректно отдает Last-Modified? Если запустить wget с опцией -S( --server-response)


вот что выдаёт


Цитата:
D:\>wget --server-response --http-user="user" --http-passwd="pass" http://info.board.ru/'auth.php?item=FOLDER1/base0428.RAR
--09:51:51-- http://info.board.ru/'auth.php?item=FOLDER1/base0428.RAR
Connecting to 192.168.150.1:8080... connected.
Proxy request sent, awaiting response...
HTTP/1.1 200 OK
Date: Fri, 04 May 2007 23:53:11 GMT
Server: Apache/2.2.2 (Fedora)
Set-Cookie: PHPSESSID=8gp9kogvijl1t1b934cf4o7691; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: max-age=0
Pragma: no-cache
Content-Disposition: attachment; filename=base0428.RAR
Accept-Ranges: bytes
Content-Transfer-Encoding: binary
Content-Range: bytes 0-2000000/2000000
Content-Length: 2000000
Connection: close
Content-Type: application/octet-stream
Content-Language: ru



Добавлено:
Это я пробывал на SVN версии из шапки

Добавлено:
На стабильном релизе 1.10.2 тоже самое. Видимо не умеет этот хост корректно отдавать Last-Modified. Вместо этого даёт текущую дату/время. Насколько я понимаю, тут уже не в wget дело.
Автор: igor_andreev
Дата сообщения: 05.05.2007 03:32
ATS2000
Тады ой, раз Last-Modified не дают. В принципе твой FOLDER1.TXT несложно обычным батником разобрать на части, напротив каждого файла ведь дата\время пишется. Сверять дату файла с локальным, и если дата не совпала или такого файла на компе нет - качать. Если очень нужно скачивать именно измененные и новые файлы, то опиши проблему тут Задачи на bat-файлах 3 Думаю кучу вариантов решения тебе предложат
Автор: ATS2000
Дата сообщения: 05.05.2007 04:25
igor_andreev

Спасибо! Перехожу в другую тему с этой задачей.
Автор: dix75
Дата сообщения: 11.05.2007 23:48
подскажите как сделать так чтобы wget качал а dos окна небыло ?
Автор: igor_andreev
Дата сообщения: 11.05.2007 23:51
dix75
-b, --background go to background after startup.
Автор: svl75
Дата сообщения: 15.05.2007 15:55
У меня проблема такая: не могу скачать все файлы типа zip.
Вот батник:
------------
set http_proxy=http://192.168.100.20:3128

D:\Tasks\Wget\wget.exe -m -nd -a zip --proxy-user=win4k --proxy-password=111 --directory-prefix=D:\Tasks\download_drweb ftp://ftp.drweb.com/pub/drweb/bases/*.zip -a wget.log
----------------
В логах говорит я так понял что символы звездочка не поддерживаются моим http-проки
-------------
Warning: wildcards not supported in HTTP.
--15:36:12-- ftp://ftp.drweb.com/pub/drweb/bases/*.*
=> `D:/Tasks/download_drweb/%2A.%2A'
Connecting to 192.168.100.20:3128... connected.
Proxy request sent, awaiting response... 404 Not Found
15:36:13 ERROR 404: Not Found.
----------------------
Я готов уже даже на то чтобы скачать все содержимое этой дирректории.
Народ, поправьте меня - явно где-то я недосмотрел... Чего-то элементарного

Влад
Автор: igor_andreev
Дата сообщения: 15.05.2007 16:16
svl75
-A, --accept=LIST comma-separated list of accepted extensions.

wget -m -A drwtoday.zip,drw433??.zip,drwebase.zip,dwn433??.zip,drwnasty.zip и т.д.


Автор: mithridat1
Дата сообщения: 15.05.2007 16:24
svl75

wget.exe -m -nd -A.zip --directory-prefix=D:\Tasks\download_drweb ftp://ftp.drweb.com/pub/drweb/bases/ -r -a wget.log

Обрати внимание,что прописные и строчные символы в опциях wget (A or a) имеют разный смысл.
Автор: svl75
Дата сообщения: 15.05.2007 16:43
Все равно не качает:
-------------------------
--17:42:16-- ftp://ftp.drweb.com/pub/drweb/bases
=> `D:/Tasks/download_drweb/bases'
Connecting to 192.168.100.20:3128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 41 476 (41K) [text/html]
Last-modified header missing -- time-stamps turned off.
--17:42:16-- ftp://ftp.drweb.com/pub/drweb/bases
=> `D:/Tasks/download_drweb/bases'
Connecting to 192.168.100.20:3128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 41 476 (41K) [text/html]

0K .......... .......... .......... .......... 100% 12.52 MB/s

17:42:16 (12.52 MB/s) - `D:/Tasks/download_drweb/bases' saved [41476/41476]
----------------------
Неужели мне надо будет перечислять все возможные варианты файлов?
Автор: mithridat1
Дата сообщения: 15.05.2007 17:38
svl75
Вот так вроде работает...
wget.exe -e http_proxy=192.168.100.20:3128 -Y on --proxy-user=win4k --proxy-password=111 --passive-ftp -A.zip --directory-prefix=D:\Tasks\download_drweb -m -nd ftp://ftp.drweb.com/pub/drweb/bases -r -a wget.log
Автор: igor_andreev
Дата сообщения: 15.05.2007 18:53
svl75

Цитата:
Все равно не качает:

А ты слеш то поставь в конце ftp-url, как по твоему wget узнать должен, bases - это папка или файл? ftp://ftp.drweb.com/pub/drweb/bases/
Автор: svl75
Дата сообщения: 16.05.2007 08:12
Пишу как посоветовали:

------------------------------------------
set ftp_proxy=http://192.168.100.20:3128

D:\Tasks\Wget\wget.exe -e --proxy-user=win4k --proxy-password=111 --passive-ftp -A.zip --directory-prefix=D:\Tasks\download_drweb -m -nd ftp://ftp.drweb.com/pub/drweb/bases/ -r -a wget.log
----------------------------------скачивает только index---------------
09:04:28 (1.72 MB/s) - `D:/Tasks/download_drweb/index.html' saved [39588]

я уже засомневался сможет ли wget правильно работать с моим http-прокси.
Может я чего-то не так пишу?
Автор: pom205
Дата сообщения: 19.05.2007 19:25
Вопрос к спецам. При докачке с файлообменников wget к закачиваемому файлу, вернее к иго имени добавляет хвост типа YDS.RAR?tsid=20070519-115647-36d6639. Другие качалки его не добавляют. Как избавиться?
Обязательно ли явно указывать имя сохраняемого файла при передаче ссылки, например, из UShdownloader а.
Автор: svl75
Дата сообщения: 21.05.2007 10:21
Еще раз прошу помощи у знатоков
ставлю вроде все как расписано в файлах примера by Andrei Chevel

set ftp_proxy=http://192.168.100.20:3128

D:\Tasks\Wget\wget.exe -r -l1 -np -nd -A.zip --proxy-user=win4k --proxy-password=111 --directory-prefix=D:\Tasks\download_drweb\ ftp://ftp.drweb.com/pub/drweb/bases/ -a wget.log
-----------------------------------------------------
в логах все то же:
лог----------------------------------------------------------
--10:56:19-- ftp://ftp.drweb.com/pub/drweb/bases/
=> `D:/Tasks/download_drweb/index.html.22'
Connecting to 192.168.100.20:3128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 39 588 (39K) [text/html]

0K .......... .......... .......... ........ 100% 3.57 MB/s

10:56:19 (3.57 MB/s) - `D:/Tasks/download_drweb/index.html.22' saved [39588/39588]

совершенно не понятно как скачать все файлы по маске *.zip
Автор: igor_andreev
Дата сообщения: 21.05.2007 10:55
svl75
Ну и скачивай из index.html этого, раз по нормальному не получается, делов то


wget.exe -O drweb.htm ftp://ftp.drweb.com/pub/drweb/bases/
wget.exe --force-html -i drweb.htm

Автор: mithridat1
Дата сообщения: 21.05.2007 11:00
svl75
Попробуй сделать то же самое,но с ресурсом по http,где возможно получение индексной страницы.У меня то же прокси Squid 2.5 и с загрузкой с ftp через wget проблемы.
Автор: igor_andreev
Дата сообщения: 21.05.2007 11:06

Цитата:
D:\Tasks\Wget\wget.exe -r -l1 -np -nd -A.zip --proxy-user=win4k --proxy-password=111 --directory-prefix=D:\Tasks\download_drweb\ ftp://ftp.drweb.com/pub/drweb/bases/ -a wget.log

А сюда просто добавь ключ --mirror ...
Автор: svl75
Дата сообщения: 22.05.2007 09:36
igor_andreev

Цитата:
Ну и скачивай из index.html этого, раз по нормальному не получается, делов то


вот что пишу:
------------
D:\Tasks\Wget\wget.exe --proxy-user=win4k --proxy-password=111 -O D:\Tasks\download_drweb\drweb.htm ftp://ftp.drweb.com/pub/drweb/bases/
D:\Tasks\Wget\wget.exe --mirror --proxy-user=win4k --proxy-password=111 --force-html -i D:\Tasks\download_drweb\drweb.htm --directory-prefix=D:\Tasks\download_drweb
-------------------
лог:

D:/Tasks/download_drweb/drweb.htm: Cannot resolve incomplete link dwrtoday.zip.
D:/Tasks/download_drweb/drweb.htm: Cannot resolve incomplete link dwrtoday.zip;type=i.
--10:18:24-- http://nnp-gate.nnp.ru:3128/squid-internal-static/icons/anthony-dirup.gif
=> `D:/Tasks/download_drweb/nnp-gate.nnp.ru+3128/squid-internal-stati
c/icons/anthony-dirup.gif'
Connecting to 192.168.100.20:3128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 147 [image/gif]
Server file no newer than local file `D:/Tasks/download_drweb/nnp-gate.nnp.ru+3128/squid-internal-static/icons/anthony-dirup.gif' -- not retrieving.

-----------
в результате сохранились только иконки.
Посмотрел в индексном файле - все ссылки почему-то на локальный диск ссылаются
например:
file:///D:/Tasks/download_drweb/drw43300.zip

не понятно это.
Может чего не так делаю?
Автор: igor_andreev
Дата сообщения: 22.05.2007 10:58

Цитата:
Может чего не так делаю?

Так все, эт у тебя прокси корячит индексный файл.
Без прокси индексный файл выглядит так index_direct_connect.html , а с прокси у тебя наверно такого плана выдает index_throw_proxy.html

--mirror попробуй добавь в свой вариант скачивания, не из файла, wget.exe -r -l1 -np -nd -A.zip...

Страницы: 12345678910111213141516

Предыдущая тема: Windows XP FAQ = обновлен 19 мая =


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.