Ru-Board.club
← Вернуться в раздел «Программы»

» Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)

Автор: ASE_DAG
Дата сообщения: 01.05.2011 20:26
jason32
Боитесь, что он повторит судьбу Драматики? :)
Имейте в виду, там наверняка ограничения по юзер-агентам, да и вообще по массовым запросам.

А так, пользуйтесь тем, что вам привычней.
Если хотите иметь возможность посоветоваться конкретно со мной, то берите httrack. ;)
Автор: sveta svetik
Дата сообщения: 18.06.2011 11:58
подскажите а какая из прог может сравнить копии и выделить изменения


Добавлено:
люди аууууууууууууу
Автор: Engaged Clown
Дата сообщения: 19.06.2011 01:26
sveta svetik
Website Watcher.
Автор: K_Ok_O_S
Дата сообщения: 10.07.2011 23:31
Offline Explorer и httrack пробовал - не могут взять внешний js. Какие-то проги могут?

Страничка с кликабельными превьюшками http://www.ms77.ru/articles/biblioteka/50176/ . Большие картинки не качаются.

Каталог http://www.ms77.ru/show.image.up/ включал в правила закачки . "Вычислять выражения в скриптах" включил. Уровень 1.

Страничка содержит такой код:

<a rel="nofollow" href="#" id="100723074431_big.jpg" onclick="OpenImageUp(this.id); return false;"><img src="../../../images/100723074431_small.jpg" /></a>

OpenImageUp - функция из http://www.ms77.ru/manager/img/common.js . Скрипт в проекте закачался. Вот функция:

function OpenImageUp(fn){
    w = 600;
    h = 400;
    size="height="+h+",width="+w+", status=no, toolbar=no, menubar=no, scrollbars=1'";
    //
    if (parseInt(navigator.appVersion)>3)
        size+=",left="+(screen.width -w)/2+",top="+parseInt((screen.height -h)/2);
    //
    url = "/show.image.up/"+fn+"/";
    open(url, 'image_win', size);
}
Автор: Nikolay777
Дата сообщения: 30.07.2011 16:51
Помогите подобрать программу или решить одну задачу.
Требуется найти текст на сайте и ссылки.
Автор: ASE_DAG
Дата сообщения: 30.07.2011 23:58
Nikolay777
(в продолжение вот этого нашего разговора)
А какие тут могут быть варианты?
Рекурсивно грузите на локальную машину все страницы, а затем рекурсивно ищите в них то, что вам нужно.

Пример:

$ wget -mE http://example.org
$ grep -f patterns -R example.org


, где patterns — файл со списком поисковых шаблонов (чего ищем), разделенных переводом строки.
Автор: Nikolay777
Дата сообщения: 31.07.2011 00:02
и куда этот код пехать?
Автор: ASE_DAG
Дата сообщения: 31.07.2011 00:06
Nikolay777
Пехать? :)
Это не код, это команды. См. «Зачатки FAQ'а».
Автор: Nikolay777
Дата сообщения: 31.07.2011 00:09
Ладно, зря я наверное зря спросил.... не в ту тему зашёл. А нельзя это без линукса решить? С помощью например софта по windows?
Автор: ASE_DAG
Дата сообщения: 31.07.2011 00:14
Nikolay777
> А нельзя это без линукса решить?
Можно, конечно.
Во-первых, я это в качестве работающего примера привел, софта с подобных функционалом завались.
А во-вторых, причем тут вообще линукс (я про него ничего не говорил). И GNU Wget, и GNU Grep — программы кроссплатформенные, пожалуйста, используйте и под Виндой (даже без Цигвина). Вот тут бинарники: http://gnuwin32.sourceforge.net
Автор: Nikolay777
Дата сообщения: 31.07.2011 01:17
наверное я ещё не дорос до таких вещей... Спасибо за помощь.
Автор: ASE_DAG
Дата сообщения: 31.07.2011 01:24
> наверное я ещё не дорос до таких вещей...
В каком смысле «не дорос»? :-)
Чего здесь сложного? Вы спрашивайте, не стесняйтесь, я попробую объяснить.

P.S. А! Вы, может быть, совсем не понимаете по-английски?
Автор: Nikolay777
Дата сообщения: 31.07.2011 01:43
Нет, я его определённо знаю, но вот гуглтранслейт почему то знает его лучше)
Единственно, что я понял, так это то что мне нужна сборка данной программы с графической оболочкой.
Автор: ASE_DAG
Дата сообщения: 31.07.2011 01:53
Nikolay777
> знаю, но вот гуглтранслейт почему то знает его лучше
Хорошее определение, надо запомнить. ;-)


> что я понял, так это то что мне нужна сборка данной программы с графической оболочкой
ГУЙ для Вэ-гета и Грепа? О_о Нафига? Вам же автоматизация была нужна. Да и нету их.

Значит так, я бы на вашем месте все-таки установил Цигвин. Он здесь совершенно не нужен, но может когда-нибудь потребоваться в будущем, плюс у него просто подружелюбней инсталлятор.
Итак: http://cygwin.com/setup.exe
Когда дойдете до выбора пакетов (кои ставим), убедитесь, что wget и grep отмечены для установки (хотя, по-моему, они в дефолтной поставке, но на всякий случай).

Как с этим пунктом справитесь — напишите.
Автор: Nikolay777
Дата сообщения: 31.07.2011 07:53
поставил цигвин раза с 5го))
Автор: ASE_DAG
Дата сообщения: 31.07.2011 16:47
Nikolay777
> поставил цигвин раза с пятого
В одиночку ставили? Мне казалось, с пятого одному не справиться, тут помощник нужен.

Ладно. Теперь запускайте командную оболочку («Cygwin Bash Shell») и, если еще не начали, ставьте на рекурсивную загрузку сайтек:
$ wget -mE http://example.org
; и составляйте список шаблонов, по которым искать будете.
Автор: ASE_DAG
Дата сообщения: 18.09.2011 18:44
nye

Если вам не нужна замена ссылок между страницами на относительные, то проще всего именно что составить файлик со всеми ссылками к загрузке
$ awk 'BEGIN { for (i=1; i<=547657; i++) print "http://12345.com/post/show/"i }' > url.list # или как вам это удобнее будет сделать

, а потом согласно нему загрузить
$ wget -pE -i url.list
.

Если нужна, то придется таки по ссылкам ходить, что, безусловно, дольше. Например, HTTRack'ом:
$ httrack -* +http://12345.com/post/show/* http://12345.com/post/show/1 # дословно то, о чем вы говорили




Цитата:
http://12345.com/post/show/1
http://12345.com/post/show/2
http://12345.com/post/show/3
http://12345.com/post/show/4
...
http://12345.com/post/show/547657

И как задать такой диапазон адресов, если нет общей страницы со ссылками на них, но точно известны адреса всех нужных к скачиванию страниц (адреса к примеру выше)



Цитата:
Страница http://12345.com/post/show/N может ссылаться на следующую страницу http://12345.com/post/show/N+ и так ддалее. То есть, страницы могут образовывать цепочку ссылок. И чтобы добраться до страницы http://12345.com/post/show/547000 неоходимо указывать уровень....

А хотелось бы в качестве стартовой страницы указать маску http://12345.com/post/show/*
Автор: Vasily90
Дата сообщения: 15.10.2011 01:14
Подскажите, как скачать целиком форум, на котором некоторые разделы становятся видны только после логина. Пробовал Teleport Pro, Free Download Manager и wget. В первых двух при создании проекта есть галка "требуется авторизация" с полями для логина и пароля, но это не спасает. Как не спасает и предварительный логин на форум через IE с сохранением cookies.
Автор: ASE_DAG
Дата сообщения: 15.10.2011 18:13
Vasily90
> Пробовал Teleport Pro, Free Download Manager и wget
У Вэ-гета есть ключ --load-cookies.

Цитата:
--load-cookies file
Load cookies from file before the first HTTP retrieval. file is a textual file in the format originally used by Netscape's cookies.txt file.

У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export».
Автор: Emisdee
Дата сообщения: 03.11.2011 09:58
ПОдскажите, в какой из оффлайн бразуеров можно настроить так, чтобы он выкачивал только по определенным маскам юрлов не суясь в ненужные разделы сайта? Как ни странно тот же Оффлайн Эксплрер такого не может!
Автор: ASE_DAG
Дата сообщения: 03.11.2011 10:16
Emisdee
HTTrack точно можно. Wget с некоторыми ограничениями. Да и, извините, но полагаю, что Офлайн-эксплорер тоже можно — это же самый базовый функционал.
Автор: Emisdee
Дата сообщения: 03.11.2011 11:58
ASE_DAG
Но как?

По идее должнен быть функционал, который бы позволил скачивать зааднные паттерны и НЕ СКАЧИВАТЬ все остальное! В оффлайн експлорере самый богатый набор функций но там нужно проиписывать вручную все кейворды которые не должны попасть в зеркало. Вот как задать такое условие - скачивать www.site.com/pattern*** но не скачивать www.site.com/* т.е. все остальное.
Автор: ASE_DAG
Дата сообщения: 03.11.2011 14:12
Emisdee
> Вот как задать такое условие - скачивать www.site.com/pattern*** но не скачивать www.site.com/* т.е. все остальное.
$ httrack '-* +example.org/path*' 'http://example.org/path/index.html'
Автор: Alatena
Дата сообщения: 06.11.2011 12:56
Такой же вопрос:

Цитата:
ПОдскажите, в какой из оффлайн бразуеров можно настроить так, чтобы он выкачивал только по определенным маскам юрлов не суясь в ненужные разделы сайта?

Например, архив газеты в pdf, ссылки на которые на сайте, или по таким ссылкам.

Только мне бы что-нибудь попроще, чем можно пользоваться без специализированных знаний. С интуитивно понятным интерфесом или fan-made аддоном.

Автор: biko3
Дата сообщения: 13.11.2011 12:34
ни как не получается сграбить этот сайт http://base.lol-game.ru/champions/

всё что скачивается это одна строчка (© 2010 Riot Games Inc. All rights reserved. | © 2010-2011 Gorby | Language: ru | ) , и всё
Это сайт конструктор и хотелось бы пользоваться им оффлайн.
Помогите разобраться с проблемой
Может какие нибудь настройки нужно ввести?
Автор: ruboardusr2010
Дата сообщения: 08.12.2011 11:48
использую WinHTTrack.exe , настроил запустил для пробы загрузил Х файлов - в папке проекта они появились как .temp - вроде все нормально.
поставил на паузу, закрыл программу - при закрытии все эти файлы удалились!

в чем тут дело?


Автор: andreyyyy
Дата сообщения: 25.01.2012 23:54
Люди добрые, подскажите, существует ли в природе софт, который умеет скачивать сайты, и при этом на лету производить замену участков html-кода (например, как прога Text Replacer)?

Спасибо.
Автор: ASE_DAG
Дата сообщения: 26.01.2012 00:15
andreyyyy
Не припомню.
А что за задача стоит? И «на лету» — это как? Не после всех операций по загрузке — понятно, а между какими точками алгоритма именно? Если можно до всех операций, что выполняют рекурсивные качалки, то и используйте что-нибудь типа Privoxy.
Автор: andreyyyy
Дата сообщения: 26.01.2012 00:20

Цитата:
А что за задача стоит? И «на лету» — это как? Не после всех операций по загрузке — понятно, а между какими точками алгоритма именно? Если можно до всех операций, что выполняют рекурсивные качалки, то и используйте что-нибудь типа Privoxy.


Задача стоит - делать зеркало сайта, но некоторые фрагменты кода, ссылки - заменять на свои.

Гляну Privoxy.
Автор: ASE_DAG
Дата сообщения: 26.01.2012 00:25
andreyyyy
> делать зеркало сайта, но некоторые фрагменты кода, ссылки - заменять на свои
В данной формулировке не вижу ничего, что бы мешало провести замену после окончания загрузки.

Страницы: 1234567891011121314151617181920

Предыдущая тема: AutoCAD помогите с установкой


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.