Ru-Board.club
← Вернуться в раздел «Программы»

» Рекурсивная загрузка веб-сайтов; оффлайн-браузеры (OfflineExplorer, TeleportPro, HTTrack)

Автор: andreyyyy
Дата сообщения: 26.01.2012 00:39
>>В данной формулировке не вижу ничего, что бы мешало провести замену после окончания загрузки.

Зеркало сайта будет смотреть в интернет. Поэтому делать замену "после" никак нельзя.
Надо либо сразу "на лету".
Либо скачать, модифицировать, скопировать в директорию сайта. Что несколько труднее, особенно если планируется делать это несколько раз в сутки.
Автор: ASE_DAG
Дата сообщения: 26.01.2012 01:28
andreyyyy
> Поэтому делать замену "после" никак нельзя.
> никак нельзя
И в следующем абзаце вы описываете очевидный алгоритм с заменой после загрузки. ;-)

> Либо скачать, модифицировать, скопировать в директорию сайта. Что несколько труднее
Да что вы, это значительно проще, чем поднимать фильтрующий прокси. Хотя по-хорошему, энциклонжить сайты надо именно связкой фильтрующего (Привокси) и кэширующего (Сквид, например) прокси, безо всяких рекурсивных загрузок.
Автор: andreyyyy
Дата сообщения: 26.01.2012 02:19
С Privoxy разбирался - терпения не хватило в конфигах копаться.

Зато приглянулся фильтрующий прокси Proxomitron. У него интерфейс настроек фильтров намного дружелюбнее.

Добавлено:
>Сквид, например
Нет уж, сквидов мне точно не надо )))

Обойдусь связкой Proxomitron + качалка сайтов.

Кстати какую качалку посоветуете, которая лучше всего делает зеркала?

Спасибо.
Автор: ASE_DAG
Дата сообщения: 26.01.2012 07:27
andreyyyy
> Нет уж, сквидов мне точно не надо
Ну, как знаете. Если все страницы на источнике частопосещаемые, нагрузка при рекурсивной выгрузке выше будет не намного, наверное.

> Кстати какую качалку посоветуете, которая лучше всего делает зеркала?
Да все они со своей задачей справляются. Я при необходимости пользуюсь HTTrack’ом.
Автор: andreyyyy
Дата сообщения: 26.01.2012 10:45
HTTrack складывает файлы сайта в папку C:\Мои Web Сайты\site.ru\site.ru
Можно ли заставить его складывать файлы в C:\Мои Web Сайты\site.ru?
Автор: OlegChernavin
Дата сообщения: 26.01.2012 11:12
Offline Explorer Pro обладает такой возможностью. В настройках проекта есть секция Обработка - кнопка Замена URL. Там можно настроить правила замены кусков HTML. Сложные вещи вряд-ли удастся сделать. Для такого можно использовать TextPipe Pro. В Offline Explorer Pro в меню Сервис есть кнопка Обработка Данных. Можно создать фильтр для TextPipe и потом запустить обработку всех HTML страниц в TextPipe с помощью этого фильтра.
Автор: Petrik_Pjatochkin
Дата сообщения: 12.02.2012 16:33
Кто-то уже решил как закачивать странички с спойлерами с rutracker.ort? Ни один оффлайн браузер их не берет Пичалька...
Автор: OlegChernavin
Дата сообщения: 16.02.2012 14:12
Я исправил это в Offline Explorer. На следующей неделе выпустим версию 6.2, которая их будет скачивать и показывать без проблем.
Автор: Petrik_Pjatochkin
Дата сообщения: 16.02.2012 20:35
OlegChernavin

Цитата:
Я исправил это в Offline Explorer. На следующей неделе выпустим версию 6.2, которая их будет скачивать и показывать без проблем.


Если вы про спойлеры, то, кстати, Teleport VLX 1.59 скачивает странички rutracker.org со спойлерами и их можно потом развернуть/свернуть оффлайн. Но не всё оказалось так гладко - если в спойлере находится картинка, то почему-то она не загружается Teleport'ом. Несколько дней бился, чтобы это исправить, но безрезультатно.

PS: Кажется, он вообще не загружает картинки, которые находятся в комментариях пользователей, а не только в спойлерах.
Автор: OlegChernavin
Дата сообщения: 17.02.2012 15:35
Картинки тоже скачиваются нормально. Вот обновленный OE.exe файл от Про версии:

http://www.metaproducts.com/download/betas/OEP3726.zip
Автор: Petrik_Pjatochkin
Дата сообщения: 18.02.2012 00:16
OlegChernavin
Вот так выглядит тема на rutracker:


Вот так выглядит тема, скачанная OE:


Спойлеров нет.
Автор: OlegChernavin
Дата сообщения: 20.02.2012 14:50
Вот новая версия (Offline Explorer Pro), которая должна корректно показывать спойлеры:

http://www.metaproducts.com/download/betas/opsetup.exe
Автор: Petrik_Pjatochkin
Дата сообщения: 22.02.2012 01:26
OlegChernavin, спасибо! Теперь показывает правильно.
Автор: DDuRik1982
Дата сообщения: 26.02.2012 00:24
доброго времени,

очень нужна помощь, пытаюсь скачать сайт. (crlaurence.com)
логинюсь в эксплорере, выставляю в настроиках программы брать куки с него же - забираю, в целом сохраняет все кроме цен и количества товара, сайт по ходу их подгружает от кудато сам.
вот вопрос: как мне забирать цены и кол-во товаров?

софт TeleportPro

помогите если не сложно, удасться сделать - отблагодарю хорошо...
Автор: ASE_DAG
Дата сообщения: 26.02.2012 00:48
DDuRik1982
> выставляю в настроиках программы
О какой программе речь? И если вы ограничены в инструментах ею, то лучше будет в ветку по ней и обратиться (ссылки в шапке).
Автор: DDuRik1982
Дата сообщения: 26.02.2012 01:46
прошу извинения

TeleportPro

https://www.dropbox.com/gallery/51077867/1/Capture?h=dbebc4

не цены не количества
Автор: OlegChernavin
Дата сообщения: 29.02.2012 13:09
Насколько я понял, нужно зайти на сайт с паролем, чтобы увидеть цены. Это так?
Автор: PREVED
Дата сообщения: 23.04.2012 22:40
Приветствую всех.

Решил не создавать отдельную тему, а запостить вопрос здесь - задача, собственно, имеет прямое отношение к локальному архивированию контента сайтов.

Возникла необходимость в специфическом оффлайн-граббере страниц, в функционал которого входило бы автоматическое сохранение всех открываемых браузером веб-страниц. Т.е. программа должна мониторить браузер (Опера, FF, IE - в принципе мне любой из популярных подойдет, лишь бы поддерживался софтом) и параллельно сохранять ВСЕ открываемые в браузере страницы, которые подпадают под определенный набор правил (маска url, к примеру). Желательно, чтобы сохранялись несколько вариантов одной и той же страницы открытой в разное время (т.к. сайты динамические и могут меняться). Т.е. нужен своеобразный локальный автоматический архиватор веба. Очень хотелось бы иметь возможность фильтровать сохраняемый контент по тиму данных (к примеру, не сохранять флэш).

Есть ли софт, способный полностью (или хотя бы частично) закрыть эту потребность? Как вариант, может прокси-сервер какой-нибудь посоветуете, способный в процессе работы автоматически архивировать сайты в "вечном кэше"?

Заранее спасибо.
Автор: ASE_DAG
Дата сообщения: 24.04.2012 14:36
PREVED
> автоматическое сохранение всех открываемых браузером веб-страниц
У Вимператора / Пентадактиля (это для Файрфокса, да) есть функционал автокоманд, в т.ч. по факту загрузки страницы, с фильтром по урлам.

> сохранялись несколько вариантов одной и той же страницы открытой в разное время
Здесь, возможно, будет удобно заюзать Скрапбук.

Перейдем к конкретным примерам. Допустим, отдаем Вимператору такие команды:
:command scrapbook js ScrapBookBrowserOverlay.execCapture(0, null, false, 'urn:scrapbook:root')
:au PageLoad ^http://forum.ru-board.com/.* scrapbook


Первой мы определяем альяс scrapbook для молчаливого сохранения текущей страницы в корневой папке Скрапбука. Второй указываем исполнять scrapbook после каждой загрузки страницы, URI коей удовлетворяет регэкспу ^http://forum.ru-board.com/.*.

Вот как-то так. ;-) Вопросы есть?
Автор: Alex8898798
Дата сообщения: 26.04.2012 01:54
к сожалению не нашел ответов, покурил инет и руборд. создам постик.
речь пойдет о Offline Explorer
был скачан сайт, где были ссылки на документы pdf с русскими названиями файлов, к примеру "Все О Париже.pdf" в результате локально на винте имею кучу пдфок с непонятной кодировкой названия файла. Причем определить не могу и соответственно перекодировать тоже. Подскажите что делать?
Так же проблема с интерфейсом, у меня винда 7 английская, при выборе интерфейса Offline Explorer все меню что открывается окошками не имеет русских букв.
Автор: ASE_DAG
Дата сообщения: 26.04.2012 09:50
Alex8898798
А какого ответа вы ожидаете? Если по Офлайн-эксплореру, то лучше будет в ветку по нему и обратится.
А если по приведению имен файлов в читаемый вид, то давайте сюда пример получившегося имени.

P.S. Не сюда (не в сообщение) — местный говнопарсер не пропустит, а на какой-нибудь пастообменник.
Автор: Alex8898798
Дата сообщения: 26.04.2012 10:46

_25D0¦_25D0µ_25D0Ѕ_25D0Ѕ_25D0ѕ_25D1Ѓ_25D1‚_25D0ё_252e Robb Report 09_252e2011_0683A339C7.pdf
_25D0¦_25D0µ_25D0Ѕ_25D0Ѕ_25D0ѕ_25D1Ѓ_25D1‚_25D0ё_252e Robb Report 09_252e2011.pdf
_25D0ђ_25D0І_25D1Ѓ_25D1‚_25D1Ђ_25D0ё_25D0№_25D1Ѓ_25D0є_25D0ё_25D0№ _25D0І_25D0ѕ_25D1Ђ_25D0є_25D1€_25D0ѕ_25D0ї _25D0ј_25D0°_25D1Ђ_25D1‚ 2011_0683AED9C6.pdf
_25D0ђ_25D0І_25D1Ѓ_25D1‚_25D1Ђ_25D0ё_25D0№_25D1Ѓ_25D0є_25D0ё_25D0№ _25D0І_25D0ѕ_25D1Ђ_25D0є_25D1€_25D0ѕ_25D0ї _25D0ј_25D0°_25D1Ђ_25D1‚ 2011.pdf
_25D0§_25D1‚_25D0ѕ _25D0ґ_25D0°_25D1Ђ_25D1Џ_25D1‚ _25D0ї_25D0ѕ_25D0ґ_25D0°_25D1Ђ_25D0є_25D0ё - Forbes Style _25D0·_25D0ё_25D0ј_25D0° 2011-2012_03AC30A12B.pdf
_25D0§_25D1‚_25D0ѕ _25D0ґ_25D0°_25D1Ђ_25D1Џ_25D1‚ _25D0ї_25D0ѕ_25D0ґ_25D0°_25D1Ђ_25D0є_25D0ё - Forbes Style _25D0·_25D0ё_25D0ј_25D0° 2011-2012.pdf
_25D0ћ_25D1‚_25D0µ_25D0»_25D0ё _25D0’_25D1‹_25D1Ѓ_25D1€_25D0°_25D1Џ _25D0ї_25D1Ђ_25D0ѕ_25D0±_25D0°_03AC42A12B.pdf
_25D0љ_25D0ѕ_25D0Ѕ_25D1†_25D0µ_25D1Ђ_25D1‚_25D1‹ _25D0Ѕ_25D0° _25D0±_25D0»_25D0°_25D0Ѕ_25D0є_25D0µ_0683A245C5.doc

Добавлено:
упс получилось!
спасибо за желание помочь. вот такие названия файлов получились вместо русских. и их очень много для ручной сортировки (
к сожалению опознать в какой они кодировке у меня вчера не вышло.
Автор: OlegChernavin
Дата сообщения: 26.04.2012 13:19
В последних версиях Offline Explorer в диалоге Свойств проекта - секция Обработка - есть галка для использования Unicode в именах файлов. Попробуйте с ней загрузить сайт.
Автор: ASE_DAG
Дата сообщения: 26.04.2012 14:53
Alex8898798
> опознать в какой они кодировке у меня вчера не вышло
Ну, алгоритм преобразования к читаемому виду тут понятен:
— заменяете _25 на %;
— все не-acsii символы заменяете на их 16-тиричные коды в CP1251 (напр. ђ на 90);
— применяете к полученной строке urldecode (т.е. операцию обратную urlencode’у).

Писать скрипт мне сейчас некогда, да и, думаю, теперь без меня справитесь. ;-)
Автор: Alex8898798
Дата сообщения: 27.04.2012 00:32
ASE_DAG
мама мия!
спасибо! )
Автор: shveicar
Дата сообщения: 02.05.2012 17:48
Alex8898798
Есть такая программка - штирлиц называется....
Автор: DimitarSerg
Дата сообщения: 07.05.2012 13:58
Подскажите пожалуйста такое:
Нужно скачать весь файловый архив сайта http://flz.crackteam.ws/
Там нужно ждать сначала 15с, потом еще 60... Короче тысячи файлов можно до конца жизни тянуть...
Все сссылки на файлы постоянны в виде
http://flz.crackteam.ws/cache/636acff367be2d179a420daae55ccb03547.zip

Можно ли каким-то образом (заданием настроек, неважно в какой программе OE, Teleport) скачать все эти файлы (их будет ооочень много).

Заранее благодарен.
Автор: OlegChernavin
Дата сообщения: 07.05.2012 15:10
Похоже, сайт не работает - DATABASE UPDATED NOW, PLEASE REVISIT LATER
Автор: DimitarSerg
Дата сообщения: 07.05.2012 15:56
OlegChernavin
ага.. Утром еще работал.
Автор: OlegChernavin
Дата сообщения: 13.06.2012 14:41
obtim

Offline Explorer Pro - открыть сайт онлайн во встроенном браузере Offline Explorer Pro и залогиниться там. После этого скачивать.

Или на этой онлайн странице (также во встроенном браузере) заполнить поля пользователя и пароля и при клике на кнопку логина держать нажатыми клавиши Ctrl+Alt - создастся проект для скачивания этого сайта с запомненными полями ввода.

Страницы: 1234567891011121314151617181920

Предыдущая тема: AutoCAD помогите с установкой


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.