Ru-Board.club
← Вернуться в раздел «Программы»

» MetaProducts Offline Explorer™ / Portable Offline Browser™

Автор: OlegChernavin
Дата сообщения: 28.08.2009 14:59
Нет, тут принцип - научить ОЕ на примере одной страницы. Потом эти блоки будут искаться на всех закачанных страницах. Если блок найден, то ссылки будут качаться.

Так как все страницы с картинкой одинаковы, то достаточно обучить только на одной.

Потом уже можно добавлять и URL Фильтры если нужно и т.д. Все это будет совместно работать - сначала возьмутся блоки, потом из них ссылки будут фильтроваться, если нужно.
Автор: vkupriyanov
Дата сообщения: 29.08.2009 11:54
OlegChernavin
прошу прощения, действительно уже скаченные страницы не перекачиваются.
Качаю страницы используя offline в связке с анонимизатором a4proxy с настройками, рекомендованными на этом форуме. Сервер периодически банит используемые прокси, выдавая вместо полезной страницы, пустую с фразой "Вы заблокированы". Эту страницу ловлю опцией offline "Фильтр содержания" и не сохраняю. Проект приходится перекачивать для загрузки недостающих страниц. В связи с этим просьба - можете ли Вы добавить в "Фильтр содержания" проекта -> "Когда слова найдены на странице" галку "Перекачать страницу"?
Спасибо.
Автор: OlegChernavin
Дата сообщения: 29.08.2009 12:55
Это не сложно и сейчас сделать - после закачки запустить по Ctrl+F5 - не скачивать существующие файлы. Все несохраненные как раз и загрузятся.
Автор: vkupriyanov
Дата сообщения: 29.08.2009 13:16
вариант, но хотелось бы на автомате. Проблема в том, что скачиваются десятки тысяч страниц (без графики и прочего) со средним размером 4кб. Каждый новый запуск частично скаченного проекта приводит к зависанию интерфейса offline (от нескольких минут и дольше) и нагрузки на процессор. Впрочем судя по бегущему трафику скачивание идет. Перекачивать проект приходится многократно. Выловить забаненные прокси нет возможности.
Автор: DySprozin
Дата сообщения: 29.08.2009 14:16
искал по всей теме... как я понял, нет возможности настроить, чтобы при скачивании файла вместо _25EB_25EC_25AB... в его имени была кириллица? OEE 5.3.2908
Автор: Wizardzim
Дата сообщения: 29.08.2009 19:52
OlegChernavin
сколько будет стоить Ultimate версия?
И будут ли визуальные блоки в других версиях?
Автор: Frantishek
Дата сообщения: 30.08.2009 00:03
Маленький оффтоп. В который раз поражаюсь сам себе, когда в очередной раз, в маниакальном порыве, взялся что-то упорядочивать на своем компьютере.
Целый час набивал проекты, тщательно выдумывал названия папок, украшая их ярлыками, забивал ссылки и т.д.
И вот, знакомый, ничего не предвещающий хорошего, звук винды, и программа слетает, видимо устала ожидать в режиме простоя..
После запуска естестнно наблюдаю отсутствие своих трудов.
Резюме. Программа конечно же замечательная, но.. никогда не будет ничего надежнее простого карандаша и чистого листка бумаги.

Для формальностей. Версия портабл, последний билд.
Автор: OlegChernavin
Дата сообщения: 30.08.2009 16:36
vkupriyanov

Хорошо, подумаю, насколько сложно будет это сделать.

DySprozin

Пока нет, увы.

Wizardzim

Сложно сказать. Мне бы хотелось сделать ее доступной для многих пользователей. Но маркетинг хочет более дорогую версию, чем Enterprise. Скорее всего, получится так - Ultimate будет очень дорогой, выйдет осенью. Следующей весной будет 6-я версия, в которую перейдут многие возможности из Ultimate. А Ultimate 6.0 получит что-нибудь довольно специфическое для Law Enforcement рынка.

Так что визуальные блоки почти наверняка будут в Pro 6.0. Вместе с уже готовыми улчушениями в URL Substitutes диалоге, URL Фильтрах, Schedule Manager. Ведь это по сути возможности для массового применения. А Ultimate будет смещаться в сторону какого-нибудь весьма специфического корпоративного применения.

Frantishek

Сожалею, что так получилось. Но, думаю, что может остаться резервная копия файла webdown.dat, который содержит сами проекты. Восстановление описано в FAQ в шапке.
Автор: Frantishek
Дата сообщения: 03.09.2009 21:25
OlegChernavin
Спасибо, частично помогло.
Скажите, а насколько реально непрограммисту, работая в связке OB+TextPipe грабить контент, писанный по неким устоявшимся канонам (формулярам) с крупных портальных ресурсов, например описание фильмов с IMDB?
Т.е. сначала настраиваем загрузку по фильтрам/ключевым словам, а потом обрабатываем всю информацию задав некие паттерны и выплевываем результат в удобочитаемый унифицированный вид уже без мусора, в txt или csv...
Каковы реальные возможности, есть подводные камни?
Автор: OlegChernavin
Дата сообщения: 03.09.2009 21:50
Я думаю, вполне возможно. TextPipe очень мощная программа, только сложная в изучении. Мы сами собираемся сделать более простой инструмент, в котором можно будет настраивать вытаскивание данных визуальным способом - как Visual Wizard в Offline Explorer Ultimate. Но все руки не доходят закончить, хотя в качестве внутреннего инструмента мы его уже применяем.
Автор: korosya
Дата сообщения: 06.09.2009 16:21
Не могу скачать этот сайт www.radialix.ru. Точнее сам сайт скачивается, а вместо форума - какая-то непонятная страница. Настройки стандартные. Подскажите может нужны какие-то специальные настройки?
Автор: OlegChernavin
Дата сообщения: 06.09.2009 20:27
Вроде все стандартно - я создал проект с адресом http://www.radialix.ru/index.php/forums
Уровень=1 - все нормально скачалось. Для полного скачивания форума нужен уровень 3 или 4.
Автор: korosya
Дата сообщения: 06.09.2009 22:26
OlegChernavin
Я хочу скачать весь сайт, а не только форум. Создаю проект с адресом www.radialix.ru. Сайт скачивается. При переходе на форум главная страница открывается, а при переходе в любой подфорум открывается непонятная страница. Под # я привел html-код этой страницы.
Автор: OlegChernavin
Дата сообщения: 07.09.2009 15:56
Скачал с уровнем=2, форум и первые страницы со списками тем выглядят нормально. Я использовал альтернативный метод соединения в версии 5.6 SR2.
Автор: korosya
Дата сообщения: 08.09.2009 20:25
OlegChernavin
Никак у меня не получается . http://rapidshare.com/files/277325388/Radialix.7z - настройки и то что скачалось. Если есть возможность - посмотрите, плиз.
Автор: OlegChernavin
Дата сообщения: 09.09.2009 13:49
Это похоже просто на какую-то ошибку PHP на сайте. Попробуйте удалить эти файлы и закачать в режиме "Не скачивать существующие файлы". Возможно, что серверу тяжело дается одновременная закачка многих страниц. В таком случае можно добавить строку:

Channels=1

В поле адресов проекта, чтобы не перегружать сервер.
Автор: korosya
Дата сообщения: 10.09.2009 13:15

Цитата:
Channels=1

Заработало. Спасибо!
Автор: OlegChernavin
Дата сообщения: 11.09.2009 00:27
Значит действительно сервер глючил, когда к нему сразу несколько потоков обращались.
Автор: vkupriyanov
Дата сообщения: 11.09.2009 17:16
OlegChernavin
Спасибо за возможное развитие программы. В идеале было бы отлично если она впитала в себя возможности a4proxy поскольку обратной связи между программами очень не хватает (управлять a4proxy из offline).
Другая проблема стоит остро: Проект содержит несколько тысяч html весом 5кб каждая. При докачке интерфейс программы зависает на некоторые время (несколько минут и больше), загрузка процессора >90%. Как можно снизить эффект?
Автор: Nbb
Дата сообщения: 12.09.2009 10:53
подскажите как можно выкачать картинки с ellf.ru чтобы Offline Explorer создавал папки с названиями галерей откуда качает ?

сейчас создает имя_проекта\www.ellf.ru\uploads\oldimages\thumbs\%&Ovr1\
и там разные картинки.
по названиям можно понять из какой галлереи, но свалено все в кучу.

или имя_проекта\www.ellf.ru\uploads\posts\2009-08\%&Ovr0\
тоже самое

не только %&Ovr папки создаются. прямо в имя_проекта\www.ellf.ru\uploads\posts\2009-08\ тоже насыпано много. лежат также с названиями понятными, листаются по порядку.
--
правильно понял, что если в свойствах проекта-фильтры URL-имя файла в маски исключения имен файлов добавить маску thumbs , то не будут качаться превьюшки картинок?
Автор: giger2
Дата сообщения: 13.09.2009 17:40

Цитата:
TextPipe

Супер программа. Давно искал нечто подобное.
Автор: asdf8
Дата сообщения: 14.09.2009 17:42
Помогите разобраться с одной проблемой.
Нужно сохранить несколько страниц с запароленного форума на движке ipb со всем содержимым с этих страниц (url вида index.php?showforum=123). Указал адреса нужных страниц, настроил фильтры url, уровень = 0.
В общем все закачалось, кроме аттачей (url вида index.php?act=attach&type=post&id=123).
Аттачи начинают качаться, только если выставить уровень =1, при этом, соответственно начинают закачиваться ненужные страницы форума. Траффик у меня не безлимитный.
Итак, вопрос: можно как-то закачать аттачи при уровне = 0 и, если нет, достаточно ли добавить в список разрешенных url список страниц для закачки, чтобы не закачивались ненужные страницы?
Автор: lbu
Дата сообщения: 14.09.2009 21:50
вопрос похоже снят. ситуация разрешилась
Автор: Zakkazak
Дата сообщения: 16.09.2009 13:46
OlegChernavin
Предлагаю сделать небольшое изменение в поведении программы при подключении.
Нижеописанное относиться только к случаю, если ОЕ сам набирал номер подключения

1.ОЕ востанавливает соединение после того, когда отключаю соединение из системного трейа, хотя в этот момент ни один из проектов не скачивается
Вроде бы Ое не должен пытаться востанавливать соединение,
если юзер из трея вырубат интернет для всех программ, если конечно в этот момент программа не занята скачкой.
Автор: Zakkazak
Дата сообщения: 17.09.2009 18:44
для тулбара появились новые кнопки для настройки Проекта..

Автор: OlegChernavin
Дата сообщения: 18.09.2009 13:11
vkupriyanov

А какие именно возможности из a4proxy нужны?

Насчет докачки - как именно Вы ее делаете (Ctrl+F5, Shift+F5, не скачивать существующие файлы в настройках проекта или как-то еще)?

Nbb

Offline Explorer создает папки в соответствии с адресами URL. Так что структуризация зависит только от создателей сайта - как они адреса там делают. Ovr папки - это когда в ней накапливается больше 1000 файлов, делаются такие подпапки.

thumbs - это нужно в Фильтры URL - Каталоги. И в Фильтрах Файлов - Изображения - поставить "Загружать с помощью Фильтров URL" в поле Расположение.

asdf8

Нужно сделать уровень=1, Фильтры URL - Имена файлов - добавить в список включенных имен:

index.php?act=attach

Zakkazak

Насколько помню, восстанавливается соединение только при скачивании. Посмотрю.
Автор: mopset
Дата сообщения: 20.09.2009 13:22
А можно ли сделать, чтоб каждый проект, скачивался в отдельную, заданную для него папку? есть ли возможность задавать для каждого проекта папку скачивания, кроме как изменения папки загрузки в настройках?
Автор: DreadMaster
Дата сообщения: 20.09.2009 16:20
Есть ли возможность сворачивания в трее(я не нашел как) ? Планируется ли добавить, если нету ?

Добавлено:
Где хранятся настройки программы (списки проектов и всё с этим связанное), чтобы после переустановки винды можно было подсунуть, а не закачивать по новой всю карту сайта(500 тыс. файлов).

Добавлено:
Про списки проектов в факе нашел. А чтобы сохранять при выходе из проги очередь файлов, надо Загрузка-Приостановить проект в файл ?
Автор: Zakkazak
Дата сообщения: 21.09.2009 10:10

Цитата:
Есть ли возможность сворачивания в трее(я не нашел как) ?

есть , предпоследняя ветка в настройках.


Цитата:
чтобы после переустановки винды можно было подсунуть, а не закачивать по новой всю карту сайта(500 тыс. файлов).

желательно в настройках изменить папки хранения файлов. По умолчанию программа сохраняет их в системном разделе

mopset

Цитата:
А можно ли сделать, чтоб каждый проект, скачивался в отдельную, заданную для него папку?
для папок можно задать директорию, для каждого проекта в отдельности нет..
Автор: Regest
Дата сообщения: 23.09.2009 09:22
Ни как не могу настроить чтобы программа скачивала файлы с русским языком

Пример: http://waper.ru/file/1039503/
получаю: (Менеджер_загрузок)_Mobile_Pamp.jar

Страницы: 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364

Предыдущая тема: Unreal Commander


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.