Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Программное обеспечение Windows (http://forum.oszone.net/forumdisplay.php?f=7)
-   -   SiteDownloaders (http://forum.oszone.net/showthread.php?t=43493)

AlexKS02 08-01-2005 04:35 286650

SiteDownloaders
 
Выкачиваю я, допустим, сайтик. Есть там пара десятков обьёмных файлов, которые предварительно выкачаны вручную. Есть ли какая-то TeleportPro-подобная софтина с возможностью добавления в проект таких вот своих файлов (с указанием их полного пути, естественно, чтоб оно не пыталось их перекачивать..) ?
Заранее весьма благодарен!

Vadikan 08-01-2005 06:37 286656

wget. Он просто пропустит эти файлы, если они конечно не были изменены на сервер с момента закачки. Достоинства обсуждались неоднократно
http://forum.oszone.net/showthread.p...highlight=wget
http://forum.oszone.net/showthread.p...highlight=wget
http://forum.oszone.net/showthread.p...highlight=wget
http://forum.oszone.net/showthread.p...highlight=wget

mrcnn 08-01-2005 08:11 286661

Есть еще возможность установить фильтры на закачанные файлы... И мне кажется, что если просто скопировать файлы в директорию в которую скачивается сайт, то загрузчик сайтов их грузить не будет.. Обе возможности поддерживает Offline Explorer, который я юзаю.

AlexKS02 08-01-2005 09:19 286669

wget - это хорошо, но.. если на сайте используют в качестве ссылок абсолютные пути (типа www.herznasho.ru/arhiv.zip или /arhiv.zip) ? Может ли он локализовать такие ссылки? Вручную не предлагать.
фильтры.. а если файлы обновятся, как я об этом узнаю?

Vadikan 08-01-2005 10:18 286673

AlexKS02
Цитата:

но.. если на сайте используют в качестве ссылок абсолютные пути (типа www.herznasho.ru/arhiv.zip или /arhiv.zip) ? Может ли он локализовать такие ссылки?
Можно
Цитата:

k --convert-links
After the download is complete, convert the links in the document to make them suitable for local viewing. This affects not only the visible hyperlinks, but any part of the document that links to external content, such as embedded images, links to style sheets, hyperlinks to non-HTML content, etc. Each link will be changed in one of the two ways:
· The links to files that have been downloaded by Wget will be changed to refer to the file they point to as a relative link. Example: if the downloaded file /foo/doc.html links to /bar/img.gif, also downloaded, then the link in doc.html will be modified to point to ../bar/img.gif. This kind of transformation works reliably for arbitrary combinations of directories.
· The links to files that have not been downloaded by Wget will be changed to include host name and absolute path of the location they point to.
Example: if the downloaded file /foo/doc.html links to /bar/img.gif (or to ../bar/img.gif), then the link in doc.html will be modified to point to http://hostname/bar/img.gif.

mrcnn 08-01-2005 10:59 286677

Цитата:

если файлы обновятся, как я об этом узнаю?
В offline explorer можно выбрать 3 варианта загрузки сайта:
-- все файлы
-- модифицированные или новые файлы
-- все файлы которые еще не закачаны

Прога при выборе 2 варианта сама выяснит есть ли новые файлы и если есть, то закачает..

AlexKS02 09-01-2005 09:28 286913

2 Vadikan
Благодарствую! Именно то, что мне нужно. Плохо я, значит, маны читаю )

2 mrcnn
Тоже спасибо, скачаю на досуге - посмотрю.

Похоже, что подобные темы не раз поднимались.. А с моим интырнетом сильно много не почитаешь.... Но в другой раз буду пытаться получше )))

AlexKS02 17-01-2005 05:33 289206

вопрос №2; касаемо wget'a
всё в нём хорошо, но мультипоточности не хватает.. если на сайте 10.000 страниц по 10кб, а качать надо с модема, то согласитесь, в 10 потоков скачается быстрее, чем с 1. тем более, что сайт тормозной и на реквесты страниц идёт времени больше, чем на конкретную закачку.
вопрос относится и к никсовым, и к виндовым версиям

----edited
2Vadikan
ещё один сайт тяну..
wget -t 25 -w 10 --waitretry=10 -T 20 -k -r -l inf -nc http://www.ixbt.com
o.. и любуюсь ссылками типа file:///news/index.html
Ну и к полному счастью вообще не локализовались ссылки т.н. "шапки":
>> Коротко | Процессоры | Системные платы, память и чипсеты | блаблабла
что до ужаса неудобно.
Подскажите, что с этим делать?

Vadikan 17-01-2005 08:56 289239

AlexKS02
Цитата:

o.. и любуюсь ссылками типа file:///news/index.htm
Ну насколько я вижу их robots.txt, news запрещены. Надо игнорировать robots.txt тогда полностью... В справке целая страница об этом ;-)
Код:

wget -e robots=off url....
Это не очень этично делать, вообще-то. Поиграйте с таймаутами, чтобы это выглядело как запросы человека, а не спайдера (--random-wait).

Хм, большой сайт вы качаете на модемном соединении. Удачи :)

Добавлено: насчет мультипоточности верно подмечено. По кр. мере я не знаю как это сделать с wget.

AlexKS02 17-01-2005 09:48 289259

ещё раз благодарю! вроде как даже работает.. )
а справки в силу природной лени я досконально изучаю только к тем приложениям, где есть критическая необходимость.. proftpd с апачем например :)

дада, насчёт модемного соединения. не было бы у меня каждые 18мин35сек реконнектов - не мучался б с теми таймаутами.. хвала УкрНет! :\
Большой.. насколько примерно? если больше полгига, то ну его нафик...

Vadikan 17-01-2005 09:59 289266

AlexKS02
Цитата:

ещё раз благодарю! вроде как даже работает.. )
Пожалуйста ;-)
Цитата:

справки в силу природной лени я досконально изучаю только к тем приложениям, где есть критическая необходимость.
Ну не знаю... wget - консольное приложение, как же его еще изучать, если не через справку?
Цитата:

если больше полгига, то ну его нафик...
Думаю, что да. Просто предоложение. Я его практически не посещаю, но знаю, что там много тестов железа, сопровождаемых картинками. А картинок бывает много ;-)


Время: 11:49.

Время: 11:49.
© OSzone.net 2001-