Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Хочу все знать (http://forum.oszone.net/forumdisplay.php?f=23)
-   -   Качалка сайтов (http://forum.oszone.net/showthread.php?t=69566)

OOOFort 08-08-2006 16:36 469666

Качалка сайтов
 
Привет!
Момогите! Мне нужна простая в применении и свою очередь эффективная качалка сайтов!
Кто что может подсказать буду благодарен!
Заранее спасибо!

Coutty 08-08-2006 16:50 469677

Teleport Pro

APOSTOL 08-08-2006 16:57 469679

HTTrack Website Copier


mrcnn 08-08-2006 18:20 469721

Offline Explorer на сегодняшний день лучшее из того, что я встречал.

Среди возможностей программы:
1. управление уровнями закачки сайта - весь сайт; текущий домен; текущая директория; N уровней на любых сайтах с заданной страницы + возможность задать фильтры по ключевым словам
2. управление расширениями закачиваемых файлов, возможность задать размер файлов которые нужно загружать
3. бан-лист на директории сайта при закачке всего сайта
4. поддержка закачки форумов и прочих скриптовых страниц
5. конвертирование ссылок
6. возможность создания настрроечных шаблонов
7. sheduling - стартование и остановка закачивания в опр. время, собственный диалер
8. просмотр страниц в саой проге как в браузере

Alex Cop 12-08-2006 04:00 471204

mrcnn
У оффлайногвого эксплорера есть один недостаток: у него нет централизованной базы данных, как у телепорта.

Например, если есть слабенькитй комп с маленьким винтом и качается большрой сайт, то ОЭпро неприменим, потому что если ты перенесёшь сохранёное в каталогах, то он будет всё качать заново. А в телепорте единая база данных проекта и он лишнего качать не будет...

Вердикт - Телепорт ультра и оффлайн эксплорер вместе решат почти все проблемы...

в некоторых случаях потребуется ещё свой парсер + Регет Делюкс - первое - чтобы извлекать то что нужно под себя(нкто не умеет , найдя в вебстранице что-то типа http://www.somesite.com/1/username/qwerty_thumb.jpg превратить его в http://www.somesite.com/1/2/qwerty.jpg, а переименовать в то , что находится рядом со ссылкой и имеет метку nickname). а второе чтобюы качать генерённое своим парсером. Но это уже надо уметь программить на чём угодно, хоть на джаваскрипте.

mrcnn 12-08-2006 14:55 471282

Alex Cop

Не будет он качать _все_ заново, если грамотно делать. Недавно понадобилось мне закачать заново сайт, причем закачать только новые файлы (перекачивать 400 МБ заново неохота). Старый закачанный сайт лежал в архиве, я разархивировал, начал закачку и закачал только вновь появившиеся файлы.
Насколько я понимаю, он просматривает уже существующий каталог с файлами и если там уже есть, закачивать не будет.

dmitryst 12-08-2006 14:56 471283

mrcnn Teleport Pro, вроде имеет режим обновления контента, т.е. качает только измененные файлы.

Alex Cop 12-08-2006 23:22 471367

mrcnn
В том то и дело, что для того чтобы он правильно всё качал нужно полное развёрнутое зеркало на харде даного сайта. а если сайт занимает 10 Гб, а места только 2 Гб? а если 800 Гб?

mrcnn 13-08-2006 04:57 471414

Alex Cop

Цитата:

а если сайт занимает 10 Гб, а места только 2 Гб? а если 800 Гб?
Suspend To File и напишу скрипт, который создаст пустые копии всех файлов.

Цитата:

а если 800 Гб?
500-600 мб это максимальный размер моих проектов. На практике не встречал проект размером 800 гб. Во-первых, места на винтах явно не хватит. Во-вторых, с моим диалапом столько я смогу скачать лет за 10-15, так что это заранее неразрешимая задача для моего компа в независимости от того, какую качалку использовать.

Предубеждение у меня с 2001 г. к телепорту про после того как я с его помощью когда-то давно не смог закачать форум и мне пришлось искать другие программы, которые способны с такой задачей справится. Такой программой стала Webcopier, но это глючная качалка сайтов, и я стал использовать Offline Explorer. Аналогичное предубеждение у меня к такой программе как флэшгет. А если есть предубеждение, я вряд ли буду использовать несмотря на то, сколько изменений внесли авторы.



Alex Cop 15-08-2006 02:18 472089

mrcnn
Гм, интересная идея! Скрипт методами самого Оффлайн эксплорера, или самому писать на чём-то(для меня не проблема)?
только вот пустой файл всё равно занимает размер кластера, так что тысяча файлов = 32 мегабайта, а 100 000 файлов - 3.2гБ - , НА ГРАНИ ТЕРПИМОСТИ... но зато если завинрарить, то будет мало.... хоть этот способ хорош, но всё1 равно как-то несколько... через ж... э, то есть чесать левое ухо правой рукой. но , впрочем, тоже вариант...

привести пример такого сайта? например сайт с кучей фильмов и музыки, и цифры что я назыал - не предел. знаю сайт, где 3 Тб. а траффик у меня в пике 100 Мбит на внутренние сайты... так что ....


mrcnn 15-08-2006 13:07 472263

Alex Cop

Цитата:

Гм, интересная идея! Скрипт методами самого Оффлайн эксплорера, или самому писать на чём-то(для меня не проблема)?
Самому на чем-либо. Для меня для работы с файлами наиболее удобен Perl.
Фильмы и музыку качаю пофайлово. Не использую для такой задачи Offline Explorer.

Alex Cop 16-08-2006 01:59 472681

а я пошёл дальше: сейчас пишу программу ,которая парсит файлы, которые качает Оффлайн Эксплорер, заодно занимается всеми вопросами хранения всех урлов в своей базе данных, а на выходе по запросу генерирует список для закачки для Reget Deluxe. свой парсер - лучше всего. недостаток - много времени надо, чтобы её отлаживать, ну а так - универсальное решение.

mrcnn 17-08-2006 13:08 473447

Цитата:

а я пошёл дальше: сейчас пишу программу ,которая парсит файлы, которые качает Оффлайн Эксплорер, заодно занимается всеми вопросами хранения всех урлов в своей базе данных, а на выходе по запросу генерирует список для закачки для Reget Deluxe. свой парсер - лучше всего. недостаток - много времени надо, чтобы её отлаживать, ну а так - универсальное решение.
А я вот писал перловый скрипт закачки сайтов и отдельных файлов. Работа с сокетами, парсер html, многоуровневая закачка со всех сайтов, обработка расширений закачиваемых файлов, работа с куками, шедулер, поддержка докачки как файлов так и сайта и т.п. Правда работает скрипт только по протоколу html, корректность получения файлов не проверяется, ссылки остаются несвязанными между собой, работает не со всеми сайтами и есть множество прочих недоработок.


Время: 11:20.

Время: 11:20.
© OSzone.net 2001-