Скрипт для сбора всех ссылок с сайта

Nailz17 років у сервісі
Дані замовника будуть вам доступні після подання заявки
28.09.2009

На входе:

1) сервак на Ubuntu Server с каналом 100Мбит, с которого собственно и будет запускаться скрипт

2) сайт (не мой) с 3 миллионами страниц, общим объёмом, если его выкачать на винт – около 20Гб. Сайт - любой, а не какой-то один.

Нужно, чтобы скрипт максимально быстро (желательно чтобы всё упиралось в канал, а не в проц) обошёл рекурсивно весь сайт, и собрал все урлы из ссылок в текстовый файл. При этом – чтобы можно было делать ограничения на расширения файлов, т.е. например .html и .php – обрабатываются, а .mp3 и .pdf – игнорируются.

На каком языке это писать – предлагайте, мне важен конечный результат, стабильность работы, и, главное – скорость. Функционал и ТЗ более подробно обсудим уже в процессе. К примеру – быть может быстрее и проще будет выкачать весь сайт на винт, и лишь после этого – собрать из файлов урлы.

Пишите свои предложения с прайсами, приблизительными сроками, и прочей информацией, сюда или в личку, как вам удобнее.

Заявки фрілансерів