Скрипт для сбора всех ссылок с сайта
На входе:
1) сервак на Ubuntu Server с каналом 100Мбит, с которого собственно и будет запускаться скрипт
2) сайт (не мой) с 3 миллионами страниц, общим объёмом, если его выкачать на винт – около 20Гб. Сайт - любой, а не какой-то один.
Нужно, чтобы скрипт максимально быстро (желательно чтобы всё упиралось в канал, а не в проц) обошёл рекурсивно весь сайт, и собрал все урлы из ссылок в текстовый файл. При этом – чтобы можно было делать ограничения на расширения файлов, т.е. например .html и .php – обрабатываются, а .mp3 и .pdf – игнорируются.
На каком языке это писать – предлагайте, мне важен конечный результат, стабильность работы, и, главное – скорость. Функционал и ТЗ более подробно обсудим уже в процессе. К примеру – быть может быстрее и проще будет выкачать весь сайт на винт, и лишь после этого – собрать из файлов урлы.
Пишите свои предложения с прайсами, приблизительными сроками, и прочей информацией, сюда или в личку, как вам удобнее.