Система для сбора тайтлов для 4 млн веб страниц, node.js
Есть база из около 4 миллионов URL. Нужно на node.js, примерно как описано тут:
http://letsnode.com/example-of-what-node-is-really-good-at
сделать систему, позволяющую собирать тайтлы для имеющихся адресов.
Важно собирать информацию именно асинхронно, потому что операцию надо будет время от времени повторять и она должна занимать минимальное время.
Тайтлы должны собираться в базу mysql, и к этой базе должен быть открыт доступ из phpmyadmin.
База должна быть такая:
адрес
тайтл
код ответа веб-сервера (если ответа нет, то null)
Всё это должно работать на Windows.
Как всё должно работать:
1. Я завожу VPS сервер на Windows
2. Вы туда устанавливаете node js, phpmyadmin
3. Пишете код, проверяете тестовой базой в 1 тыс. адресов, сообщаете что все ок и пишете мне, в какое место положить файл с реальной базой и как запустить процесс
4. Я заливаю на сервер реальную базу, запускаю процесс, как он завершается - я проверяю с помощью phpmyadmin, что все ок и расплачиваюсь.
Нужно все тайтлы привести к одной кодировке (юникодной), независимо от кодировки сайта.
Также нужно учесть редиректы - и брать тайтл с первого редиректа, дальше по цепочке редиректов идти не надо.
Пишите цены и сроки.
К срокам прошу относиться серьёзно и указывать сроки в календарных днях.