Сборщик треклистов
Написать парсер, который постепенно вычленил бы все треклисты в отдельную базу на сайте. Для дальнейшей интеграции треклистов на сайт.
страницы по этим адресам содержат треклисты.
http://www.discogs.com/release/1
http://www.discogs.com/release/150000
последние релизы имеют номер близкий к 1 500 000.
некоторые страницы пусты, вызывают ошибку или не найдены, это не означает конец каталога.
Тянуть информацию могут одинаковые скрипты с разных бесплатных серверов (разные айпи). А не с одного компьютера. Каждый скрипт может иметь таймер сна. Число секунд для паузы будет генерироваться в режиме рендом. Скрипты будут писать все сначала в разные базы. Потом подразумевается синхронизация баз в одну. Каждый скрипт будет тянуть свой диапазон страниц. Допустим по сотне тысяч на один скрипт. При остановке скрипта и последующем запуске, он должен тянуть ровно с того места , на котором остановился. Импорт всей базы займет таким образом не одну неделю.
Нужно учитывать все возможные нюансы обращения скриптов к серверу www.discogs.com, чтобы доступ с айпи серверов, на которых можно расположить скрипты, не закрыли.
В итоге нужно предоставить единую базу MySQL, в которой содержалась бы информация:
Имя исполнителя
Имя альбома
Label
Catalog
Format
Country
Released
Genre
Style
Notes
Rating (только число)
Tracklisting
Жду Ваши предложения по срокам и ценам.