Нужно отпарсить большой англ. сайт
Константин18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
06.07.2010
Есть сайт www.gutenberg.org
Там порядка 30 тыс книг
Нужно эти книги выкачать оттуда, очистить от копирайтов, разложить в папки по авторам.
Самое приемлемое - формат книг ТХТ
Статьи не брать.
Потом проверить ВСЕХ авторов:
1) если автор умер до 1940 года, то его оставлять
2) если автор умер после 1940 года, то его и его книги стирать
По моей оценке должно выйти 10 тыс книг, размером в 2гб.
Это и есть результат вашей работы.
Пишите предложения с ценой за всю эту работу