Необходимо напарсить качественную базу статей
Приветствую.
Необходимо напарсить качественную базу статей/новостей/обзоров по коммерческим тематикам. Без дублей. Откуда вы будете парсить контент - не имеет значения. Каждая статья должна находиться в отдельном .txt файле. На первой строчке в .txt файле должен быть заголовок статьи, на всех последующих, непосредственно, текст статьи. Тегов, ссылок, картинок, повторяющегося текста и прочего мусора быть не должно. Длина статей должна быть более 600 символов.
Главным образом, интересуют следующие тематики:
- Авто
- Компьютеры
- Путешествия
- Бизнес
- Банки
- Финансы
- Медицина
- Страхование
- Строительство
- Недвижимость
Кол-во статей по каждой тематике должно быть более 30 тысяч. Лучше - больше. Необходимое общее кол-во статей - 200 тысяч.
P.S. Если задание вам интересно, отпишите об этом в тендере, а не в личку. Заранее, спасибо.
P.S.S. Пример статьи в приложении.