Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Есть база данных, в ней есть ссылки на сайты.

Требуется парсить контент с сайтов и добавлять в базу.

Предложения минимум 4 слова от первого слова с Заглавной буквы до точки.

Не брать предложения, которые оканчиваются многоточием или другими знаками препинания - ";" ":" и т.п.

Например, "В этой книге, последней из опубликованных знаменитым английским астрологом XVII в. Уильямом Лилли, под мостом ..." - Сохранится = В этой книге, последней из опубликованных знаменитым английским астрологом XVII в.

Не анкоры, т.е. берем только голый текст, если это предложение является анкором - игнорируется.

Если предложение до точки, но в ней есть какое-то слово, которое является анкором ссылки, но это слово с маленькой буквы. То тег

Не брать предложения, в которых есть цифры.

Не брать предложения, в которых есть слешы - \ или /

Не брать предложения, в котрых есть знаки препинания отличные, от тире, двоеточия, запятой.

Список может быть дополнен в процессе.

Перемешать все предложения в конце работы.

Есть аналог парсера контета с сайтов, уже готовый. Может пригодится, как база.

10 лет назад
Art-Media
Андрей 
37 летРоссия
19 лет в сервисе
Был
10 месяцев назад
Выбранный исполнитель
izimodo
Артем 
35 летУкраина
14 лет в сервисе
Был
год назад
10 лет назад
$70
2 дня
++
+