Очистка большого текстового файла на дубли и другое
Николай15 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
02.10.2019
Есть текстовой файл около 100мб
1. Нужно разбить файл на на строки- каждая новая строка начинается только с заглавной буквы или цифры, заканчивается .!?
2. Далее
-Удаляем предложения, в которых присутствуют любые символы отличные от английских букв, цифр, тире и запятой!!!
-Удалять предложения, в которых менее 8 слов.
3. Когда текст разбит построчно на предложения и очищен от мусора по фильтрам- чистим от дублей.