Срочно! Доделать скрипт генерации контента.
Сроки 1 день, потому что это очень срочно и очень важно. Скрипты уже все готовые - нужно просто подправить, что бы заработало.
Имеется готовый скрипт, который работал, но перестал.
Логика работы:
- Скрипт заходит по ссылкам из базы (ссылки уже спаршены с Поисковых систем по этому конкретному ключевому слову), парсит только контент (текст) с каждого источника, чистит его по регуляркам. И формирует предложения, исходя из заданных настроек (% вхождения каждого из слов в ключевой фразе в спаршенном предложении и т.п.)
- Разбивает на отдельные предложения со всех источников.
- Эти предложения разбивает на части по запятым или другим предлогам или союзам, которые указаны в настройках.
- Мешает эти все части с разных источников и стыкует их вместе.
- Синомизирует % слов в каждом предложении, который указан в настройках.
- Выводит итоговую статью на страницу.
- Выводит краткое описание статьи (та же сгенерированная статья один-в-один, только первые 100-200 символов этого текста)
Задача:
1. Восстановить работу скрипта.
2. Поменять регулярки парсинга текста, что бы парсил вместо Русского текста - Англоязычный.
3. Отключить работу синомайзера (синомайзер работал с Русским контентом, сейчас будет Англоязычный - и актуальность в нём отпала).
4. Добавить дополнительный параметр в логику генерации итоговой статьи из всех предложений:
* После составления предложений из частей (после стыковки частей от предложений с разных источников) в каждом втором (задавать надо в настройках), что бы любое слово повторялось от 2 до 5 раз.
Пример:
Предложения после стыковки имеют вид:
Reducing the filing of our mental capabilities.
Find, locate and and most.
Body back to to to the us anytime day and.
После обработки будут:
Reducing the filing of our mental capabilities.
Find, locate locate locate locate and most.
Body back to the us anytime day and.
5. Сейчас парсер собирает только текст, без верстки и заносит это куда-то. Требуется добавить ещё функцию, где параллельно будет парсится и сама вёрстка от , без контента вообще. Это обговорим уже лично с исполнителем.