Срочно! Доделать скрипт генерации контента.

Андрей19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
27.05.2014

Сроки 1 день, потому что это очень срочно и очень важно. Скрипты уже все готовые - нужно просто подправить, что бы заработало.

Имеется готовый скрипт, который работал, но перестал.

Логика работы:

- Скрипт заходит по ссылкам из базы (ссылки уже спаршены с Поисковых систем по этому конкретному ключевому слову), парсит только контент (текст) с каждого источника, чистит его по регуляркам. И формирует предложения, исходя из заданных настроек (% вхождения каждого из слов в ключевой фразе в спаршенном предложении и т.п.)

- Разбивает на отдельные предложения со всех источников.

- Эти предложения разбивает на части по запятым или другим предлогам или союзам, которые указаны в настройках.

- Мешает эти все части с разных источников и стыкует их вместе.

- Синомизирует % слов в каждом предложении, который указан в настройках.

- Выводит итоговую статью на страницу.

- Выводит краткое описание статьи (та же сгенерированная статья один-в-один, только первые 100-200 символов этого текста)

Задача:

1. Восстановить работу скрипта.

2. Поменять регулярки парсинга текста, что бы парсил вместо Русского текста - Англоязычный.

3. Отключить работу синомайзера (синомайзер работал с Русским контентом, сейчас будет Англоязычный - и актуальность в нём отпала).

4. Добавить дополнительный параметр в логику генерации итоговой статьи из всех предложений:

* После составления предложений из частей (после стыковки частей от предложений с разных источников) в каждом втором (задавать надо в настройках), что бы любое слово повторялось от 2 до 5 раз.

Пример:

Предложения после стыковки имеют вид:

Reducing the filing of our mental capabilities.

Find, locate and and most.

Body back to to to the us anytime day and.

После обработки будут:

Reducing the filing of our mental capabilities.

Find, locate locate locate locate and most.

Body back to the us anytime day and.

5. Сейчас парсер собирает только текст, без верстки и заносит это куда-то. Требуется добавить ещё функцию, где параллельно будет парсится и сама вёрстка от , без контента вообще. Это обговорим уже лично с исполнителем.