Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

УКАЗЫВАЙТЕ СРАЗУ ЦЕНУ И СРОКИ (ЗАЯВКИ БЕЗ ЭТИХ ПАРАМЕТРОВ НЕ БУДУТ РАССМАТРИВАТЬСЯ)

СРОКИ – ГАРАНТИРОВАННЫЕ

Язык программирования – php, python, delphi, c++, c#.

Если ЯП delphi, c++ или c# – потребуются исходные коды в том числе.

Цель:

Определить сайт компании из массива выдачи по входным данным.

Входные данные:

TXT-файл со строками (формат данных – одно значение либо два значения через запятую, значение – это любое словофраза через пробел), пример строки с двумя значениями: Торговый дом Прометей, мебель.

Процесс:

Загружаем файл с входными данными. Нажимаем кнопку "Обработать". Скрипт читает первую строку, вырезает запятые (если есть, заменяя пробелом) и вставляет её в строку поиска и получает выдачу, а именно – только первые 10 результатов поиска. Далее скрипт открывает каждый URL выдачи и обрезает его до главной страницы домена (домен может быть как 2го, так и 3го уровня). С каждого полученного домена скрипт идёт по первым 100 внутренним страницам и на каждой странице он ищет вхождение первого значения из обрабатываемой строки и отдельно второго значения (если оно есть) из обрабатываемой строки. Если более чем на 3х внутренних страниц есть и первое вхождение и второе вхождение – то данный домен записывается в результирующий файл. В 90% случаях при обработке одной строки из загружаемого файла (полученных 10 страниц выдачи) – в результирующий файл будет записываться только один домен. Если по данным условиям не найдено не одного файла, то в результирующий файл записывается значение "Не найдено".

Дополнительные функции:

- Если поле "Ключ AntiGate" заполнено, то капчи поисковых систем должны обрабатываться антикапчей. Если поле не заполнено, но капчи попадаются – то в логе (блоке хода выполнения) это должно как-то фиксироваться, чтобы было понимание, что надо вставить ключ антикапчи.

- Если стоит только чекбокс "Яндекс" – то парсинг идёт только по поисковой системе Яндекс и результат пишется в файл yandex.txt

- Если стоит только чекбокс "Google" – то парсинг идёт только по поисковой системе Google и результат пишется в файл google.txt

- Если выбраны оба чекбокса "Яндекс" и "Google" – то поиск производится по двум поисковым системам с получением двух результирующих файлов yandex.txt и google.txt

- Скрипт должен работать в многопоточном режиме(!)

Интерфейс:

- Поле "Файл для обработки" с выбором файла для загрузки (обязательное поле).

- Поле "Ключ AntiGate" (не обязательно для заполнения)

- Чебоксы "Яндекс" и "Google" (по умолчанию оба выбраны)

- Кнопка "Обработать файл".

- Блок с ходом выполнения, а именно – сколько строк (или какой процент) обработался.

7 лет назад
page-404
Лепшин 
43 годаРоссия
7 лет в сервисе
Был
7 лет назад