Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

УКАЗЫВАЙТЕ СРАЗУ ЦЕНУ И СРОКИ (ЗАЯВКИ БЕЗ ЭТИХ ПАРАМЕТРОВ НЕ БУДУТ РАССМАТРИВАТЬСЯ)

СРОКИ – ГАРАНТИРОВАННЫЕ

Язык программирования – php, python, delphi, c++, c#.

Если ЯП delphi, c++ или c# – потребуются исходные коды в том числе.

Цель:

Определить сайт компании из массива выдачи по входным данным.

Входные данные:

TXT-файл со строками (формат данных – одно значение либо два значения через

запятую, значение – это любое словофраза через пробел), пример строки с

двумя значениями: Торговый дом Прометей, мебель.

Процесс:

Загружаем файл с входными данными. Нажимаем кнопку "Обработать". Скрипт читает

первую строку, вырезает запятые (если есть, заменяя пробелом) и

вставляет её в строку поиска и получает выдачу, а именно – только первые

10 результатов поиска. Далее скрипт открывает каждый URL выдачи и

обрезает его до главной страницы домена (домен может быть как 2го, так и

3го уровня). С каждого полученного домена скрипт идёт по первым 100

внутренним страницам и на каждой странице он ищет вхождение первого

значения из обрабатываемой строки и отдельно второго значения (если оно

есть) из обрабатываемой строки. Если более чем на 3х внутренних страниц

есть и первое вхождение и второе вхождение – то данный домен

записывается в результирующий файл. В 90% случаях при обработке одной

строки из загружаемого файла (полученных 10 страниц выдачи) – в

результирующий файл будет записываться только один домен. Если по данным

условиям не найдено не одного файла, то в результирующий файл

записывается значение "Не найдено".

Дополнительные функции:

- Если поле "Ключ AntiGate" заполнено, то капчи поисковых систем должны

обрабатываться антикапчей. Если поле не заполнено, но капчи попадаются –

то в логе (блоке хода выполнения) это должно как-то фиксироваться,

чтобы было понимание, что надо вставить ключ антикапчи.

- Если стоит только чекбокс "Яндекс" – то парсинг идёт только по поисковой системе Яндекс и результат пишется в файл yandex.txt

- Если стоит только чекбокс "Google" – то парсинг идёт только по поисковой системе Google и результат пишется в файл google.txt

- Если выбраны оба чекбокса "Яндекс" и "Google" – то поиск производится

по двум поисковым системам с получением двух результирующих файлов

yandex.txt и google.txt

- Скрипт должен работать в многопоточном режиме(!)

Интерфейс:

- Поле "Файл для обработки" с выбором файла для загрузки (обязательное поле).

- Поле "Ключ AntiGate" (не обязательно для заполнения)

- Чебоксы "Яндекс" и "Google" (по умолчанию оба выбраны)

- Кнопка "Обработать файл".

- Блок с ходом выполнения, а именно – сколько строк (или какой процент) обработался.

7 лет назад
page-404
Лепшин 
42 годаРоссия
7 лет в сервисе
Был
7 лет назад