📝 ТЕХНИЧЕСКОЕ ЗАДАНИЕ

📌 Название проекта:

Web Scanner для поиска дубликатов изображений в Google и Yandex


🎯 Цель проекта:

Разработать инструмент, который позволяет:

  • Загружать фотографию (или несколько).

  • Выполнять поиск по изображению в Google Images и Яндекс Картинках.

  • Автоматически собирать URL-адреса сайтов, где найдены совпадения.

  • Выводить отчёт в виде таблицы (с возможностью экспорта в Excel / CSV).

  • Использовать как скрипт и/или через веб-интерфейс.


📦 Обязательные функции:

1.

Загрузка изображения

  • Через веб-интерфейс (HTML-форма или drag-and-drop).

  • Дополнительно: загрузка папки с несколькими изображениями.

2.

Поиск по изображению

  • Использовать Selenium или Playwright для автоматизации браузера.

  • Для Google:

  • Для Яндекс:

  • Загружаемое фото должно быть отправлено в поиск, и пользователь не должен видеть браузер (автоматический режим).

3.

Обработка результатов

  • Собрать:

    • Ссылки на страницы с совпадениями.

    • Названия сайтов (если возможно).

    • Скриншот фрагмента страницы (опционально).

  • Исключать ссылки на домены типа google.com, yandex.ru (если дублируются).

4.

Вывод результатов

  • Отобразить результаты в таблице:

    • Название изображения

    • Источник (Google / Яндекс)

    • URL найденного сайта

    • Время поиска

  • Сохранить как:

    • Excel (XLSX)

    • CSV


⚙️ Технологии и стек:

Цель

Инструмент

Ядро автоматизации

Selenium или Playwright (Python)

Интерфейс (если нужен)

Flask или FastAPI

Парсинг HTML

BeautifulSoup, lxml

Работа с изображениями

Pillow, imagehash (для будущего анализа)

Экспорт результатов

pandas, openpyxl

Хранение логов (опц.)

SQLite или JSON


🛡 Антибот-защита:

  • Обход reCAPTCHA не обязателен, но скрипт должен:

    • Уметь перезапускаться после ошибки.

    • Работать с Headless=False (чтобы в случае блокировки можно было войти вручную).

  • Поддержка прокси (опционально).

  • Ротация User-Agent.


🧪 Тесты:

  • Загружаем 5 тестовых изображений.

  • Получаем не менее 3 совпадений на изображение.

  • Проверка экспортируемого отчёта — открытие в Excel / Google Sheets.

  • Проверка корректности URL.


💡 Бонус (возможности для расширения в будущем):

  • Сравнение найденных изображений с оригиналом (по hash-сравнению).

  • Рассылка отчёта по email.

  • Telegram-бот для оповещений.

  • Личный кабинет с историей проверок.


⏱ Сроки:

  • MVP-версия (одиночный поиск + отчёт): 7–10 рабочих дней

  • Веб-интерфейс: +3 дня

  • Документация + инструкция по запуску: обязательно


📁 Входящие данные от заказчика:

  • Набор тестовых изображений (5–10 шт.)

  • Ожидаемый формат отчёта

  • Платформа: локально (на Windows/macOS/Linux) или сервер (VPS)


📌 Требования к разработчику:

  • Уверенное знание Python.

  • Опыт работы с Selenium / Playwright.

  • Умение обходить антибот-защиту.

  • Умение сделать стабильный, масштабируемый скрипт.

  • Готовность поддерживать/развивать проект.

18 часов назад
Олег
18 часов в сервисе
Был
22 минуты назад

Заявки фрилансеров

Никита
 
24 года
14 дней в сервисе
онлайн
7 часов назад
Назар
 
33 года
3 года в сервисе
онлайн
4 отзыва(-1)
18 часов назад