Создание веб-сканера, который ищет похожие фотографии на Google и Янде
📝 ТЕХНИЧЕСКОЕ ЗАДАНИЕ
📌 Название проекта:
Web Scanner для поиска дубликатов изображений в Google и Yandex
🎯 Цель проекта:
Разработать инструмент, который позволяет:
Загружать фотографию (или несколько).
Выполнять поиск по изображению в Google Images и Яндекс Картинках.
Автоматически собирать URL-адреса сайтов, где найдены совпадения.
Выводить отчёт в виде таблицы (с возможностью экспорта в Excel / CSV).
Использовать как скрипт и/или через веб-интерфейс.
📦 Обязательные функции:
1.
Загрузка изображения
Через веб-интерфейс (HTML-форма или drag-and-drop).
Дополнительно: загрузка папки с несколькими изображениями.
2.
Поиск по изображению
Использовать Selenium или Playwright для автоматизации браузера.
Для Google:
Кнопка поиска по изображению.
Для Яндекс:
Поиск по изображению.
Загружаемое фото должно быть отправлено в поиск, и пользователь не должен видеть браузер (автоматический режим).
3.
Обработка результатов
Собрать:
Ссылки на страницы с совпадениями.
Названия сайтов (если возможно).
Скриншот фрагмента страницы (опционально).
Исключать ссылки на домены типа google.com, yandex.ru (если дублируются).
4.
Вывод результатов
Отобразить результаты в таблице:
Название изображения
Источник (Google / Яндекс)
URL найденного сайта
Время поиска
Сохранить как:
Excel (XLSX)
CSV
⚙️ Технологии и стек:
Цель
Инструмент
Ядро автоматизации
Selenium или Playwright (Python)
Интерфейс (если нужен)
Flask или FastAPI
Парсинг HTML
BeautifulSoup, lxml
Работа с изображениями
Pillow, imagehash (для будущего анализа)
Экспорт результатов
pandas, openpyxl
Хранение логов (опц.)
SQLite или JSON
🛡 Антибот-защита:
Обход reCAPTCHA не обязателен, но скрипт должен:
Уметь перезапускаться после ошибки.
Работать с Headless=False (чтобы в случае блокировки можно было войти вручную).
Поддержка прокси (опционально).
Ротация User-Agent.
🧪 Тесты:
Загружаем 5 тестовых изображений.
Получаем не менее 3 совпадений на изображение.
Проверка экспортируемого отчёта — открытие в Excel / Google Sheets.
Проверка корректности URL.
💡 Бонус (возможности для расширения в будущем):
Сравнение найденных изображений с оригиналом (по hash-сравнению).
Рассылка отчёта по email.
Telegram-бот для оповещений.
Личный кабинет с историей проверок.
⏱ Сроки:
MVP-версия (одиночный поиск + отчёт): 7–10 рабочих дней
Веб-интерфейс: +3 дня
Документация + инструкция по запуску: обязательно
📁 Входящие данные от заказчика:
Набор тестовых изображений (5–10 шт.)
Ожидаемый формат отчёта
Платформа: локально (на Windows/macOS/Linux) или сервер (VPS)
📌 Требования к разработчику:
Уверенное знание Python.
Опыт работы с Selenium / Playwright.
Умение обходить антибот-защиту.
Умение сделать стабильный, масштабируемый скрипт.
Готовность поддерживать/развивать проект.
Заявки фрилансеров
