Парсер youtube
Задача состоит из 2 частей.
Первая часть.
Парсер youtube, точнее данных о роликах (их адреса). Задача собрать максимальное количество роликов подпадающий под заданный запрос.
Те мы просматриваем как старые, так и вновь загруженные.т.е. при каждом новом запросе по данному слову мы используем разные фильтры поиска.
Плюс так же мы смотрим и схожие видео предлагаемое youtube до 5 вложений.
Итак, скрипт должен выискивать адреса видео роликов по указанному запросу (указываются в настройках) и схожими с ним видео.
Требуется найти максимально большое количество роликов по каждому запросу.
При этом не одного дубликата быть не должно!!
Т.е. перед добавлением проверяем нет ли такого кода уже в таблице.
Теперь особенности
В youtube адрес выглядит так
мы сохраняем только код
Имеется список
CRrLd-RCMRw
lNyV83CoIyg
xnO2Hajw7Qw
e9PVoazFrZI
QusOwC5nE5I
4nppYo-fVJU
VJhRVYa1KO8
MpZs2Z_eMEw
0QUEOzG8ex8
4fw9F5wCMBs
lc-cCSXRau0
gaxo6UzI3GM
3IrIPFaYp5A
VutdP-gnOS4
hzfpdd2sat4
1) Наша задача создать таблицы. Суть в том, что каждая таблица содержит только коды с определенной буквы. Т.е. либо с «a» либо с «А» и так для всего алфавита и цифр и спецсимволов.
Важно различие реестра.
Готов рассмотреть вариант деления по 2-5 первым символам. Или выслушать ваше предложения по оптимизации хранения указанных данных.
2) Так же полученный код мы размещаем в таблицу задание и добавляем код слова поиска и статусом обработано или нет.
В таблице не должно быть более 500000 кодов
Если более 500000 не обработанных кодов, то приостанавливаем работу парсера.
3) проверять есть ли обработанные коды и стирать их из таблицы.
Вторая часть.
Входные данные.
- Имеются таблицы код, поисковое слово
- список задания с кодами слов.
Задача создать многопоточный парсер информации о видео роликах на основании данных задания и занести это в таблицу
Должны получены данные отправленные в базу
1) Дата парсенга
2) запрос (слово). Берем из таблицы адресов.
3) названия ролика
4) дата добавление ролика
5) количество просмотров
6) количество лайков
7) количество дислайков
8) автор (имя если есть)
9) Не знаю возможно ли это, но хотелось бы знать есть ли реклама в ролике
10) Не знаю возможно ли это, но хотелось бы знать его длительность ( это можно посмотреть например во вкладке видео)
11) Получить информацию с какого раздела видео
12) его ник на youtube youtube.com/user/mnzadornov/ – > mnzadornov
13) !! описание к ролику
14) адрес ролика (код)
15) адрес канала (если возможно) www.youtube.com/channel/U... -> UCbMQvrm7kNe9sfALv8WhmLQ
16) количество комментариев
17) Во вкладке "видео" получить информацию, когда размещено последнее видео
18) если есть возможность то сколько всего видео на канале узнать
19) Во вкладке «о канале» получить данные о дате регистрации
20) Во вкладке «о канале» получить количество просмотров
21) Во вкладке «о канале» получить количество подписчиков.
22) Надо получить адрес видео для скачивания с максимальным качеством. Может какие внешние сервисы или какой алгоритм использовать.
Как только адрес из списка проверен (информацию спарсили) рядом с адресом в таблице задача: ставим единичку.
(цель подчищать задания и не копить все это)
Интересуют сроки
И цена за КАЖДУЮ часть
.