Парсер Тwittеr

Илья13 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
27.01.2012

Серверный (LAMP) скрипт с интерфейсом, сохраняющий в базу твиты определенных аккаунтов с поиском в этих твитах ссылок и сохранением содержимого.

1. опрос задаваемого списка аккаунтов на предмет наличия твитов, не занесенных в базу через регулируемый промежуток времени:

- занесение в базу - где взято, когда, текст/свойства твита;

- выделение в теле твита ссылок, занесение в отд. табличку (с проверкой не встречалось ли ранее);

- ссылки с определенных доменов - в отдельные списки (для списков с файлохранилищами);

- если ссылка с доменов pаstebin.com, pаste2.org - сохранение содержания пейстов с информацией в базе и поиск ссылок в них самих;

- сохранение содержания ссылки с пометкой в базе, что сохранено (возможность вручную проставлять чекбоксы "сохранения" на списке);

- если содержимое по ссылке > задаваемого размера, то сохранять содержимое не надо - отдельный список таких ссылок;

- ссылки часто будут "укороченными" (t.cо, bit.lу и т.д.), нужно сохранять в базе конечную ссылку.

2. регулируемая глубина "парсинга" твитов (все, последние n-дней, дата с * по *) задаваемая для каждого аккаунта отдельно

3. наличие странички статистики/статуса:

- идет ли какая-то обработка в данный момент;

- возможность запуска/остановки/задания регулируемых параметров прямо на страничке;

- список твит-аккаунтов с общим количеством твитов/количеством сохраненных, датой последнего/проследнего сохраненного;

- возможность просмотра списков/содержимого самих сохраненных твитов для каждого аккаунта;

- просмотр списков ссылок/пейстов в выводом информации (откуда/когда взято) с возможностью сортировки по источнику, наименованию, дате и т.д.;

- возможность в этих самых списках выделить галочками необходимое и скачать через браузер, как вариант с предварительной архивацией (как в гуглпочте - можно просто отдельные галочки, можно все на текущей странице, а можно вообще все).

Заявки фрилансеров