Парсер Тwittеr
Серверный (LAMP) скрипт с интерфейсом, сохраняющий в базу твиты определенных аккаунтов с поиском в этих твитах ссылок и сохранением содержимого.
1. опрос задаваемого списка аккаунтов на предмет наличия твитов, не занесенных в базу через регулируемый промежуток времени:
- занесение в базу - где взято, когда, текст/свойства твита;
- выделение в теле твита ссылок, занесение в отд. табличку (с проверкой не встречалось ли ранее);
- ссылки с определенных доменов - в отдельные списки (для списков с файлохранилищами);
- если ссылка с доменов pаstebin.com, pаste2.org - сохранение содержания пейстов с информацией в базе и поиск ссылок в них самих;
- сохранение содержания ссылки с пометкой в базе, что сохранено (возможность вручную проставлять чекбоксы "сохранения" на списке);
- если содержимое по ссылке > задаваемого размера, то сохранять содержимое не надо - отдельный список таких ссылок;
- ссылки часто будут "укороченными" (t.cо, bit.lу и т.д.), нужно сохранять в базе конечную ссылку.
2. регулируемая глубина "парсинга" твитов (все, последние n-дней, дата с * по *) задаваемая для каждого аккаунта отдельно
3. наличие странички статистики/статуса:
- идет ли какая-то обработка в данный момент;
- возможность запуска/остановки/задания регулируемых параметров прямо на страничке;
- список твит-аккаунтов с общим количеством твитов/количеством сохраненных, датой последнего/проследнего сохраненного;
- возможность просмотра списков/содержимого самих сохраненных твитов для каждого аккаунта;
- просмотр списков ссылок/пейстов в выводом информации (откуда/когда взято) с возможностью сортировки по источнику, наименованию, дате и т.д.;
- возможность в этих самых списках выделить галочками необходимое и скачать через браузер, как вариант с предварительной архивацией (как в гуглпочте - можно просто отдельные галочки, можно все на текущей странице, а можно вообще все).