Скрипт, демон для парсинга форумов
Требуется написать парсер который пройдет по форумам и соберет данные в базу такого формата
задача принимается в виде скрипта (или демона) который это сделает и базы собраных данных
формат базы такой, структура данных такая
парсер форумов и постов с Форума "http:// ".
1. Нужно получить список всех форумов, на сайте.
2. Получить список всех топиков в каждом из форума за последние 365 дней у которых есть ответы?
3. Получить список постов для соответствующих топиков.
В качестве хранилища используется Mysql. Кодировка базы UTF8.
Структура базы данных:
--
-- Таблица форумов
--
DROP TABLE IF EXISTS forums ;
CREATE TABLE forums (
`forum_id` int(11) unsigned NOT NULL auto_increment,
`source_forum_id` int(11) unsigned NOT NULL default '0', -- ID форума на сайте
`category_name` varchar(255) NOT NULL default '', -- Название категории
`forum_name` varchar(255) NOT NULL default '', -- Название форума
PRIMARY KEY (`forum_id`),
UNIQUE KEY `source_forum_id` (`source_forum_id`)
) DEFAULT CHARSET=utf8;
--
-- Таблица топиков
--
CREATE TABLE `topics` (
`topic_id` int(11) unsigned NOT NULL auto_increment,
`forum_id` int(11) unsigned NOT NULL default '0', -- ID форума
`author_name` varchar(255) NOT NULL default '', -- login(nickname) автора топика
`source_topic_id` varchar(10) NOT NULL default '', -- ID топика на форуме
`topic_name` varchar(255) NOT NULL default '', -- Заголовок топика
`topic_description` varchar(255) NOT NULL default '', -- Описание топика
`topic_update_date` datetime NOT NULL, -- Дата последнего обновления топика
`topic_post_count` int(11) unsigned NOT NULL default '0', -- Количество постов в топике
PRIMARY KEY (`topic_id`),
UNIQUE KEY `forum_topic` (`forum_id`,`source_topic_id`)
) DEFAULT CHARSET=utf8;
--
-- Таблица постов
--
CREATE TABLE `posts` (
`post_id` int(11) unsigned NOT NULL auto_increment,
`topic_id` int(11) unsigned NOT NULL default '0', -- ID топика
`author_name` varchar(255) NOT NULL default '', -- login(nickname) автора поста
`source_post_id` int(11) unsigned NOT NULL default '0', -- ID поста на форуме
`post_text` text NOT NULL, -- Текст поста
`post_bbcode_text` text NOT NULL, -- Текст поста с BB CODE
`post_update_date` datetime NOT NULL, -- Дата поста
PRIMARY KEY (`post_id`),
KEY `topic_id` (`topic_id`)
) DEFAULT CHARSET=utf8;
задача принимается в виде скрипта который сделал парсинг и базы собранных данных.
Оплата $150 за форум.