Посчитать болтунов на usatoday

Тер18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
16.01.2008

Задача в том, что бы собрать статистику отзывов на сатьи с сайта usatoday

К примеру есть статья: usatoday.com/money/industries/technology/2008-01-13-android-google_N.htm Внизу под ней есть отклики (aka "посты") типа

mre41 wrote: 1d 21h ago

I checked again today........still no robot. Dang

Я хочу получить от вас

1. файл с разбивокй по постам в виде:

| Дата поста | Пользователь оставивший пост | URL статьи | Дата выхода статьи | Репортер |

Файл должен быть xls или csv читаемый экселем(!). Если в нем окажется больше 64000 строчек, что есть лимит для экселя, то порубите его поквартально или помесячно.

2. Сведеный файл по количеству постов в день | Дата | Число постов |

3. Сведеный файл по количеству постов на пользователя | число пользователей именно с таким количеством постов | собственно число постов |

4. Сведеный файл по количеству постов на статью: | число статей именно с таким количеством отзывов | собственно число постов | (ноль отзывов - считается!)

5. Сводный файл по репортерам: | репортер | Среднее число отзывов на его статьи | (то есть делим суммарное число отзывов на число статей)

Все файлы должны быть с аккуратно прописанными заголовками колонок, открываться с одного клика и не требовать конвертации в понимаемый экселем формат. CSV for excel как говорится ну или сам xls. к аккуратности требования как к первому.

как отбирать статьи для статистики: идем на usatoday.com/community/tags/reporter-index.aspx список репортеров. В нем берем истории по каждому репортеру с 1-го декабря 2006-го по 15-ое января 2008-го.

Лучший способ получить проект это просто быстро все сделать и прислать. Отмечаю еще раз: мне не нужен скрипт собирающий статистику. Мне нужна сама статистика. Если у вас медленный интернет, то это задание не для вас.

PS я знаю что из первого файла легко получатся остальные.

PPS За присланый до 12=00 по EST USA на мой имейл результат - премия $100

Заявки фрилансеров