Посчитать болтунов на usatoday
Задача в том, что бы собрать статистику отзывов на сатьи с сайта usatoday
К примеру есть статья: usatoday.com/money/industries/technology/2008-01-13-android-google_N.htm Внизу под ней есть отклики (aka "посты") типа
mre41 wrote: 1d 21h ago
I checked again today........still no robot. Dang
Я хочу получить от вас
1. файл с разбивокй по постам в виде:
| Дата поста | Пользователь оставивший пост | URL статьи | Дата выхода статьи | Репортер |
Файл должен быть xls или csv читаемый экселем(!). Если в нем окажется больше 64000 строчек, что есть лимит для экселя, то порубите его поквартально или помесячно.
2. Сведеный файл по количеству постов в день | Дата | Число постов |
3. Сведеный файл по количеству постов на пользователя | число пользователей именно с таким количеством постов | собственно число постов |
4. Сведеный файл по количеству постов на статью: | число статей именно с таким количеством отзывов | собственно число постов | (ноль отзывов - считается!)
5. Сводный файл по репортерам: | репортер | Среднее число отзывов на его статьи | (то есть делим суммарное число отзывов на число статей)
Все файлы должны быть с аккуратно прописанными заголовками колонок, открываться с одного клика и не требовать конвертации в понимаемый экселем формат. CSV for excel как говорится ну или сам xls. к аккуратности требования как к первому.
как отбирать статьи для статистики: идем на usatoday.com/community/tags/reporter-index.aspx список репортеров. В нем берем истории по каждому репортеру с 1-го декабря 2006-го по 15-ое января 2008-го.
Лучший способ получить проект это просто быстро все сделать и прислать. Отмечаю еще раз: мне не нужен скрипт собирающий статистику. Мне нужна сама статистика. Если у вас медленный интернет, то это задание не для вас.
PS я знаю что из первого файла легко получатся остальные.
PPS За присланый до 12=00 по EST USA на мой имейл результат - премия $100