Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Требуется провести полный анализ новостного сайта

http://www.topix.com

Сайт представляет из себя новостной агрегатор. Автоматически парсятся новости с сети и выкладываются на сайте с разбивкой по категориям/подкатегориям.

Требуется изучить и понять механизм сставления/разбивки/добавления категорий на сайте. Алгоритм вычисления категории новости и тд.

Вот категори сайта

http://www.topix.com/dir

Они разбиты на главные и подкатегории.

Главные категории скорее всего составлялись вручную ТВ, Здоровье, а вот подкатегории уже создаются автоматом.

Пункты кот. необходимо осветить в отчете.

- Алгоритм определения категории/подкатегории новости.

По какому принципу и как определяется категория/подкатегория новости добавляемой на сайт.

Новости бывает пишутся сразу в несколько категорий, от чего это зависит.

- Алгоритм добавления новых подкатегорий.

Практически все подкатегории на сайте добавлены на 99% автоматически. Т.е. идет анализ текста, выделение ключевых слов и по какому-то алгоритму некоторые из них становятся новой подкатегорией. В дальнейшем уже идет анализ новых новостей по вхождению этого слова в тексте новостей.

То что добавление подкатегорий идет автоматически, можно увидеть по именам подкатегорий

7pm

247

Hard

Т.е. имена подкатегорий не связаны с какой-то определенной темой, а просто вычленын из текстов новостей по Какому-то алгоритму и им предан статус Категория.

Имена категорий, людей и тд, вроде как вычисляются по заглавным буквам слов/словосочетаний или слов в кавычках, например

I have "Book" - Book будет стоять в списке претендентов на название категории, если найдут еще какой-то процент подобных названий

We saw Pamela Anderson on the beach - Pamela Anderson - категория в именах.

- Алгоритм определения имен компаний/городов/стран/людей/марок автомобилей.

Вот подкатегории

http://www.topix.com/companies/list - список новостей по имени компании

http://www.topix.com/companies/list - список новостей по имени людей

http://www.topix.com/autos/list

Каким образом идет распознавание имени компании автоматом.

Как вариант, после имени стоит добавка Corp. или Ltd.

Еще на странице новости по компании, сверху выводится ее абривиатура на Бирже. Может быть как-то связано что изначально была распарсена база компаний на биржах и потом по ним идет поиск.

Но, аббривиатура не у всех компаний.

Какие еще варианты могут быть по выделению имен компаний.

Аналогично по имени людей, каким образом идет выделение имен людей из новости. По какому алгоритму. Пример с Памелой Андерсон был выше.

Вот еще пример:

http://www.topix.com/autos/list

Список автомобильных марок. Был ли он составлен вручную или аналогично схеме описанной выше спарсен с новостей?

Аналогично надо проанализировать все другие категории/подкатегории на сайте и вывести схему добавления категории и распознавания новости по данной категории.

Внимание:

Отчеты в виде фраз "ну они просто взяли список имен людей и распарсили по ним новости" не принимаются.

Там не все так просто, и помните, что все это делается на сайте автоматически :-)

Вот допустим список категории Люди

http://www.topix.com/who/list

В именах есть такое

21 Guns

22-20s

22 Brides

220 Volt

23 Skidoo

24-7 Spyz

2mex

Понятно что если бы парсинг был по списку существующих имен, такое бы туда не попало, значит это просто среднестатистическая ошибка скрипты парсера. Но все остальное более менее похоже на человеческие имена

Andrea Ferreol

Andrea Leeds

Andrea Marcelli

Andrea Marcon

и тд.

13 лет назад
sopla
71 годРоссия
15 лет в сервисе
Был
12 лет назад
  • Похожие заказы
  • Нужен человек для прогона сайта по: Русские форумы Английские форумы Английские форумы Русские форумы (Только успешные) Русские форумы (только .ru | по профилям) Русские форумы (по профилям) Английские форумы (по профилям) Русские ...

    Закрыт
    13 лет назад
  • Интересуют качественные прогоны по каталогам, пресрелизам, грамотный постинг в форумах и блогах и.т.д. Сразу объясню нужно не количество, а качества. Предложения типа прогоню сайт по 10 000 каталогов не интересует, хотьбы 500 нормальных каталогов в рунете ...

    Закрыт
    13 лет назад
  • Надо вывести в ТОП 5 сайт по запросам: заработок в интернете работа на дому Хочу услышать стоимость ключей по отдельности и сроки вывода каждого ключа. Адрес сайта в личке. Так же нужна перелинковка сайта. Новостей к началу раскрутке будет ...

    Закрыт
    13 лет назад
  • Вобщем ситуация такова есть у меня сайт http://movieshd.ru/ регистрировал в поисковиках gogle yandex и еще там в парочке каких то забыл уже, (больше негде) на данный день посещаемость 300+ хостов хотелось бы увеличить поднять тиц ...

    Закрыт
    13 лет назад
  • $100

    Необходимо проанализировать форум financeforum.ru и написать стратегию развития до критической массы (т.е до того момента когда пользователи начнут самостоятельно общаться). Цель форума: привлечь профессионалов и новичков по страхованию, бухгалтерии, трейдингу и т.д. Схема общения: новички задают ...

    Закрыт
    13 лет назад
  • Нужна небольшая консультация по поводу афилиата в яндексе. общение в аське. есть 5 вопросов на которые по моему сайту хочу получить ответ. соискатели без отзывов по сео заявки не оставлять

    Закрыт
    13 лет назад
  • Здравствуйте. Нужно составить семантическое ядро для сайта Центр развития потенциала. Примеры запросов по теме, от которых можно плясать: помощь психолога, личностный рост, тренинги, коучинг, личная эффективность, психотерапия Черновой вид сайта: test.potenzial.pro/ ОЧЕНЬ ЖЕЛАТЕЛЬНО учесть популярность и конкурентность запросов. КАНДИДАТЫ, НЕ ...

    Закрыт
    13 лет назад