Полный анализ новостного сайта
Требуется провести полный анализ новостного сайта
Сайт представляет из себя новостной агрегатор. Автоматически парсятся новости с сети и выкладываются на сайте с разбивкой по категориям/подкатегориям.
Требуется изучить и понять механизм сставления/разбивки/добавления категорий на сайте. Алгоритм вычисления категории новости и тд.
Вот категори сайта
Они разбиты на главные и подкатегории.
Главные категории скорее всего составлялись вручную ТВ, Здоровье, а вот подкатегории уже создаются автоматом.
Пункты кот. необходимо осветить в отчете.
- Алгоритм определения категории/подкатегории новости.
По какому принципу и как определяется категория/подкатегория новости добавляемой на сайт.
Новости бывает пишутся сразу в несколько категорий, от чего это зависит.
- Алгоритм добавления новых подкатегорий.
Практически все подкатегории на сайте добавлены на 99% автоматически. Т.е. идет анализ текста, выделение ключевых слов и по какому-то алгоритму некоторые из них становятся новой подкатегорией. В дальнейшем уже идет анализ новых новостей по вхождению этого слова в тексте новостей.
То что добавление подкатегорий идет автоматически, можно увидеть по именам подкатегорий
7pm
247
Hard
Т.е. имена подкатегорий не связаны с какой-то определенной темой, а просто вычленын из текстов новостей по Какому-то алгоритму и им предан статус Категория.
Имена категорий, людей и тд, вроде как вычисляются по заглавным буквам слов/словосочетаний или слов в кавычках, например
I have "Book" - Book будет стоять в списке претендентов на название категории, если найдут еще какой-то процент подобных названий
We saw Pamela Anderson on the beach - Pamela Anderson - категория в именах.
- Алгоритм определения имен компаний/городов/стран/людей/марок автомобилей.
Вот подкатегории
http://www.topix.com/companies/list - список новостей по имени компании
http://www.topix.com/companies/list - список новостей по имени людей
http://www.topix.com/autos/list
Каким образом идет распознавание имени компании автоматом.
Как вариант, после имени стоит добавка Corp. или Ltd.
Еще на странице новости по компании, сверху выводится ее абривиатура на Бирже. Может быть как-то связано что изначально была распарсена база компаний на биржах и потом по ним идет поиск.
Но, аббривиатура не у всех компаний.
Какие еще варианты могут быть по выделению имен компаний.
Аналогично по имени людей, каким образом идет выделение имен людей из новости. По какому алгоритму. Пример с Памелой Андерсон был выше.
Вот еще пример:
http://www.topix.com/autos/list
Список автомобильных марок. Был ли он составлен вручную или аналогично схеме описанной выше спарсен с новостей?
Аналогично надо проанализировать все другие категории/подкатегории на сайте и вывести схему добавления категории и распознавания новости по данной категории.
Внимание:
Отчеты в виде фраз "ну они просто взяли список имен людей и распарсили по ним новости" не принимаются.
Там не все так просто, и помните, что все это делается на сайте автоматически :-)
Вот допустим список категории Люди
В именах есть такое
21 Guns
22-20s
22 Brides
220 Volt
23 Skidoo
24-7 Spyz
2mex
Понятно что если бы парсинг был по списку существующих имен, такое бы туда не попало, значит это просто среднестатистическая ошибка скрипты парсера. Но все остальное более менее похоже на человеческие имена
Andrea Ferreol
Andrea Leeds
Andrea Marcelli
Andrea Marcon
и тд.