Создание графа семантически близких слов
Добрый день!
Задача в том чтобы для каждого распространенного слова русского языка определить слова наиболее близкие ему по смыслу (т.е. семантически связанные). Причем для каждой пары нужно определить силу связи, например от 1 до 100.
Для реализации можно использовать например API google, или парсить web-страницы (в сети есть пример разработки похожего приложения на java с разбором страниц википедии, если нужно найду ссылку).
Язык исполнения - PHP или Delphi.
Подзадачи:
1. реализация функции по заданному слову возвращающую список близких ему по смыслу слов и коэффициентов "связности".
2. Подготовка словаря распространенных русских слов (не менее 30000) и определение для каждого слова близких ему по смыслу.
3. то же самое для английских слов.
Просьба указывать стоимость и сроки реализации каждой подзадачи.
В работе можно использовать любые существующие сервисы, готовые скрипты, базы и т.п.
Если у кого есть готовая база с такими данными - готов купить, хотя функция определяющая близкие слова - все равно понадобиться.
И еще. Готов оплатить консультацию по вопросам использования google API.
P.S. проект пока не коммерческий, так что большого бюджета нет.