Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Требуется написать программу на ЯВЕ с интерфейсом для сбора и специальной обработки новостных статей.

Программа должна задействовать функционал двух существующих опенсорс библиотек (с хорошей документацией на английском и фидбеком от авторов). В них реализован почти весь необходимый функционал - в основном, надо будет рефакторить.

Допустим, у нас собрана коллекция из 1000 статей. Для S-Space (проги, которую я линковал) эта коллекция должна быть представлена в виде одного текстового файла, где каждая строка - это отдельный документ. Т.е. в файле будет 1000 строк.

В самом s-space есть утилиты для приведения любых коллекций к такому виду

Это типа входные данные

Остальное, насколько я понимаю, делает сам алгоритм ЛСА из класса lsa

s-space это пакет, функционал которого и нужно применять http://code.google.com/p/airhead-research/

http://code.google.com/p/airhead-research/wiki/LatentSemanticAnalysis

вот тут описание

только прога, состоящая из вызовов типа

"java -jar lsa.jar -d corpus.txt my-lsa-output.sspace" (если так можно вообще) не годится, потому что мне там потом править надо будет некоторые вещи.

Все необходимые Jar'ы должны быть импортированы в проект.

точнее не джары, а их исходники, если это не одно и то же.

я не знаком с этой пакетной структурой

в проге условно есть три части (сбор, построение пространства, кластеризация). И это надо в интерфейсе отобразить.

Сделать три вкладки-страницы, на каждой свои настройки.

На вкладке сбора страниц должны быть:

1)выбор файла с конфигом (текстовика с адресами новостных лент).

2)кнопка "собрать", которая собирает статьи

3)таблица типа датагрида, в которой отображается собранная инфа. Инфа должна включать, с какого ресурса статья, точный линк, категория (спорт, политика и т.д., если такое поле у них есть), заголовок, индикатор повтора, а также чекбокс.

4)внизу (под таблицей) должны быть кнопки "выбрать все" и "очистить выбор", которые массово чекают чекбоксы в таблице.

5) кнопка "сохранить", которая сохраняет отмеченные галками статьи в файл.

помимо файла со статьями пополняется файл с точными линками на сохраненные статьи.

Если при повторном сборе загрузится статья, которая уже была сохранена, то в таблице у нее должен быть отображаться индикатор повтора, а чекбокс не отмечен.

у всех остальных статей по дефолту чекбокс отмечен

в текстовый файл со статьями сохраняется только сам текст статьи

каждая статья - в отдельную строку

такое вроде требование к входным данным у этого s-space

По поводу ЛСА.

http://code.google.com/p/airhead-research/wiki/LatentSemanticAnalysis

В интерфейсе этого этапа должна быть следующее:

1)Возможность выбора входного файла с коллекцией. (С кноппочкой "Browse")

2)Текстовое поле "Размерность" (ключ -n на странице из линка)

3)Дропдаун "Препроцессорная обработка" с тремя вариантами (Log-Entropy, TFIdf, None). (ключ -p)

4)Текстовое поле "Количество слов в документе" (ключ -z).

5)Дропдаун "Стемминг" с вариантами "нет", "русский", "английский" (ключ -Z). Нужно убедиться, что там есть стемминг для русского языка.

6)Формат выходного файла. Там есть четыре возможных формата. Для каждого формата должен быть заведен лейбл, редактируемое текстовое поле с вписанным туда дефолтным именем и чекбокс.

Если чекбокс отмечен, то файл такого формата с таким именем создается. Файлы создаются в какой-нибудь дефолтной папке.

Дефолтные имена для форматов: result_text, result_bin, result_text_sparse; result_bin_sparse.

7)Кнопка "Старт"

вторая - webharvest http://web-harvest.sourceforge.net/

я ее уже линковал

13 лет назад
LiderJob
Иван 
39 летРоссия
16 лет в сервисе
Был
3 года назад
  • Похожие заказы
  • $25

    Делфи нужно сделать программу построения взвешанного неориентированного графа, разбиение этого графа на максимально связанные подграфы, и потом обратно собрать в один граф. срок 2 дня

    Закрыт
    13 лет назад
  • $100

    Необходимо проанализировать предоставленные access-логи для сайта www.tee-shirt.ru на предмет поведения и маршрутов следования посетителей, загрузивших в течении одного сеанса (сессии) определенную страницу и определенное изображение с сайта. Целевая страница: <> или <> (без www). Целевое изображение: <> или <> (без www). Нужно ...

    Закрыт
    13 лет назад
  • Требуется разработать под Windows приложение для ВИДЕОзвонков на скайп. Подробности при общении. Опыт подобных разработок ОБЯЗАТЕЛЕН. Жду резюме и краткие описания реализованных проектов на [email protected]

    Закрыт
    13 лет назад
  • $100

    Необходима программа для Android для добавления купюр на сайт "Гривна-путешественница" (www.grn-trip.com). Функционал: - Программа должна хранить введенную информацию офлайн (Форма для ввода, как на стартовой странице сайта + GPS-координаты текущего местанахождения). - При наличии интернет-соединения - синхронизироваться ...

    Закрыт
    13 лет назад
  • Необходимо до 15:00 28-го числа выполнить 4 любых (желательно не самых простых) задания из списка во вложении. Описание ввода и вывода и пару примеров находятся во вложении. Задач на выбор 18 штук. 1. Для ордерева определить все его автоморфные ...

    Закрыт
    13 лет назад
  • Доброго времени суток, уважаемые фрилансеры! Краткое описание: Выполнение прикладной части проекта, то есть создание программы оптимизации времени работы станов горячей прокатки. Оптимизация может происходить путем применения обычного GA или DNA-GA. Никаких специальных знаний по металлургии ...

    Прикладное ПО1 исполнитель
    Завершен
    13 лет назад
  • $30

    Программа должна работат в двуx режимах 1. указиваеш домен и программа бродит по заданному домену по разним линкам.. но не переходя на другие саити. 2. указиваеш домен и программа берёт из етово домена слова, и по етим ...

    Прикладное ПОнет заявок
    Закрыт
    13 лет назад
  • $250

    Приветствую всех. Требуется программист уже работавший с данным протоколом, либо который мог бы в нём оперативно разобраться. Обязательно требование это наличие определённого числа положительных отзывов (не обязательно только на этом сайте). связь 557807754

    Закрыт
    13 лет назад