C/C++ код для разбивки текста на слова
Нужен код на С/С++, который будет делать следующее:
1) Выбирать из mysql базы некий текст
2) Разбивать его на "кейворды" - последовательности 1-2-3-4 слов.
Например, "один два три четыре" - это "один", "два", "три", "четыре", "один два", "два три", "один два три" и т.д.
3) Записывать эти "кейворды" обратно в базу.
Формат таблиц - какой угодно, запросы потом я перепишу. Разделителями считать точку, запятую, пробел. Но нужно, чтобы я потом мог легко дополнить этот список.
Программа будет работать как cron job.
Обязательно:
1) Нужна поддержка UTF-8! Это очень важное требование, все данные хранятся в utf8 и должны оставаться в этой кодировке, текст на румынском.
2) Нужно, чтобы программа компилировалась пакетом gcc (g++)
Желательно:
Завершить эту программу сегодня.