Електронний список слів української мови
Модератори: Танка, vitaly1, Листопад
Електронний список слів української мови
Всім привіт, мені для дипломної роботи потрібен список слів української мови в електронному форматі(підійде будь-який текстовий формат). Слова повинні бути в "початковій формі"(називний відмінок однини для іменників, інфінітив для дієслів і т.п.), або, як варіант, для кожного слова повинні бути всі його форми(було б взагалі ідеально) з вказанням зв'язків. Можливо, хтось має такий список або знає, де його можна взяти? Кількість необхідних слів порядку 20000 і більше. Слова - найбільш широко вживані та технічного/наукового напрямку.
Електронний список слів української мови
Mace писав: ↑Нед січня 27, 2008 4:09 pm
Всім привіт, мені для дипломної роботи потрібен список слів української мови в електронному форматі(підійде будь-який текстовий формат). Слова повинні бути в "початковій формі"(називний відмінок однини для іменників, інфінітив для дієслів і т.п.), або, як варіант, для кожного слова повинні бути всі його форми(було б взагалі ідеально) з вказанням зв'язків. Можливо, хтось має такий список або знає, де його можна взяти? Кількість необхідних слів порядку 20000 і більше. Слова - найбільш широко вживані та технічного/наукового напрямку.
Вільні словники української мови для перевірки орфографії - те, що Вам треба:
- мають понад 100тис слів
- розбиті по галузях
- мають початкові форми, з яких можна легко отримати похідні (понад 1140 тис. словоформ)
ліцензії використання: GPL, LGPL або MPL
Електронний список слів української мови
Е-е-е-е... /smile.gif" style="vertical-align:middle" emoid=":)" border="0" alt="smile.gif" /> Це все стосується Лінуксу?
Перепрошую за чайникові питання, просто галузь для мене зовсім невідома. А ти міг би просто викласти десь оцей текстовик, що має вийти в результаті?
І чи можна отримати такий тестовик, в якому були б вказані частина мови та інші описання слова?
Перепрошую за чайникові питання, просто галузь для мене зовсім невідома. А ти міг би просто викласти десь оцей текстовик, що має вийти в результаті?
І чи можна отримати такий тестовик, в якому були б вказані частина мови та інші описання слова?
Електронний список слів української мови
А можна десь знайти опис внутрішнього формату файлів uk-UA.aff та uk-UA.dic з архіву ukrainian_dictionary-1.4.9-fx+zm+tb.xpi або приклад роботи із ними на якійсь мові з серії С++/С#/Java?
Електронний список слів української мови
Документація формату (hunspell)
код двигуна hunspell (здебільшого С++)
але якщо Ви не хочете будувати свій двигун, а просто додати підтримку правопису кудись, раджу просто взяти бібліотеку hunspell і використати її API, також є узагальнений API перевірки правопису pspell він працює зі словниками aspell і присутній, наприклад, в php...
і якщо вам просто треба маніпулювати словами, то в hunspell є декілька утиліт, які вміють розгортати слова в словоформи, пропонувати схожі слова і ще багато чого...
P.S. до речі, будь-яка допомога в розвитку і покращенню словника українського правопису вітається /smile.gif" style="vertical-align:middle" emoid=":)" border="0" alt="smile.gif" />
Електронний список слів української мови
Дуже дякую. Ні, я не збираюся перевіряти орфографію, тема роботи - розробка системи автореферування тексту, платформа - дотнет, так що писати все доведеться самому, такі словники просто сильно спрощують життя в процесі підрахунку входжень слів у текст, адже потрібно якось визначати, що два різних за написанням слова насправді є одним і тим же словом, просто у різних формах.
Електронний список слів української мови
насправді, навпаки, власне, відкриті ПЗ мають перевагу, що надають досить гнучкі засоби, які можна використовувати для досить різних застосувань, наприклад в hunspell є команда analyze, працює приблизно так:
$ echo "синього" > test1.txt
$ ./analyze uk_UA.aff uk_UA.dic test1.txt
> синього
analyze(синього) = st:синій
stem(синього) = синій
тобто весь аналіз вже є, все що треба - це розібрати вивід analyze, тобто здебільшого для таких задач в Linux можна обійтись без жодного рядку коду, але й у вінді треба лише написати обгортку
якщо писати на с++ то можно просто вжити бібліотеку huspell
якщо писати на java те саме лише через jni або jna
про дотнет не знаю (не користуюся закритими платформами), але через виклик процесу має працювати без проблем хіба що повільніше