Електронний список слів української мови

У цьому форумі обговорюються всі технічні питання, які стосуються програмного забезпечення тощо

Модератори: Танка, vitaly1, Листопад

Відповісти
Mace

Електронний список слів української мови

Повідомлення Mace »

Всім привіт, мені для дипломної роботи потрібен список слів української мови в електронному форматі(підійде будь-який текстовий формат). Слова повинні бути в "початковій формі"(називний відмінок однини для іменників, інфінітив для дієслів і т.п.), або, як варіант, для кожного слова повинні бути всі його форми(було б взагалі ідеально) з вказанням зв'язків. Можливо, хтось має такий список або знає, де його можна взяти? Кількість необхідних слів порядку 20000 і більше. Слова - найбільш широко вживані та технічного/наукового напрямку.
Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Електронний список слів української мови

Повідомлення Andriy »

Mace писав:
Нед січня 27, 2008 4:09 pm

Всім привіт, мені для дипломної роботи потрібен список слів української мови в електронному форматі(підійде будь-який текстовий формат). Слова повинні бути в "початковій формі"(називний відмінок однини для іменників, інфінітив для дієслів і т.п.), або, як варіант, для кожного слова повинні бути всі його форми(було б взагалі ідеально) з вказанням зв'язків. Можливо, хтось має такий список або знає, де його можна взяти? Кількість необхідних слів порядку 20000 і більше. Слова - найбільш широко вживані та технічного/наукового напрямку.

Вільні словники української мови для перевірки орфографії - те, що Вам треба:
- мають понад 100тис слів
- розбиті по галузях
- мають початкові форми, з яких можна легко отримати похідні (понад 1140 тис. словоформ)

ліцензії використання: GPL, LGPL або MPL
vitaly1
Коректор пильний
Повідомлень: 268
З нами з: Суб листопада 11, 2006 10:57 am

Електронний список слів української мови

Повідомлення vitaly1 »

Andriy писав:
Нед січня 27, 2008 4:09 pm

- мають початкові форми, з яких можна легко отримати похідні (понад 1140 тис. словоформ)

Можна детальніше?
Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Електронний список слів української мови

Повідомлення Andriy »

vitaly1 писав:
Нед січня 27, 2008 4:09 pm

Можна детальніше?

найпростіше:
1. розпакувати пакунок з сирцями
2. зробити 'make regtest'
3. в каталозі test буде файл all_aspell.lst, що містить всі словоформи
vitaly1
Коректор пильний
Повідомлень: 268
З нами з: Суб листопада 11, 2006 10:57 am

Електронний список слів української мови

Повідомлення vitaly1 »

Е-е-е-е... /smile.gif" style="vertical-align:middle" emoid=":)" border="0" alt="smile.gif" /> Це все стосується Лінуксу?

Перепрошую за чайникові питання, просто галузь для мене зовсім невідома. А ти міг би просто викласти десь оцей текстовик, що має вийти в результаті?

І чи можна отримати такий тестовик, в якому були б вказані частина мови та інші описання слова?
Mace

Електронний список слів української мови

Повідомлення Mace »

А можна десь знайти опис внутрішнього формату файлів uk-UA.aff та uk-UA.dic з архіву ukrainian_dictionary-1.4.9-fx+zm+tb.xpi або приклад роботи із ними на якійсь мові з серії С++/С#/Java?
Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Електронний список слів української мови

Повідомлення Andriy »

Mace писав:
Нед січня 27, 2008 4:09 pm

А можна десь знайти опис внутрішнього формату файлів uk-UA.aff та uk-UA.dic з архіву ukrainian_dictionary-1.4.9-fx+zm+tb.xpi або приклад роботи із ними на якійсь мові з серії С++/С#/Java?

Документація формату (hunspell)
код двигуна hunspell (здебільшого С++)

але якщо Ви не хочете будувати свій двигун, а просто додати підтримку правопису кудись, раджу просто взяти бібліотеку hunspell і використати її API, також є узагальнений API перевірки правопису pspell він працює зі словниками aspell і присутній, наприклад, в php...

і якщо вам просто треба маніпулювати словами, то в hunspell є декілька утиліт, які вміють розгортати слова в словоформи, пропонувати схожі слова і ще багато чого...

P.S. до речі, будь-яка допомога в розвитку і покращенню словника українського правопису вітається /smile.gif" style="vertical-align:middle" emoid=":)" border="0" alt="smile.gif" />
Mace

Електронний список слів української мови

Повідомлення Mace »

Дуже дякую. Ні, я не збираюся перевіряти орфографію, тема роботи - розробка системи автореферування тексту, платформа - дотнет, так що писати все доведеться самому, такі словники просто сильно спрощують життя в процесі підрахунку входжень слів у текст, адже потрібно якось визначати, що два різних за написанням слова насправді є одним і тим же словом, просто у різних формах.
Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Електронний список слів української мови

Повідомлення Andriy »

Mace писав:
Нед січня 27, 2008 4:09 pm

Дуже дякую. Ні, я не збираюся перевіряти орфографію, тема роботи - розробка системи автореферування тексту, платформа - дотнет, так що писати все доведеться самому

насправді, навпаки, власне, відкриті ПЗ мають перевагу, що надають досить гнучкі засоби, які можна використовувати для досить різних застосувань, наприклад в hunspell є команда analyze, працює приблизно так:

$ echo "синього" > test1.txt
$ ./analyze uk_UA.aff uk_UA.dic test1.txt
> синього
analyze(синього) = st:синій
stem(синього) = синій

тобто весь аналіз вже є, все що треба - це розібрати вивід analyze, тобто здебільшого для таких задач в Linux можна обійтись без жодного рядку коду, але й у вінді треба лише написати обгортку
якщо писати на с++ то можно просто вжити бібліотеку huspell
якщо писати на java те саме лише через jni або jna
про дотнет не знаю (не користуюся закритими платформами), але через виклик процесу має працювати без проблем хіба що повільніше
Відповісти