Перевірка граматики для української в Languagetool

У цьому форумі обговорюються всі технічні питання, які стосуються програмного забезпечення тощо

Модератори: Танка, vitaly1, Листопад

Відповісти
Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Перевірка граматики для української в Languagetool

Повідомлення Andriy »

Хочу поділитися гарною новиною: нарешті вдалося допиляти підтримку української в двигуні перевірки граматики LanguageTool (http://languagetool.org/)
Поки що це лише основа: є словник частин мови на ~1млн словоформ, хоч і ще не зовсім дороблений, є базовий код на Java для підтримки української мови, і є пару десятків простих правил граматики: трішки пунктуації, трішки милозвучності (із-з, у-в), трішки кальок: «приймати участь» тощо, трішки узгодження: не дозволено мати прийменник перед дієсловом тощо. Також на деякі кальки (напр. активні дієприкметники) даються альтернативні варіанти.

Також додано найпростіші для реалізації правила з сайтів з мовними рекомендаціями (http://mova.kreschatic.kiev.ua, книжці Курило тощо).

Зі мною раніше контактувало декілька людей, зацікавлених в роботі над цим проектом, але без словника частин мови мало що можна було зробити, тепер база є і можна залучати більше людей. Цей двигун може працювати в LibreOffice/OpenOffice (є додаток), також є додаток для Firefox, і він може працювати окремою програмою або на веб-сторінці.

Щоб зацікавити ширше коло людей я виставив поточну версію на сайті http://r2u.org.ua/check, тож кожен може перевірити свій текст і помацати двигун. Зауважте: такий прорив у підтримці української зроблено після випуску останньої версії, тож в офіційному випуску нормальна перевірка української буде в наступній версії 2.2, наразі найкращим варіантом помацати є http://r2u.org.ua/check. Але якщо буде зацікавленість можна зробити нічну збірку додатку для Firefox та LibreOffice/OpenOffice.

Я проганяв двигун на текстах ДТ і він дещо показує (особливо на ранніх статтях з 2000-х років), також виловлює деякі речі в статтях з тієї ж вікіпедії.

Прохання до всіх згодувати йому 5-10 сторінок тексту і написати мені про свої враження. Зокрема:
* неправильні спрацьовування (фальшиві помилки)
* які правила конче треба додати (деякі правила реалізувати простіше ніж інші, напр. сталі сполуки найпростіше, щось де треба вважати на рід/відмінок трішки складніше, семантичні відмінності уловлювати взагалі поки не візьмусь — може колись потім)
* мовні помилки в повідомленнях
* інші зауваги

Зазначу наперед: найслабкіше місце орфографічної перевірки — власні назви.

До речі робота на таким проектом могла б стати непоганою курсовою або навіть дипломною, тож якщо маєте вихід на потенційно зацікавлених студентів — пишіть. /smile.gif" style="vertical-align:middle" emoid=":)" border="0" alt="smile.gif" />

Трішки докладніше українською про LanguageTool (і саме підтримку української в ньому) можна знайти тут: http://r2u.org.ua/languagetool/about
IgorKo
Коректор пильний
Повідомлень: 202
З нами з: П'ят червня 18, 2010 8:59 pm

Перевірка граматики для української в Languagetool

Повідомлення IgorKo »

/ah.gif" style="vertical-align:middle" emoid=":ah:" border="0" alt="ah.gif" />
Я не хочу виглядати надто категоричним, але маю свою думку:
у описі муляє слово КЛАЦНІТЬ. Якесь воно некрасиве.

Хотілось би мати локальну версію, бо не передбачаю
постійне сидження у мережі.

Ви програмно відімкнули праву "клацалку" у миші.
Це такий сумний жарт розробника? /sad.gif" style="vertical-align:middle" emoid=":sad:" border="0" alt="sad.gif" />

Движок сприймає код клавіші ТАБ, як перевід стрічки.

Можливо це не важливо, але це є.

Варто продублювати поле "перевірити" у верхній частині
вікна проги, або зробити її плаваючою і прозорою на фоні тексту.
Текст пояснення відділити від вікна перевірки.
На 10" нижня частина робочої повехні не тримається, тікаючи за межу видимості.

"Тату, а що таке ща̀стя?" слово щастя йде з помилкою, бо враховує
вплив службового символу " _ ̀ та _ ́ ".
А от до слів "поля́ і по́ля" повна байдужість.

Зрозуміло, що це "бета" і помилки зліквідують.
Загальне враження хороше. Як про мене, — чекатиму і сприйму тільки локальну версію.





Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Перевірка граматики для української в Languagetool

Повідомлення Andriy »

Дуже вдячний за відгук!
1. поміняв «клацніть» на «натисніть»
2. локальна версія є, але нормальна підтримка української з’явилася після виходу останньої стабільної версії (2.1) тож тре тягнути нічну збірку (http://www.languagetool.org/download/snapshots/?C=M;O=D). Там є окрема програма (для командного рядку і з графічним інтерфейсом), а також додаток для LibreOffice.org/Apache OpenOffice (.oxt). Проблема лише в тому, що зараз модуль української дуже інтенсивно розвивається тож вам доведеться звантажувати і оновлювати софт принаймні щотижня, щоб мати актуальний код.
3. Про ТАБ не зовсім зрозумів: тексти з табуляцією ніби перевіряє, а ТАБ у браузері переходить на наступне поле (зараз на посилання «форумі підтримки»), тож я не бачу проблеми
4. Я розробляю лише модуль української. Веб-інтерфейс — справа розробників LT і права кнопка мені самому муляє, на швидку я не знайшов як повернути контекстне меню, але запитаю в розробників втулку tinyMCE
5. Кнопку перевірити перекинув вгору, висоту поля трішки зменшив; я не хотів інструкції виносити, бо тре додатковий простір, оптимально було б зробити так, щоб інструкції по клацу зникали (як в HTML5 placeholder), але тут редактор нестандартний тож просто так не вийшло, ще подумаю над рішенням цієї проблеми (може навіть просто винести інструкції вниз, під поле...)
6. Модуль перевірки вміє ігнорувати стандартний символ наголосу (U+301) щоправда зараз є проблема з підсвічуванням помилок, що йдуть потім в реченні (вони зсуваються), все решта він сприймає як символи в слові. Я не зустрічав U+300 в українських текстах, хіба що в дуже спеціалізованих де тре розрізняти типи наголосів?.. Але якщо це дійсно вживається то додати до ігнорування U+300 не є проблемою
IgorKo
Коректор пильний
Повідомлень: 202
З нами з: П'ят червня 18, 2010 8:59 pm

Перевірка граматики для української в Languagetool

Повідомлення IgorKo »

Дякую за швидку реакцію. Спробую ще щось для перевірки придумати каверзне.
Зичу успішного плавання Вашому проекту! Добре було б дати йому якусь назву.
PS. Тексти користувачів не будуть такими жосткопримхливими, а з урахуванням, коли кожна наступна версія буде досконалішою, то звісно, перевірка з лихвою задовольнить пересічного споживача.

Удачі.

Ви вже намалюєте нам ланочку, де буде лежати доступна для завантаження версія.
IgorKo
Коректор пильний
Повідомлень: 202
З нами з: П'ят червня 18, 2010 8:59 pm

Перевірка граматики для української в Languagetool

Повідомлення IgorKo »

1. Вставте ваш текст замість цих інструкцій і натисніть кнопку «Перевірити».
2. Через кілька секунд можливі помилки будуть підкреслені
3. Натисніть кнопкою мишки на помилці, щоб отримати докладнішу інформацію.

Текст нижче піддався перевірці.
Спробуйте побачити те, що бачив я.
_______________

А потім пеленаєш ніжно,
Губами пестячи лице,
Творіння наше дивовижне
Руками взявши у кільце.

пеленаєш - не хибне, але таким стало.



І знову прохання: Змінити і Відділити пункти 1, 2, 3 у транспарант, поле пояснення з властивістю "тільки читати", а нижче робоче поле для едитування.

Заборонити біжучу, "підстрічкову" перевірку тексту підчас (підчас ± під час ·{ слова, що мають декілька варіантів написання виділяти
кольором відмінним від червоного}) введення тексту, аж до моменту викликання відповідної команди "перевірити".
"3. Натисніть кнопкою мишки на помилці"
Слово "помилка" - помилково написане слово, хибне слово. Помилка це - невірна одна, дві чи більше літер. Ми ж перевіряємо ціле слово.
IgorKo
Коректор пильний
Повідомлень: 202
З нами з: П'ят червня 18, 2010 8:59 pm

Перевірка граматики для української в Languagetool

Повідомлення IgorKo »

Оскільки "злий геній" вперто блокує праву кнопу мишки для виклику викидушки функцій виділення, копіювання і знищення, то прохання біля поля "перевірити" створити кнопу "очистити форму". Це спростить повторне звертання до програми з введенням нової порції їнформації.
Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Перевірка граматики для української в Languagetool

Повідомлення Andriy »

* пеленати додамо незабаром
* текст інструкцій виніс
* підчас — немає такого слова, правильне написання лише окремо
* помилка може бути як словом так і сполукою з декількох слів
* праве меню увімкнув
* кнопку «очистити» спробую, там через tinymce тре, з наскоку не вийшло...
IgorKo
Коректор пильний
Повідомлень: 202
З нами з: П'ят червня 18, 2010 8:59 pm

Перевірка граматики для української в Languagetool

Повідомлення IgorKo »

Є подвижка! Редагуємо текст, вилучаючи "замість цих інструкцій ",

Дивимось на результат перевірки:

капасітор
яблунецвітне
цнотно

пнись язикато
тіла розморив
з картин Ботічеллі

Напевне, відсутні у базі Словника слова не варто виділяти червоним підсвіченням. Жовтим, зеленим
Неологізми не є помилково писаними словами.
Парацюємо далі.
Andriy
Редактор вмілий
Повідомлень: 485
З нами з: П'ят листопада 10, 2006 2:38 pm

Перевірка граматики для української в Languagetool

Повідомлення Andriy »

капасітор
яблунецвітне
цнотно

в словниках не знайшов
пнись, розморив додано (буде на сторінці при наступному оновленні)

Ботічеллі — там напевне або мусить бути одне «л» або два «т» /smile.gif" style="vertical-align:middle" emoid=":)" border="0" alt="smile.gif" />

про інший колір тре подумати, насправді це типова практика підкреслювати орфографічні помилки червоним, а чи слово неправильне чи слова просто нема в словнику, програма про це не знає...

до речі, вийшов LanguageTool 2.2 з добряче покращеною підтримкою української
Відповісти