Статус-кво
Этот документ дает краткий обзор о положении дел в
морфологическом анализаторе Коми
и его исходных файлах.
15 июля 2016
Статус для исходных файлов:
- Лексикон: лексика содержит 35806 записей (19129 существительных, 12191 глагол,
4486 прилагательных)
- Морфология: морфологические файлы 3494 строки, которые содержат 479 продолженных лексиконов.
По сравнению с 8234 строками и 1309 продолженными лексиконами для эрзя, работы еще много.
- Морфофонология: файл pv-phon.twolc составляет 253 строки. По сравнению с
514 строками для эрзянского языка, для Коми ситуация не так уж плоха.
Задачи на будущее:
- Проверка и правка морфологии и морфофонологии
- Интеграция коми-русского словаря в морфологический анализатор (ОК)
- Добавить больше слов:
- Проверять анализатор на текстовом материале,
а также добавлять новые слова
- Систематически добавлять русские заимствования: имена собственные
и технические термины (ОК)
- Работа по орфографии
- Нам надо создать корпус ошибок