이모저모#

Limitation#

KoML은 형태소 분석 후 패턴을 매치시키는 방식으로 동작해서 형태소 분석기의 성능에 의존적일 수 밖에 없어요. 형태소 분석은 MeCab을 이용하는데 Mecab의 형태소 분석 결과가 정확하지 않을 때가 종종 있어요.

예를들어 ‘지금 몇시야’ 같은 문장의 경우

[$지금/MAG, $_, $몇/MM, $시/NNBC, $야($이/VCP, $야/EF)/VCP+EF]

가 정확한 분석이지만 MeCab의 경우에는

[$지금/MAG, $_, $몇/MM, $시야/NNG]

‘시야’ 라는 명사(NNG)로 분석을 해버려요.

또 다른 예시로 ‘나의 이름은 현우야’ 라는 문장에 대해

[$나/NP, $의/JKG, $, $이름/NNG, $은/JX, $, $영우/NNG, $야[$이/VCP, $야/EF]/VCP+EF]

가 정확한 분석이지만 MeCab은

[$나/NP, $의/JKG, $, $이름/NNG, $은/JX, $, $현/MM, $우야/NNG]

처럼 현(관형사) + 우야(명사) 로 분석을 해요.


이런식으로 MeCab이 정확하지 않은 분석결과를 내게 되면 KoML 도 부정확한 결과를 가져오기도 해요.

TODO#

KoNLPy 등에서 제공하는 다른 형태소 분석기들 중 MeCab이 속도나 정확도 측면에서 가장 우수하다고 판단해서 현재는 MeCab으로만 지원돼요. 추후에 여러가지 형태소 분석기들을 선택해서 KoML에 적용할 수 있게끔 확장해 볼 수 있을 것 같아요.


To All#

KoML 프로젝트에 관한 질문 및 이슈 사항은 issues에 남겨주세요!


감사합니다 :)