한국어의 특징#

너무 많은 경우의 수#

챗봇을 만드는데 한국어는 다른 언어와 비교했을 때 너무 까다로워요. 정직하기만 한 컴퓨터 관점에서 한국어는 너무 바리에이션이 많거든요. 예를 들어 ‘너’가 ‘점심’에 ‘무슨음식’을 ‘먹었냐’ 라고 물어보고 싶을 때 영어로는 이렇게 물어보는 경우만 존재해요.

What did you eat for lunch?

하지만 우리 한국어는 표현할 수 있는 가짓수가 너무 많아요.

너 점심 뭐 먹었어?
너 점심 뭐 먹었니?
너 점심 뭐를 먹었니?
너 점심에 뭐를 먹었니?
너는 점심에 뭐를 먹었니?
.
.


품사 분석#

~은/는, ~을/를 같은 말들은 사실 그렇게 중요하지 않은 말일 수 있어요. 문장을 작은단위로 쪼개서 컴퓨터에게 어떤게 어떤 역할을 하는지 알려주면 챗봇을 만들기 조금 수월할 것 같아요.

$너/NP, $는/JX, $_, $점심/NNG, $에/JKB, $_, $뭐/NP, $를/JKO, $_, $먹/VV, $었/EP, $어/EF, $?/SF

복잡해 보이지만 문장을 작은 단위로 나누어 각각 어떤 역할을 하는지 태깅해둔거에요. 위와 같이 문장을 쪼갤 수 있는 가장 작은 단위로 쪼갠 것을 형태소라고 해요. 또 각각 무슨 역할을 하는지를 품사 라고 한답니다. 우리가 많이 쓰는 말인 동사, 명사, 형용사 가 품사에요.

품사의 종류는 여기서 확인해 볼 수 있어요. 품사 태그 표 확인!


품사 태그 표는 너무 어렵고 다 알 필요도 없지만 간단하게 이것만 기억하고 넘어가면 좋을 듯 해요.

1. 조사는 J로 시작한다.
2. 명사는 N으로 시작한다. 
3. 어미는 E로 시작한다. (ex: $먹/VV, $었/EP, $어/EF)
4. 특수기호는 S로 시작하고 SF는 마침표, 물음표, 느낌표 를 나타낸다.