-
(안녕하세요. 오늘은 딥러닝 관련한 한국어 NLP에 대해서 작성해볼까 합니다.
인공지능에 관심이 있고 자연어 처리에 관심이 있으신 분들은 비교해서 보시길..
NLP란 무엇일까요? NLP란 자연어 처리를 의미하며 텍스트에서 의미있는 정보를 분석하고 추출해서 이해하는 것이라고 보시면 됩니다.
제가 알고 있는 한국어 형태소 분석기는 Twitter, KKMA, Mecab-ko 가 있습니다. 만약 이것 말고도 더 좋은 정보가 있다면 알려주세요!!
Twitter ( https://openkoreantext.org/ )
트위터가 속도는 가장 빠르지만 형태소 분석 품질은 속도에 비해서 낮은것 같습니다. 하지만 SNS에 맞춰진 만큼 실시간으로 처리해야 할 필요가 있다면 사용하기 좋은 것 같습니다.
KKMA( http://kkma.snu.ac.kr/documents/index.jsp )
서울대 개인이 만든것으로 추청이 됩니다.(저도 누가 만들었는지는 잘 모르겠네요)
분석 품질은 괜찮지만 속도가 느립니다.
명사라든지 인물에 대해서 불완전하게 동작합니다.
Mecab-ko
이것은 일본어 형태소 분석기이지만 mecab을 한국어로 사용 가능하도록 변환한 버전이 있습니다.이것은 C++로 개발한 것으로 보입니다.
( https://bitbucket.org/eunjeon/mecab-ko/ )
만약 이것을 사용한다면 저는 Scala로 변환된 것을 사용하는 것이 나을 것 같습니다. ( https://bitbucket.org/eunjeon/seunjeon )이유는 사용자가 사전을 추가할 수 있는 기능이 편리하기 때문입니다.
제가 생각할 때는 분명히 3개다 뛰어나게 좋지는 않습니다. 다만 이런것들을 제공하는 것 자체가 대단하다고 느낍니다. 이런 자연어 처리는 해외에는 무료로 제공해주는 업체가 많은 반면, 우리나라에서는 아직 제공해주는 곳이 없습니다.
형태소 분석기 성능 평가는 이곳에 들어가시면 좀 더 자세히 보실 수 있습니다.
http://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes
이것으로 포스팅을 마치겠습니다.
'IT 메뉴얼 & 관련 > IT 소식, 개발 소식' 카테고리의 다른 글
Apple이 Shazam인수를 하네요 (0) 2017.12.14 crawler(크롤러) 구조 잡는 방법에 대해서 알아보겠습니다. (0) 2017.12.08 다양한 Deep learning 플랫폼들 (0) 2017.11.26 2018년 배워볼만한 NoSQL을 소개합니다. 이번에는 꼭 배워봐요 ~ (0) 2017.11.25 adsense를 대체할 만한 광고 (1) 2017.11.24