mecab-ko-dic(2)
-
[KoNLPy] 은전한입(mecab) 사용자 사전 단어비용 조절하기
이전 포스팅에서는 사용자 사전을 추가해서 내 입맛에 맞게 형태소 분석을 하는 방법을 알아보았습니다. 하지만 아직 완전하게 결과를 받기에는 한 가지 과정을 더 거쳐야 합니다. ❓ 단어비용 단어 비용은 앞서 mecab 사용자 사전의 레코드 구조에서 네번째인 '가중치(단어비용)'입니다. 이 단어의 검색 우선순위를 부여해서 같은 단어인데 태그가 다른 경우 어떤 것을 우선시 할 것이냐?로 간단하게 이해해주시면 됩니다. 단어 비용은 낮추면 검색 우선순위가 높아집니다. 이걸 자꾸 헷갈려서 찾아보는 경우가 많았는데, 숫자와 우선순위를 반대로 생각하면 간단합니다. 우선순위를 👍 높이고 싶다면 단어 비용은 반대로 👎 작은 숫자를 부여해주세요. 💰 단어비용을 조절해보자 이제는 실제로 단어비용을 높여서 원하는 결과를 가져와봅..
2020.11.30 -
[Python] KoNLPy mecab / mecab-ko-dic 설치하기
KoNLPy는 형태소 분석 파이썬 패키지로, kkma나 Komoran, Twitter, mecab 등 다양한 tag 패키지가 있습니다. 그중에서도 mecab을 쓴 이유는, 문장에서 '의약품명'을 추출하기 위해서 사용자 사전을 써야하기 때문이었습니다. 🔨Mecab-ko / Mecab-ko-dic 설치 mecab을 사용하려면 KoNLPy 설치와 별도로 mecab-ko와 mecab-ko-dic을 둘 다 설치해줘야합니다. 먼저 각각 최신 tar.gz 파일을 다운로드해주세요. 현재 최신 파일인 mecab-0.996-ko-0.9.2.tar.gz, mecab-ko-dic-2.1.1-20180720.tar.gz 로 진행했습니다. 👉mecab-ko 다운로드: https://bitbucket.org/eunjeon/meca..
2020.08.12