은전한닢(2)
-
[KoNLPy] 은전한입(mecab) 사용자 사전 단어비용 조절하기
이전 포스팅에서는 사용자 사전을 추가해서 내 입맛에 맞게 형태소 분석을 하는 방법을 알아보았습니다. 하지만 아직 완전하게 결과를 받기에는 한 가지 과정을 더 거쳐야 합니다. ❓ 단어비용 단어 비용은 앞서 mecab 사용자 사전의 레코드 구조에서 네번째인 '가중치(단어비용)'입니다. 이 단어의 검색 우선순위를 부여해서 같은 단어인데 태그가 다른 경우 어떤 것을 우선시 할 것이냐?로 간단하게 이해해주시면 됩니다. 단어 비용은 낮추면 검색 우선순위가 높아집니다. 이걸 자꾸 헷갈려서 찾아보는 경우가 많았는데, 숫자와 우선순위를 반대로 생각하면 간단합니다. 우선순위를 👍 높이고 싶다면 단어 비용은 반대로 👎 작은 숫자를 부여해주세요. 💰 단어비용을 조절해보자 이제는 실제로 단어비용을 높여서 원하는 결과를 가져와봅..
2020.11.30 -
[KoNLPy] 은전한닢(mecab) 사용자 사전 추가하기
📚 mecab 사용자 사전 기본적으로 mecab은 제공하는 사전 외에 , 사용자가 직접 입력해서 형태소를 입력해서 단어를 인식할 수 있도록 하는 '사용자 사전'을 제공합니다. 기존 사전에 다양한 단어들이 있지만, 생각보다 원하는 대로 검색이 안되는 경우가 있는데, 이 때 사용자 사전을 사용하면 mecab을 더 다양하게 활용할 수 있습니다. ❗️목표: 문장 내에 있는 '의약품명'을 NNP 태그로 추출할 수 있었으면 좋겠다. 먼저 mecab-ko-dic 폴더로 들어가서 ls로 해당 디렉토리에 있는 폴더를 확인합니다. 여기서 user-dic 디렉토리로 들어가봅시다. cd mecab-ko-dic-2.1.1-20180720 ls cd user-dic 위에 EC, NNP, NNG.csv 등은 mecab-ko-dic..
2020.08.12