카테고리 없음

자연어 처리_파이썬_조직검사

오기오기 2021. 10. 18. 00:17
728x90
반응형
자연어 처리(NLP)는 머신러닝을 사용하여 텍스트의 구조와 의미를 파악합니다. 자연어 처리 애플리케이션을 사용하면 조직에서 텍스트를 분석하고 사람, 장소, 사건에 대한 정보를 추출하여 소셜 미디어 감정과 고객 대화를 더욱 정확하게 이해할 수 있습니다.
NLP(Natural Language Processing, 자연어 처리)는 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석합니다. 자연어 인식 및 자연어 생성이 NLP의 유형입니다.
출처 : Google cloud

biopsy report와 medical note를 자연어 처리를 통해 분석

분석할 오늘의 자료! (예시 biopsy report)

 

Part 1. 필요한 패키지 가져오기

자연어 처리를 위해서는 NLTK (Natural Language Toolkit) 패키지를 사용합니다

import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

docd파일을 txt로 변환하기 위해 docx2txt도 같이 import해줍니다

import docx2txt

 

 

Part 2. 조직검사 파일 처리하기 

 

불러올 데이터가 docx이기 때문에 txt로 변환해서 text 변수에 저장해줍니다

text = docx2txt.process('Biopsy_Report.docx')

text는 txt로 변환되었기에 type를 확인해보면 str (string)이 나옵니다

type(text)

 

 

728x90
반응형