기본 콘텐츠로 건너뛰기

라벨이 BERT인 게시물 표시

KoBERT를 이용한 감성분석

1. 준비 사항  - 고객센터로 걸려오는 전화<음성>이 STT를 통해 텍스트로 저장되어야 한다.  - 카카오 톡이나 게시판을 통해서 들어온 텍스트가 필요 2. 감성 분석 Flow   - 한글을 음절 단위로 자르기 위한 말뭉치   - 한글 말뭉치를 어휘 단위로 잘라서 vocab 파일 생성   - 라벨링<문장이 긍정, 부정, 중립>된 정답 데이터      ==>  이게 제일 구하기 어려움. 각 산업에 맞는 데이터로 해야함.    - 학습한 후 모델은 .h5 형태로 저장하고 예측 실행시 .h5를 불러온다.      (학습 -> 모델 생성 과  모델 로딩 -> 예측 이렇게 분리해야 됨) kobert pretrained model을 이용한 감성분석 평가 데이터 수: train(53건), test(23건) 모델 평가: * 예측  3. 어려운 점    * STT로 들어온 텍스트가 잘 맞지 않음. 주소에서 숫자를 부르면 2 인지 "이"인지 잘 구분이 안됨    * 음성의 품질이 좋지 않음.  4. 테스트 코드 <일부>  # ============================================================================= # 모델 평가 # ============================================================================= # 훈련 모델의 예측 성능을 F1 SCORE로 체크하기 위한 작업 def predict_convert_data( data_df ): global tokenizer tokens, masks, segments = [], [], [] for i in tqdm(range(len(data_df)))...