1. 준비 사항 - 고객센터로 걸려오는 전화<음성>이 STT를 통해 텍스트로 저장되어야 한다. - 카카오 톡이나 게시판을 통해서 들어온 텍스트가 필요 2. 감성 분석 Flow - 한글을 음절 단위로 자르기 위한 말뭉치 - 한글 말뭉치를 어휘 단위로 잘라서 vocab 파일 생성 - 라벨링<문장이 긍정, 부정, 중립>된 정답 데이터 ==> 이게 제일 구하기 어려움. 각 산업에 맞는 데이터로 해야함. - 학습한 후 모델은 .h5 형태로 저장하고 예측 실행시 .h5를 불러온다. (학습 -> 모델 생성 과 모델 로딩 -> 예측 이렇게 분리해야 됨) kobert pretrained model을 이용한 감성분석 평가 데이터 수: train(53건), test(23건) 모델 평가: * 예측 3. 어려운 점 * STT로 들어온 텍스트가 잘 맞지 않음. 주소에서 숫자를 부르면 2 인지 "이"인지 잘 구분이 안됨 * 음성의 품질이 좋지 않음. 4. 테스트 코드 <일부> # ============================================================================= # 모델 평가 # ============================================================================= # 훈련 모델의 예측 성능을 F1 SCORE로 체크하기 위한 작업 def predict_convert_data( data_df ): global tokenizer tokens, masks, segments = [], [], [] for i in tqdm(range(len(data_df)))...