유혜연님의 프로필 사진

유혜연

.

[당근마켓에서 텍스트 데이터를 분석하는 방법] 배경: 중고거래 특성 상 대화(채팅) 중 서로 주소를 주고 받는 경우가 생긴다 목표: 채팅 중 주소가 공유될 시 주소 텍스트를 인식해서 노티 메시지를 노출하고 싶다(“직거래 시 안전한 공공장소를 추천합니다”) STEP 1. 정규식을 활용해 주소 인식하기 어떻게? 직거래는 시/도 레벨보다는 읍/면/동 이나 도로명 주소로 주고받는 경우가 많으니 다음과 같은 정규식을 작성할 수 있다. /(([가-힣A-Za-z·\d~\-\.]{2,}(로|길).[\d]+)|([가-힣A-Za-z·\d~\-\.]+(읍|동)\s)[\d]+)/ -> (O로 또는 O길 NN) 또는 (O읍 또는 O동 NN) STEP 2. 진짜 주소인지 검증하기 어떻게? 읍/면/동은 실제 DB에 저장된 데이터와 비교하여 판단 도로명 주소는 도로명 정보를 정부 사이트에서 시/군/구 별 엑셀 다운로드 -> 구글 스프레드 시트에 옮겨서 중복 제거하여 검증 데이터 확보 STEP 3. 자동화&최신화하기 어떻게? 일정 주기로 도로명 주소 데이터를 동기화하는 Job 실행 -> 고시 정보나 도로명 정보 페이지를 통해 주기적으로 엑셀 다운로드 -> 엑셀 데이터를 내부 저장소에 반영

주소 인식을 위한 삽질의 기록

Medium

주소 인식을 위한 삽질의 기록

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2022년 7월 26일 오후 1:49

댓글 0