2018년 4월 1일 일요일

,

텍스트 데이터 크롤링 핵심 아이디어 & 알고리즘



텍스트 데이터 크롤링  핵심 아이디어 & 알고리즘

Step 1) 타겟 사이트 구조 및 추출 항목 특성 파악
         -추출 시 추출 항목 시작과 끝을 표시한 특수 표현/필드/tag 찾기
         -타겟 사이트 페이지의 텍스트 추출 address 룰 파악
         -기타 추출 방식 결정

Step 2) 타겟 사이트 페이지의 텍스트 불러오기 코드 작성

Step 3) 추출한 텍스트내에서 추출하고자 하는 내용만 선별해 특정 변수에 저장 코딩

Step 4) 해당 내용을 특정 파일 열고, 기록 (write) 코딩

Step 5) 필요한 만큼 step 2, 3, 4 반복 코딩

Step 6) 추출 데이터 결과 파일(output file) 텍스트 형식(csv)로 저장
 
(데이터 결과 화일명 포맷: TextData (나라명 키워드 사이트명)by본인이름.txt)
     코딩 화일명 포맷: TextCrawlingCode (나라명 키워드 사이트명)by본인이름.txt)

Share this post: