2017년 9월 25일 월요일

온라인 텍스트 크롤링 부터 빈도 분석하는 방법(초심자용)

오후 6:09/ 정재학 Jaihak CHUNG/

프로그래밍 언어를 사용하지 않고

온라인 텍스트 크롤링과 기초 (빈도) 분석하는 방법

*사전 셋팅해야 할 것: 크롬브라우저에 listly 설치

설치위한 사이트로 이동 -> 설치
-> 확인 (설치 성공시 크롬브라우저 우상단에 '/'표시 나타남.)

1단계: 타겟 블로그 검색
크롤링하고자 하는 타겟 블로그(예 네이버 카페, 트위터) 이동

예: 네이버 카페 https://section.cafe.naver.com/ca-fe/

원하는 키워드를 이용해 텍스트를 검색.

2단계: listly 실행

검색 결과가 보이는 상태에서, 우상단 표시 중 '/' 클릭

-> 전체 listly 선택

3단계: 검색 내용 중 원하는 텍스트 선택, 추출하기

listy가 만든 웹페이지 나타나면, 내용 중 크롤링하려는 부분 (탭)을 선택 클릭. -> 자동 추출, 화일로 다운로드 뒴.

4단계: 중복 메시지 제거

엑셀 메뉴중 '데이터' 클릭 > 중복 데이터 제거 (아이콘) 클릭

5단계: 빈도 분석위한 워드 문서 열기

아래 링크를 이용해 워드 문서를 다운로드 한 뒤 화일을 여세요.

Word Frequency Counter (MS word)

이문서는 매크로가 포함된 문서이므로 본인 컴퓨터의 ms word 환경설정에서 콘텐츠 사용 (매크로 허용)으로 되어 있어야 작동합니다. 작동 안할 경우, 본인 프로그램의 환경 설정을 매크로를 사용할 수 있도록 조정하세요.

추출한 텍스트를 위의 워드화일에 텍스트 형태로 복사

6단계: 빈도 counting 실행
워드메뉴 중 추가기능 -> process를 연속 클릭하세요.

7단계: 결과 해석
아래 처럼 가장 빈도수 높은 단어부터 단어와 해당 빈도수가 표시됩니다. 이상 끝! (해보면 무지 쉽지요^^;)

8단계: 불용어 제거, 표제어 처리

불필요한 텍스트, 동일한 의미의 다른 표현을 통일 하기

현재 불용어, 표제어 처리를 프로그래밍 언어를 사용하지 않고 할 수 있는

방법 중 하나는 엑셀 매크로 함수 substitute를 이용하여 문자 바꾸기를 하는 것입니다. (하지만 노동력이 좀 들어가는 번거로운 작업입니다. 프로그래밍을 이용하지 않을 경우, 많은 데이터를 처리하는데 수작업이 상당 부분 필요합니다. 때문에 많은 양의 데이터를 가지고 제대로 분석하려면 결국에는 프로그래밍을 해야 합니다.)

예)