2017년 9월 25일 월요일

, ,

온라인 텍스트 크롤링 부터 빈도 분석하는 방법(초심자용)


프로그래밍 언어를 사용하지 않고
온라인 텍스트 크롤링과 기초 (빈도) 분석하는 방법
 
*사전 셋팅해야 할 것: 크롬브라우저에 listly 설치
   설치위한 사이트로 이동 -> 설치
    -> 확인 (설치 성공시 크롬브라우저 우상단에 '/'표시 나타남.)  

1단계: 타겟 블로그 검색
         크롤링하고자 하는 타겟 블로그(예 네이버 카페, 트위터) 이동
         예: 네이버 카페 https://section.cafe.naver.com/ca-fe/

         원하는 키워드를 이용해 텍스트를 검색.

2단계: listly 실행
         검색 결과가 보이는 상태에서, 우상단 표시 중 '/' 클릭
         -> 전체 listly 선택 

3단계: 검색 내용 중 원하는 텍스트 선택, 추출하기 
      listy가 만든 웹페이지 나타나면, 내용 중 크롤링하려는 부분 (탭)을 선택 클릭. -> 자동 추출, 화일로 다운로드 뒴. 

4단계: 중복 메시지 제거
엑셀 메뉴중 '데이터' 클릭 > 중복 데이터 제거 (아이콘) 클릭

5단계: 빈도 분석위한 워드 문서 열기

아래 링크를 이용해 워드 문서를 다운로드 한 뒤 화일을 여세요.

이문서는 매크로가 포함된 문서이므로 본인 컴퓨터의 ms word 환경설정에서 콘텐츠 사용 (매크로 허용)으로 되어 있어야 작동합니다. 작동 안할 경우, 본인 프로그램의 환경 설정을 매크로를 사용할 수 있도록 조정하세요.

추출한 텍스트를 위의 워드화일에 텍스트 형태로 복사

6단계: 빈도 counting 실행
   워드메뉴 중 추가기능 -> process를 연속 클릭하세요.



7단계: 결과 해석
 아래 처럼 가장 빈도수 높은 단어부터 단어와 해당 빈도수가 표시됩니다. 이상 끝! (해보면 무지 쉽지요^^;)



8단계: 불용어 제거, 표제어 처리
불필요한 텍스트, 동일한 의미의 다른 표현을 통일 하기

현재 불용어, 표제어 처리를 프로그래밍 언어를 사용하지 않고 할 수 있는 
방법 중 하나는 엑셀 매크로 함수 substitute를 이용하여 문자 바꾸기를 하는 것입니다. (하지만 노동력이 좀 들어가는 번거로운 작업입니다. 프로그래밍을 이용하지 않을 경우, 많은 데이터를 처리하는데 수작업이 상당 부분 필요합니다. 때문에 많은 양의 데이터를 가지고 제대로 분석하려면 결국에는 프로그래밍을 해야 합니다.)

예) 

 
*불필요한 단어 (불용어) 제거 역시 위 기능을 이용하면 되겠지요^^

8단계: 최종 빈도 분석 (위 5단계 참조)  

9단계: 빈도분석 시각화해서 보기 (Wordcloud)



한글 wordcloud http://wordcloud.kr/
   다양한 한글 표시 가능. 하지만 데이터 양 처리에 한계가 있음.

















Share this post: