프로그래밍 언어를 사용하지 않고
온라인 텍스트 크롤링과 기초 (빈도) 분석하는 방법
*사전 셋팅해야 할 것: 크롬브라우저에 listly 설치
설치위한 사이트로 이동 -> 설치
-> 확인 (설치 성공시 크롬브라우저 우상단에 '/'표시 나타남.)
-> 확인 (설치 성공시 크롬브라우저 우상단에 '/'표시 나타남.)
크롤링하고자 하는 타겟 블로그(예 네이버 카페, 트위터) 이동
예: 네이버 카페 https://section.cafe.naver.com/ca-fe/
원하는 키워드를 이용해 텍스트를 검색.
2단계: listly 실행
검색 결과가 보이는 상태에서, 우상단 표시 중 '/' 클릭
-> 전체 listly 선택
3단계: 검색 내용 중 원하는 텍스트 선택, 추출하기
listy가 만든 웹페이지 나타나면, 내용 중 크롤링하려는 부분 (탭)을 선택 클릭. -> 자동 추출, 화일로 다운로드 뒴.
4단계: 중복 메시지 제거
엑셀 메뉴중 '데이터' 클릭 > 중복 데이터 제거 (아이콘) 클릭
5단계: 빈도 분석위한 워드 문서 열기
이문서는 매크로가 포함된 문서이므로 본인 컴퓨터의 ms word 환경설정에서 콘텐츠 사용 (매크로 허용)으로 되어 있어야 작동합니다. 작동 안할 경우, 본인 프로그램의 환경 설정을 매크로를 사용할 수 있도록 조정하세요.
6단계: 빈도 counting 실행
워드메뉴 중 추가기능 -> process를 연속 클릭하세요.
7단계: 결과 해석
아래 처럼 가장 빈도수 높은 단어부터 단어와 해당 빈도수가 표시됩니다. 이상 끝! (해보면 무지 쉽지요^^;)
워드메뉴 중 추가기능 -> process를 연속 클릭하세요.
7단계: 결과 해석
아래 처럼 가장 빈도수 높은 단어부터 단어와 해당 빈도수가 표시됩니다. 이상 끝! (해보면 무지 쉽지요^^;)
8단계: 불용어 제거, 표제어 처리
불필요한 텍스트, 동일한 의미의 다른 표현을 통일 하기
현재 불용어, 표제어 처리를 프로그래밍 언어를 사용하지 않고 할 수 있는
방법 중 하나는 엑셀 매크로 함수 substitute를 이용하여 문자 바꾸기를 하는 것입니다. (하지만 노동력이 좀 들어가는 번거로운 작업입니다. 프로그래밍을 이용하지 않을 경우, 많은 데이터를 처리하는데 수작업이 상당 부분 필요합니다. 때문에 많은 양의 데이터를 가지고 제대로 분석하려면 결국에는 프로그래밍을 해야 합니다.)
예)
8단계: 최종 빈도 분석 (위 5단계 참조)
9단계: 빈도분석 시각화해서 보기 (Wordcloud)
한글 wordcloud http://wordcloud.kr/
다양한 한글 표시 가능. 하지만 데이터 양 처리에 한계가 있음.