본문 바로가기

파이썬 데이터 크롤링

(6)

csv 파일 데이터 셋 받아오기 및 시각화 csv? csv 는 몇가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이며 확장자는 .csv입니다 쉼표로 필드를 구분하기 때문에 데이터베이서 칼럼을 구별하는 식별자로 사용할 수 있어 데이터베이스에서 많이 사용됩니다. 데이터 공공포털 같은 사이트에서 데이터셋을 csv파일로 가져와 확인 할 수 있습니다. https://www.data.go.kr/ 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr Dataset 가져오기 해당 사이트에 접속을 해 필요한 데이터셋을 검색하..

pandas를 이용한 데이터 시각화 pandas? pandas 파이썬에서 사용하는 데이터분석 라이브러리로 행과 열로 이루어진 데이터 객체를 만들어 다를 수 있고 안정적으로 데이터를 처리하는데 편리한 모듈입니다. 우리가 크롤링을 통해 데이터를 얻었다면 이것을 눈으로 시각화 할 수 있는 것도 중요합니다. 이에는 많은 방법이 있을 수 있겠지만 해당 포스트에서는 pandas를 통한 시각화를 알아보겠습니다. pandas는 해당 명령어를 통해 설치가 가능합니다. pip install pandas pandas 모듈의 여러 내장함수를 사용 하면 data 프레임을 정의할 때 또는 데이터를 시각화 하여 나타낼 떄 효울적으로 사용할 수 있습니다. ex) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 import pandas as pd import..

selenium(셀레늄) selenium(셀레늄)? selenium 은 웹을 테스트 하는데 사용하는 프레임워크로 webdriver라는 API를 통해 운영체제의 설치된 chrome 브라우저를 제어합니다. 즉 브라우저를 직접 동작시칼 수 있기 때문에 JavaScript를 이용해 비동기적으로 혹은 뒤늦게 불러와 지는 컨텐츠를 가져올 수 있습니다. 우리가 앞서 진행했던 크롤링은 동적인 HTML 이나 network 분석을 통해 전달되는 JSON 데이터를 parsing한 크롤링 이였습니다. 물론 개발자들이 많이 사용하는 API들이나 공공데이터 포털등에서는 이러한 자료를 쉽게 구할 수 있지만 그 외 동적으로 구조가 바뀌는 사이트나 정적 사이트가 아닐경우의 크롤링은 제한적인 요소를 많이 포합합니다. 이에 selenuim은 해답을 제시합니다. ..

JSON json? json은 속성-값 또는 키-값 으로 이루어진 데이터 오브젝를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷입니다. 특히 비동기 브라우저/서버 통신(ajax) ,xml을 대체하는 주요 데이터 포맷인데 브라우저 내에서 동작하는 JS의 특성 때문에 동적인 데이터를 받아오기 어려운 상황에서 json을 통해 데이터를 받아올 수 있다 기본형태 json 파일은 키-값 의 패턴으로 표현됩니다. { "이름": "홍길동", "나이": 25, "성별": "여", "주소": "서울특별시 양천구 목동", "특기": ["농구", "도술"], "가족관계": {"#": 2, "아버지": "홍판서", "어머니": "춘섬"}, "회사": "경기 수원시 팔달구 우만동" } 웹페이지 에서 Json 가져..

Beautifulsoup를 통해 HTML 파싱하기 BeaurifulSoup 파이썬으로 웹을 크롤링 한 후 HTML로 부터 원하는 데이터를 가져올 떄 , parsing 을 효울적으로 수행하는 모듈입니다여기서 parsing이라는 단어의 의미는 HTML을 분석한다는 의미로 해석됩니다 일단 BeautifulSoup 를 설치하기 위해선 pip install beautifulsoup4 명령어를 터미널에 입력하면 설치가 가능합니다. from bs4 import BeautifulSoup 설치가 완료 되면 위에 문장을 통해 해당 모듈을 import 할 수 있게 되는데, 그 다음 크롤링을 원하는 웹페이지의 url을 urllib 모듈을 통해 소스를 가져올 수 있습니다 import urllib.request import urllib.parse # web_url에 원하는 웹의..

데이터 크롤링 데이터 크롤링? 인터넷을 포함한 데이터가 방대해 지면서 그 것을 활용할 필요서이 높아졌습니다. 그런 정보들을 사용자가 분석하기 쉽게 끔 데이터를 수집하는 행위를 크롤링이라 하고 크롤링 하는 프로그램을 크롤러 라고 말합니다. 크롤링의 원리 웹페이지는 HTML 문서로 작성이 되어 있고 이를 참조할 수 있는 CSS파일과 상호작용을 위한 JS파일로 이루어져 있는데 이런한 웹페이지 구성의 TAG 형식을 찾아서 원하는 데이터를 뽑아내는 것을 크롤링이라 합니다 물론 다른 언어에서 크롤링은 가능하지만 파이썬 모듈을 통한 크롤링을 포스팅에서 다뤄보려 합니다

이전 1 다음

티스토리툴바