목록파이썬 데이터 크롤링 (6)
바닥코딩
csv? csv 는 몇가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이며 확장자는 .csv입니다 쉼표로 필드를 구분하기 때문에 데이터베이서 칼럼을 구별하는 식별자로 사용할 수 있어 데이터베이스에서 많이 사용됩니다. 데이터 공공포털 같은 사이트에서 데이터셋을 csv파일로 가져와 확인 할 수 있습니다. https://www.data.go.kr/ 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr Dataset 가져오기 해당 사이트에 접속을 해 필요한 데이터셋을 검색하..
pandas? pandas 파이썬에서 사용하는 데이터분석 라이브러리로 행과 열로 이루어진 데이터 객체를 만들어 다를 수 있고 안정적으로 데이터를 처리하는데 편리한 모듈입니다. 우리가 크롤링을 통해 데이터를 얻었다면 이것을 눈으로 시각화 할 수 있는 것도 중요합니다. 이에는 많은 방법이 있을 수 있겠지만 해당 포스트에서는 pandas를 통한 시각화를 알아보겠습니다. pandas는 해당 명령어를 통해 설치가 가능합니다. pip install pandas pandas 모듈의 여러 내장함수를 사용 하면 data 프레임을 정의할 때 또는 데이터를 시각화 하여 나타낼 떄 효울적으로 사용할 수 있습니다. ex) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 import pandas as pd import..
selenium(셀레늄)? selenium 은 웹을 테스트 하는데 사용하는 프레임워크로 webdriver라는 API를 통해 운영체제의 설치된 chrome 브라우저를 제어합니다. 즉 브라우저를 직접 동작시칼 수 있기 때문에 JavaScript를 이용해 비동기적으로 혹은 뒤늦게 불러와 지는 컨텐츠를 가져올 수 있습니다. 우리가 앞서 진행했던 크롤링은 동적인 HTML 이나 network 분석을 통해 전달되는 JSON 데이터를 parsing한 크롤링 이였습니다. 물론 개발자들이 많이 사용하는 API들이나 공공데이터 포털등에서는 이러한 자료를 쉽게 구할 수 있지만 그 외 동적으로 구조가 바뀌는 사이트나 정적 사이트가 아닐경우의 크롤링은 제한적인 요소를 많이 포합합니다. 이에 selenuim은 해답을 제시합니다. ..
json? json은 속성-값 또는 키-값 으로 이루어진 데이터 오브젝를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷입니다. 특히 비동기 브라우저/서버 통신(ajax) ,xml을 대체하는 주요 데이터 포맷인데 브라우저 내에서 동작하는 JS의 특성 때문에 동적인 데이터를 받아오기 어려운 상황에서 json을 통해 데이터를 받아올 수 있다 기본형태 json 파일은 키-값 의 패턴으로 표현됩니다. { "이름": "홍길동", "나이": 25, "성별": "여", "주소": "서울특별시 양천구 목동", "특기": ["농구", "도술"], "가족관계": {"#": 2, "아버지": "홍판서", "어머니": "춘섬"}, "회사": "경기 수원시 팔달구 우만동" } 웹페이지 에서 Json 가져..
BeaurifulSoup 파이썬으로 웹을 크롤링 한 후 HTML로 부터 원하는 데이터를 가져올 떄 , parsing 을 효울적으로 수행하는 모듈입니다여기서 parsing이라는 단어의 의미는 HTML을 분석한다는 의미로 해석됩니다 일단 BeautifulSoup 를 설치하기 위해선 pip install beautifulsoup4 명령어를 터미널에 입력하면 설치가 가능합니다. from bs4 import BeautifulSoup 설치가 완료 되면 위에 문장을 통해 해당 모듈을 import 할 수 있게 되는데, 그 다음 크롤링을 원하는 웹페이지의 url을 urllib 모듈을 통해 소스를 가져올 수 있습니다 import urllib.request import urllib.parse # web_url에 원하는 웹의..
데이터 크롤링? 인터넷을 포함한 데이터가 방대해 지면서 그 것을 활용할 필요서이 높아졌습니다. 그런 정보들을 사용자가 분석하기 쉽게 끔 데이터를 수집하는 행위를 크롤링이라 하고 크롤링 하는 프로그램을 크롤러 라고 말합니다. 크롤링의 원리 웹페이지는 HTML 문서로 작성이 되어 있고 이를 참조할 수 있는 CSS파일과 상호작용을 위한 JS파일로 이루어져 있는데 이런한 웹페이지 구성의 TAG 형식을 찾아서 원하는 데이터를 뽑아내는 것을 크롤링이라 합니다 물론 다른 언어에서 크롤링은 가능하지만 파이썬 모듈을 통한 크롤링을 포스팅에서 다뤄보려 합니다