본문 바로가기
Python

[파이썬]웹스크래핑(크롤링)-크롤링을 위한 기본 셋팅하기

by GGShin 2021. 8. 14.

# 스크래핑이란?

일반적으로 웹에서 사용되는 스크래핑은 웹 스크래핑이라고도 불리며 크롤링(Crawling)이라고도 불립니다.

스크래핑이란 웹사이트의 페이지를 그대로 가져와서 그 안에서 데이터를 추출하는 행위입니다.
출처: https://basecamp-sense.tistory.com/1 [베이스캠프와 함께하는 상식]

 

영화 랭킹이 나온 페이지에서 영화 순위와 평점과 같은 데이터를 추출하는 것도 스크래핑에 해당합니다. 

 

1. 크롤링을 하기 위해서는 beautifulsoup이라는 패키지를 다운받아야 합니다.

   

  1)맥북의 경우 "파이참 -> Preferences" 로 들어갑니다.

 2)Python Interpreter을 선택한 후 오른편의 "+" 버튼을 눌러줍니다. 

3)검색창에 "bs4"를 입력하고 하단의 "Install Package"로 다운받아 주면 끝!

 

2. 패키지 다운로드가 완료되면, 코딩창에 기본 셋팅 코드를 입력해주어야 합니다. 

 

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

 

위와 같은 코드인데요, data = requests.get의 괄호 안에 작은 따옴표 부분에 크롤링을 원하는 웹페이지의 주소를 넣어주면 됩니다.

 

*크롤링에서 중요한 것은 두가지!

1) 정보를 요청하는 코드를 잘 기입 하는 것(기본 셋팅) -> requests의 역할

2) 원하는 정보를 잘 찾아내고 솎아내는 것 -> bs4의 역할

 

반응형