# 스크래핑이란?
일반적으로 웹에서 사용되는 스크래핑은 웹 스크래핑이라고도 불리며 크롤링(Crawling)이라고도 불립니다.
스크래핑이란 웹사이트의 페이지를 그대로 가져와서 그 안에서 데이터를 추출하는 행위입니다.
출처: https://basecamp-sense.tistory.com/1 [베이스캠프와 함께하는 상식]
영화 랭킹이 나온 페이지에서 영화 순위와 평점과 같은 데이터를 추출하는 것도 스크래핑에 해당합니다.
1. 크롤링을 하기 위해서는 beautifulsoup이라는 패키지를 다운받아야 합니다.
1)맥북의 경우 "파이참 -> Preferences" 로 들어갑니다.
2)Python Interpreter을 선택한 후 오른편의 "+" 버튼을 눌러줍니다.
3)검색창에 "bs4"를 입력하고 하단의 "Install Package"로 다운받아 주면 끝!
2. 패키지 다운로드가 완료되면, 코딩창에 기본 셋팅 코드를 입력해주어야 합니다.
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')
위와 같은 코드인데요, data = requests.get의 괄호 안에 작은 따옴표 부분에 크롤링을 원하는 웹페이지의 주소를 넣어주면 됩니다.
*크롤링에서 중요한 것은 두가지!
1) 정보를 요청하는 코드를 잘 기입 하는 것(기본 셋팅) -> requests의 역할
2) 원하는 정보를 잘 찾아내고 솎아내는 것 -> bs4의 역할
'Python' 카테고리의 다른 글
[파이썬]웹스크래핑(크롤링)-크롤링 시작하기 (0) | 2021.08.14 |
---|---|
[파이썬 시작하기] 파일 만들기 (0) | 2021.08.11 |