본문 바로가기

Python3

[파이썬]웹스크래핑(크롤링)-크롤링 시작하기 크롤링을 하기위한 기본 셋팅을 마치고 본격적으로 크롤링을 시작해 봅시다. 먼저 print(soup)을 하여보면, 하단에 해당 페이지의 정보가 다 보이게 됩니다. 이 정보는 해당 페이지의 검사 화면에서 확인가능한 정보와 일치합니다. BS4에는 크게 두 가지 기능이 있는데, 하나는 select_one이고 다른 하나는 select 입니다. 먼저 select_one을 사용해보겠습니다. 먼저 스크래핑을 원하는 정보(저는 그린북이라는 정보를 선택했습니다.)를 누른 뒤, 해당 코드에서 마우스 오른쪽->Copy->Copy selector를 눌러 복사합니다. selector는 해당 정보가 어디에 있는지를 알려주는 역할을 합니다. 그런 다음 soup.select_one() 의 괄호 안에 붙여넣기 해줍니다. print하여 .. 2021. 8. 14.
[파이썬]웹스크래핑(크롤링)-크롤링을 위한 기본 셋팅하기 # 스크래핑이란? 일반적으로 웹에서 사용되는 스크래핑은 웹 스크래핑이라고도 불리며 크롤링(Crawling)이라고도 불립니다. 스크래핑이란 웹사이트의 페이지를 그대로 가져와서 그 안에서 데이터를 추출하는 행위입니다. 출처: https://basecamp-sense.tistory.com/1 [베이스캠프와 함께하는 상식] 영화 랭킹이 나온 페이지에서 영화 순위와 평점과 같은 데이터를 추출하는 것도 스크래핑에 해당합니다. 1. 크롤링을 하기 위해서는 beautifulsoup이라는 패키지를 다운받아야 합니다. 1)맥북의 경우 "파이참 -> Preferences" 로 들어갑니다. 2)Python Interpreter을 선택한 후 오른편의 "+" 버튼을 눌러줍니다. 3)검색창에 "bs4"를 입력하고 하단의 "Inst.. 2021. 8. 14.
[파이썬 시작하기] 파일 만들기 파이썬 새로운 프로젝트를 생성할 때의 기본 값 화면. 확인해야 할 사항은: 1) 저장위치 2) venv가 마지막에 붙어있는지 꼭 확인 3)Base interpreter를 3.8로 설정 4)Create a mian.py welcome script 는 체크 해제 venv 폴더는 절대 건드리지 않는 것이 원칙! 파일이나 폴더 생성 등 일체의 활동을 하지 않는다. 2021. 8. 11.
반응형