IT 메뉴얼 & 관련/IT 소식, 개발 소식
crawler(크롤러) 구조 잡는 방법에 대해서 알아보겠습니다.
안녕하세요 오늘은 데이터를 모을 때 본인에 맞게 필요한 정보를 얻기 위해서는 웹 크롤러로 데이터를 수집해야 합니다.정작 본인에 맞는 데이터는 정부에서 제공하는 데이터 보다는 구글에서 많이 있습니다. 크롤링을 만드는데 왜 파이썬이냐? 우선 빠르게 만들 수 있고 파이썬 문법은 쉽습니다. 그리고 요즘 핫한 머신러닝에 적합한 언어이기도 합니다.(텐서플로우일 경우) 저는 크롤러를 만들때 어디 모듈을 가져다 사용하는 것보다 구조가 중요하다고 생각합니다. 소규모로 한개의 사이트에 대해서 크롤링을 한다고 하면 당연히, 쉽고 빠르게 Beatifulsoup 모듈을 사용해서 긁어오는 것이 더 알맞다고 볼 수 있습니다. 하지만 포털에 키워드를 입력한 후에 결과를 긁는다고 한다면 많이 생각을 해봐야할 것 같습니다. 예외 처리로..