๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๐Ÿค– AI & DATA/DA

(1)
[web crawling] python requests & Beautiful Soup๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์›ํ•˜๋Š” ์ •๋ณด ์ถ”์ถœํ•˜๊ธฐ 1. ์›น ํฌ๋กค๋ง(web crawling)์„ ๋ฐฐ์šฐ๋Š” ์ด์œ  ์›น ํฌ๋กค๋ง์ด๋ž€ ์›นํŽ˜์ด์ง€(๋˜๋Š” ์›น ์‚ฌ์ดํŠธ, static document) ๋‚ด์— ์žˆ๋Š” ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ํ–‰์œ„, ์ฆ‰ ์ธํ„ฐ๋„ท ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ‰์ธํ™”ํ•˜๋Š” ๊ณผ์ •์„ ์˜๋ฏธํ•จ ๋ฐ์ดํ„ฐ ๋ถ„์„์— ํ™œ์šฉํ•˜๊ณ ์‹ถ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์›น ํŽ˜์ด์ง€์—์„œ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๊ธฐ๋•Œ๋ฌธ์— ์ค‘์š”ํ•จ Beautiful Soup ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” html๊ณผ xml ๋ฌธ์„œ๋ฅผ parsing ํ•  ์ˆ˜ ์žˆ๊ณ , Selenium์€ ๋™์  ํฌ๋กค๋ง์„ ํšจ๊ณผ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ด๋‹ค. ๋‘ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์ฐจ์ด๊ฐ€ ๊ถ๊ธˆํ•˜๋‹ค๋ฉด ๋‹ค์Œ ๋งํฌ๋ฅผ ํด๋ฆญํ•˜์—ฌ ์ฐธ๊ณ  HTML์˜ ๊ธฐ๋ณธ์ ์ธ ์ดํ•ด๊ฐ€ ์žˆ์–ด์•ผํ•จ 2. requests & Beautiful Soup ํ™œ์šฉ requests : ์›ํ•˜๋Š” ์›น ํŽ˜์ด์ง€์˜ html ๋ฌธ์„œ๋ฅผ ์‹น ๊ธ์–ด์˜จ๋‹ค. Beautiful Soup : htm..