Hello các bạn, hôm nay mình sẽ hướng dẫn các bạn crawl (cào) dữ liệu từ 1 trang web bằng python. Qua video này các bạn sẽ biết được thêm một số thư viện hỗ trợ việc crawl, cách để bóc tách dữ liệu từ nguồn trang, cũng như 1 cách để lấy url ẩn của trang web.
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
Command install library
Requests: pip install requests
Beautiful soup: pip install beautifulsoup4
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
Source code:
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
*****Music*****
♫♪Vindu – Yamadera Peace of Mind♬♩
♫♪Tenno – Muramasa Legends of the Past♬♩
♫♪Nogymx Raimu – Silver Lake♬♩
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
*****About Me******
FaceBook:
GitHub:
mình có 1 trang web khi dùng request nó ko get đủ html về phải làm sao hả v
5:12 với mấy trang web mà nó ko hiển thị trang cuối là bao nhiêu, thì mình có cách nào biết được có tổng số trang là bao nhiêu ko b nhỉ?
6:07 sao có nhiều trang mình không check được cái request url này của nó b nhỉ?
anh ơi em đang sài phiên bản python 3.9 nhưng tải request nó bảo k phù hợp là sao ạ
anh ơi. crawl kết hợp với selenium đi ạ
Anh ơi, làm sao để crawl cho nó ra dạng Json vậy?
Làm sao để e lấy được đoạn : 123456 trong đoạn này a . e mới học nên khó quá .hihi
section class=""
<ul>………</ul>
div class =""
div class =""
<div>……..</div>
<section class="tax-listing">
<div>
<h3><a href="/congtyABC" title="Đăng kí mã số này nhé 123456">123456</a></h3>
</div>
</section>
cuối video làm sao để tách mỗi link đó chúng thành từng hàng được vậy ad
Cũng đượt 🙂 Nhưng hi vọng lần ni không được nhận 6 điểm như lần trước
ngon :3
Đỉnh quá