ThuVienBao Truyện Scraper
ThuVienBao Truyện Scraper v1.21 BETA
Tool để lấy text và raw html từ các websites truyện phổ biến.
Supported sites:
http://truyencv.com/xxxxx/
https://truyenyy.com/truyen/xxxxx/
https://bachngocsach.com/reader/xxxxx
http://truyenfull.vn/xxxxx/
https://truyen.tangthuvien.vn/doc-truyen/xxxxx
http://truyencuatui.net/truyen/xxxxx.html
http://truyendich.com/xxxxx/
http://webtruyen.com/xxxxx/
https://wikidich.com/truyen/xxxxx
https://www.wattpad.com/story/xxxxx
Features:
- Tự động check chương đã download và update chương mới.
- Tự động lọc text rác bằng regular expression, có thể lọc được hầu hết text rác trừ những cái mới ra chưa update. Dự tính sẽ làm thêm 1 bộ custom regex để người dùng tự thêm.
Notes:
- Lưu ý dành cho wattpad: Vì site này xài JavaScript & AJAX cho text nên HTTP GET thường không có lấy được nhé, thay vào đó phải xài qua ChromeDriver. Bạn cần download thêm ChromeDriver. Extract
chromedriver.exe
rồi copy vàoC:\Windows
. Muốn biết thêm chi tiết về ChromeDriver có thể vào homepage tại https://sites.google.com/a/chromium.org/chromedriver/. Khi chạy chương trình bạn sẽ thấy Chrome mở lên, cứ để cho nó chạy đừng có làm gì hết. - Tool đang còn beta nên sẽ có bug. Nhớ report dùm nhé.
Download:
- https://github.com/tinotk/thuvienbao-truyen-scraper
- https://sourceforge.net/projects/thuvienbao-truyen-scraper/
Changelog:
v1.21:
- Added truyendich.com to supported sites
- Added sleep timer for wikidich (to avoid IP banned)
v1.2:
- Added wikidich.com and wattpad.com to supported sites
Screenshots: