upgrade from selenium to beautiful

master
ZouJiu 2023-07-30 12:10:57 +08:00
parent 37f7180e1b
commit 62f418c6b1
3 changed files with 21 additions and 13 deletions

View File

@ -4,11 +4,15 @@
## 亮点
1、保存**回答**到**pdf**、**markdown**并保存相应的图片、codes以及website排版基本按照网页**支持保存数学公式到markdown**,回答会保存提问和自己的回答<br>
###### 20230729 使用BeautifulSoup库来进行解析网页使用起来更加稳定的之前是使用的selenium
2、保存**article**到**pdf**、**markdown**并保存相应的图片、codes以及website排版基本按照网页**支持保存数学公式到markdown**<br>
3、保存**想法**到text并保存相应的图片最后对所有text进行汇总到一个档案<br>
## LOG
-----------20230729 使用BeautifulSoup库来进行解析网页使用起来更加稳定的而且排版更加贴近网页之前是使用的selenium
-----------202306 上传
### 爬取到的想法展示
按照发布时间分目录存放,保存了图片以及文本文件<br>
<a href="./think">点击即可进入think目录查看的</a><br>
@ -69,20 +73,24 @@ python.exe crawler.py --think
`
**爬取知乎回答** <br>
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**每个图片需要6s <br>
默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**每个图片需要6s, --MarkDown控制是否保存markdown格式的网页内容 <br>
若是PDF看起来版式太大调小参数就可以printop.scale不是特殊情况一般不用调整
`
python.exe crawler.py --answer
python.exe crawler.py --answer --MarkDown
`
**爬取知乎的article** <br>
默认的爬取每篇article的睡眠时间是**16s**以上这边实际爬取130多篇耗时平均是每篇 **33.096s**每个图片需要6s <br>
默认的爬取每篇article的睡眠时间是**16s**以上这边实际爬取130多篇耗时平均是每篇 **33.096s**每个图片需要6s <br>
`
python.exe crawler.py --article
python.exe crawler.py --article --MarkDown
`
### 3、三项一起爬取的 <br>
`
python.exe crawler.py --think --article --answer
python.exe crawler.py --think --article --answer --MarkDown
`
### 又发布了一篇,只爬取写的这篇

View File

@ -687,15 +687,15 @@ def pagetopdf(driver, dircrea, temp_name, nam, destdir, url, Created=""):
pass
printop = PrintOptions()
# printop.shrink_to_fit = True
printop.shrink_to_fit = True
# printop.margin_left = 0
# printop.margin_right = 0
# printop.margin_top = 0
# printop.margin_bottom = 0
printop.page_height = 29.7
printop.page_width = 21
# printop.page_height = 29.7
# printop.page_width = 21
printop.background = True
# printop.scale = 1.0
printop.scale = 1.0
pdf = driver.print_page(print_options=printop)
with open(os.path.join(dircrea, nam + ".pdf"), 'wb') as obj:
@ -1039,14 +1039,14 @@ if __name__ == "__main__":
MarkDown_FORMAT = args.MarkDown
# crawl_think = False
# crawl_article = False
# crawl_article = True
# crawl_answer = True
# crawl_links_scratch = False
# MarkDown_FORMAT = True
# python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --MarkDown
# python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --article --MarkDown
# python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --answer --MarkDown
# python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --answer --article
# python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --answer --article --MarkDown
zhihu()
# try:
# crawl_links_scratch = False

Binary file not shown.