From 62f418c6b18f65b208ebeea3909a9c5942ea61ce Mon Sep 17 00:00:00 2001 From: ZouJiu <1069679911@qq.com> Date: Sun, 30 Jul 2023 12:10:57 +0800 Subject: [PATCH] upgrade from selenium to beautiful --- README.md | 22 +++++++++++++++------- crawler.py | 12 ++++++------ requirement.txt | Bin 68 -> 114 bytes 3 files changed, 21 insertions(+), 13 deletions(-) diff --git a/README.md b/README.md index be5e6b6..8860478 100644 --- a/README.md +++ b/README.md @@ -4,11 +4,15 @@ ## 亮点 1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
-###### 20230729 使用BeautifulSoup库来进行解析网页,使用起来更加稳定的,之前是使用的selenium - 2、保存**article**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**
3、保存**想法**到text并保存相应的图片,最后对所有text进行汇总到一个档案
+ +## LOG +-----------20230729 使用BeautifulSoup库来进行解析网页,使用起来更加稳定的而且排版更加贴近网页,之前是使用的selenium + +-----------202306 上传 + ### 爬取到的想法展示 按照发布时间分目录存放,保存了图片以及文本文件
点击即可进入think目录查看的
@@ -69,20 +73,24 @@ python.exe crawler.py --think ` **爬取知乎回答**
-默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s
+默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**每个图片需要6s, --MarkDown控制是否保存markdown格式的网页内容
+ +若是PDF看起来版式太大,调小参数就可以printop.scale,不是特殊情况一般不用调整 + ` -python.exe crawler.py --answer +python.exe crawler.py --answer --MarkDown ` **爬取知乎的article**
-默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s
+默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**每个图片需要6s
+ ` -python.exe crawler.py --article +python.exe crawler.py --article --MarkDown ` ### 3、三项一起爬取的
` -python.exe crawler.py --think --article --answer +python.exe crawler.py --think --article --answer --MarkDown ` ### 又发布了一篇,只爬取写的这篇 diff --git a/crawler.py b/crawler.py index f9152c3..79ba7fb 100644 --- a/crawler.py +++ b/crawler.py @@ -687,15 +687,15 @@ def pagetopdf(driver, dircrea, temp_name, nam, destdir, url, Created=""): pass printop = PrintOptions() - # printop.shrink_to_fit = True + printop.shrink_to_fit = True # printop.margin_left = 0 # printop.margin_right = 0 # printop.margin_top = 0 # printop.margin_bottom = 0 - printop.page_height = 29.7 - printop.page_width = 21 + # printop.page_height = 29.7 + # printop.page_width = 21 printop.background = True - # printop.scale = 1.0 + printop.scale = 1.0 pdf = driver.print_page(print_options=printop) with open(os.path.join(dircrea, nam + ".pdf"), 'wb') as obj: @@ -1039,14 +1039,14 @@ if __name__ == "__main__": MarkDown_FORMAT = args.MarkDown # crawl_think = False - # crawl_article = False + # crawl_article = True # crawl_answer = True # crawl_links_scratch = False # MarkDown_FORMAT = True # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --MarkDown # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --article --MarkDown # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --answer --MarkDown - # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --answer --article + # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --answer --article --MarkDown zhihu() # try: # crawl_links_scratch = False diff --git a/requirement.txt b/requirement.txt index 09482f053a0dc9c2c089d754030c37ca0d4ca90c..05934642a8df9ab248500d2757e8b96ed79a7608 100644 GIT binary patch delta 51 zcmZ=Mn&6_B#E{C6$WY2q!jQ?32BdQsiW%~ObOD12gDnv2F&Hu!0ZAhUUIs1(03?D4 A?f?J) delta 4 LcmXSNncxBd1N;Gt