From 62f418c6b18f65b208ebeea3909a9c5942ea61ce Mon Sep 17 00:00:00 2001
From: ZouJiu <1069679911@qq.com>
Date: Sun, 30 Jul 2023 12:10:57 +0800
Subject: [PATCH] upgrade from selenium to beautiful

---
 README.md       |  22 +++++++++++++++-------
 crawler.py      |  12 ++++++------
 requirement.txt | Bin 68 -> 114 bytes
 3 files changed, 21 insertions(+), 13 deletions(-)
diff --git a/README.md b/README.md
index be5e6b6..8860478 100644
--- a/README.md
+++ b/README.md
@@ -4,11 +4,15 @@
 ## 亮点
 1、保存**回答**到**pdf**、**markdown**，并保存相应的图片、codes以及website，排版基本按照网页，**支持保存数学公式到markdown**，回答会保存提问和自己的回答<br>
 
-###### 20230729 使用BeautifulSoup库来进行解析网页，使用起来更加稳定的，之前是使用的selenium
-
 2、保存**article**到**pdf**、**markdown**，并保存相应的图片、codes以及website，排版基本按照网页，**支持保存数学公式到markdown**<br>
 
 3、保存**想法**到text并保存相应的图片，最后对所有text进行汇总到一个档案<br>
+
+## LOG
+-----------20230729 使用BeautifulSoup库来进行解析网页，使用起来更加稳定的而且排版更加贴近网页，之前是使用的selenium
+
+-----------202306 上传
+
 ### 爬取到的想法展示
 按照发布时间分目录存放，保存了图片以及文本文件<br>
 <a href="./think">点击即可进入think目录查看的</a><br>
@@ -69,20 +73,24 @@ python.exe crawler.py --think
 `
 
 **爬取知乎回答** <br>
-默认的爬取每篇回答的睡眠时间是**16s**以上，这边实际爬取耗时平均是每篇 **30s**，每个图片需要6s <br>
+默认的爬取每篇回答的睡眠时间是**16s**以上，这边实际爬取耗时平均是每篇 **30s**每个图片需要6s, --MarkDown控制是否保存markdown格式的网页内容 <br>
+
+若是PDF看起来版式太大，调小参数就可以printop.scale，不是特殊情况一般不用调整
+
 `
-python.exe crawler.py --answer
+python.exe crawler.py --answer --MarkDown
 `
 
 **爬取知乎的article**   <br>
-默认的爬取每篇article的睡眠时间是**16s**以上，这边实际爬取130多篇，耗时平均是每篇 **33.096s**，每个图片需要6s  <br>
+默认的爬取每篇article的睡眠时间是**16s**以上，这边实际爬取130多篇，耗时平均是每篇 **33.096s**每个图片需要6s  <br>
+
 `
-python.exe crawler.py --article
+python.exe crawler.py --article --MarkDown
 `
 
 ### 3、三项一起爬取的   <br>
 `
-python.exe crawler.py --think --article --answer
+python.exe crawler.py --think --article --answer --MarkDown
 `
 
 ### 又发布了一篇，只爬取写的这篇
diff --git a/crawler.py b/crawler.py
index f9152c3..79ba7fb 100644
--- a/crawler.py
+++ b/crawler.py
@@ -687,15 +687,15 @@ def pagetopdf(driver, dircrea, temp_name, nam, destdir, url, Created=""):
             pass
 
     printop = PrintOptions()
-    # printop.shrink_to_fit = True
+    printop.shrink_to_fit = True
     # printop.margin_left = 0
     # printop.margin_right = 0
     # printop.margin_top = 0
     # printop.margin_bottom = 0
-    printop.page_height = 29.7
-    printop.page_width = 21
+    # printop.page_height = 29.7
+    # printop.page_width = 21
     printop.background = True
-    # printop.scale = 1.0
+    printop.scale = 1.0
       
     pdf = driver.print_page(print_options=printop)
     with open(os.path.join(dircrea, nam + ".pdf"), 'wb') as obj:
@@ -1039,14 +1039,14 @@ if __name__ == "__main__":
     MarkDown_FORMAT = args.MarkDown
     
     # crawl_think = False
-    # crawl_article = False
+    # crawl_article = True
     # crawl_answer = True
     # crawl_links_scratch = False
     # MarkDown_FORMAT = True
     # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --MarkDown
     # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --article  --MarkDown
     # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --answer  --MarkDown
-    # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --answer --article 
+    # python.exe c:/Users/10696/Desktop/access/zhihu/crawler.py --think --answer --article  --MarkDown
     zhihu()
     # try:
     #     crawl_links_scratch = False
diff --git a/requirement.txt b/requirement.txt
index 09482f053a0dc9c2c089d754030c37ca0d4ca90c..05934642a8df9ab248500d2757e8b96ed79a7608 100644
GIT binary patch
delta 51
zcmZ=Mn&6_B#E{C6$WY2q!jQ?32BdQsiW%~ObOD12gDnv2F&Hu!0ZAhUUIs1(03?D4
A?f?J)

delta 4
LcmXSNncxBd1N;Gt