From ff1eeadd97107781b964ecfee818097b16f85492 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:28:38 +0800 Subject: [PATCH 01/10] Update README.md --- README.md | 13 ++++++++++--- 1 file changed, 10 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 053c5f4..dfc534e 100644 --- a/README.md +++ b/README.md @@ -67,13 +67,13 @@ python.exe crawler.py --think ` **爬取知乎回答** -默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s** +默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s ` python.exe crawler.py --answer ` **爬取知乎的article** -默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s** +默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s ` python.exe crawler.py --article ` @@ -95,4 +95,11 @@ python.exe crawler.py --think --article --answer ### 爬取注意事项 1、需要较好的网速,本机网速测验是下载100Mbps,上传60Mbps,低点也可以的,不是太慢太卡就行[https://www.speedtest.cn/](https://www.speedtest.cn/) -2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s \ No newline at end of file +2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s + +### blogs +[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l` +[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948) +[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892) +[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422) +[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909) From 65a55d669c51396752121c1993dae6647bd38707 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:29:20 +0800 Subject: [PATCH 02/10] Update README.md --- README.md | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/README.md b/README.md index dfc534e..7891833 100644 --- a/README.md +++ b/README.md @@ -98,8 +98,8 @@ python.exe crawler.py --think --article --answer 2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s ### blogs -[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l` -[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948) -[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892) -[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422) -[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909) +[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l`
+[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948)
+[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892)
+[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422)
+[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909)
From e00a5b6b9a7f0c5a110bf1208c33413b675cce45 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:32:56 +0800 Subject: [PATCH 03/10] Update README.md --- README.md | 30 +++++++++++++++--------------- 1 file changed, 15 insertions(+), 15 deletions(-) diff --git a/README.md b/README.md index 7891833..566ac8b 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,5 @@ # 爬取知乎的内容 -考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多 +考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
## 亮点 1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答 @@ -18,25 +18,25 @@ 每篇article都附带了修改时间和IP属地 -保存到Markdown格式的数学公式、codes和图片 -泰勒公式推导方式 -c++_set运算符重载 - +保存到Markdown格式的数学公式、codes和图片
+泰勒公式推导方式
+c++_set运算符重载
+
-保存到PDF格式的,标题下面是网址 - +保存到PDF格式的,标题下面是网址
+
### 爬取到的回答展示 -点击即可进入answer目录查看的 -每篇回答也附带了修改时间和IP属地 +点击即可进入answer目录查看的
+每篇回答也附带了修改时间和IP属地
-保存到Markdown格式的数学公式、codes和图片 -矩阵A正定,证A的逆矩阵和伴随矩阵也正定 -Visual_Studio_Code_怎么编写运行_C、C++_程序 - +保存到Markdown格式的数学公式、codes和图片
+矩阵A正定,证A的逆矩阵和伴随矩阵也正定
+Visual_Studio_Code_怎么编写运行_C、C++_程序
+
-保存到PDF格式的,标题下面是网址 - +保存到PDF格式的,标题下面是网址
+
## 环境以及安装 **win10** **python** From f60b20353aa323ef93e64a8098db6c74899182aa Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:35:09 +0800 Subject: [PATCH 04/10] Update README.md --- README.md | 64 +++++++++++++++++++++++++++---------------------------- 1 file changed, 32 insertions(+), 32 deletions(-) diff --git a/README.md b/README.md index 566ac8b..9b20826 100644 --- a/README.md +++ b/README.md @@ -2,20 +2,20 @@ 考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
## 亮点 -1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答 +1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
-2、保存**article**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown** +2、保存**article**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**
-3、保存**想法**到text并保存相应的图片,最后对所有text进行汇总到一个档案 +3、保存**想法**到text并保存相应的图片,最后对所有text进行汇总到一个档案
### 爬取到的想法展示 -按照发布时间分目录存放,保存了图片以及文本文件 -点击即可进入think目录查看的 -2023-01-21 13:01 - +按照发布时间分目录存放,保存了图片以及文本文件
+点击即可进入think目录查看的
+2023-01-21 13:01
+
### 爬取到的article展示 -点击即可进入article目录查看的 -每篇article都附带了修改时间和IP属地 +点击即可进入article目录查看的
+每篇article都附带了修改时间和IP属地
保存到Markdown格式的数学公式、codes和图片
@@ -40,62 +40,62 @@ ## 环境以及安装 **win10** **python** -1、点击下面这个网页,安装miniconda也就是安装python,下载好以后安装即可,在安装时需要加入到系统环境变量,勾选下图第二个框即可。 [https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe](https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe) - -2、接着需要修改python安装的路径,将msedgedriver\\.condarc这个档案放到根目录`C:\Users\username`即可,另外再打开一个cmd或者PowerShell -运行`conda clean -i`输入`Y`即可,此时Python已经可以使用了 - -3、安装Python相关的调用库,另外再打开一个cmd或者PowerShell,运行 -cd C:\Users\usrname\zhihu -pip install -r .\requirement.txt +1、点击下面这个网页,安装miniconda也就是安装python,下载好以后安装即可,在安装时需要加入到系统环境变量,勾选下图第二个框即可。
[https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe](https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe)
+
+2、接着需要修改python安装的路径,将msedgedriver\\.condarc这个档案放到根目录`C:\Users\username`即可,另外再打开一个cmd或者PowerShell
+运行`conda clean -i`输入`Y`即可,此时Python已经可以使用了
+
+3、安装Python相关的调用库,另外再打开一个cmd或者PowerShell,运行
+cd C:\Users\usrname\zhihu
+pip install -r .\requirement.txt

## 使用 ### 1、登录 -运行以下内容,这一步是**手动**操作,需要人工输入账号和密码,然后点击登录就行,登录以后会自动保存好cookie,以后爬取时就不用重复登录了,保存的cookie在这个目录的**cookie**,产生的档案是**cookie_zhihu.pkl** +运行以下内容,这一步是**手动**操作,需要人工输入账号和密码,然后点击登录就行,登录以后会自动保存好cookie,以后爬取时就不用重复登录了,保存的cookie在这个目录的**cookie**,产生的档案是**cookie_zhihu.pkl**

python.exe crawler.py

运行以后会弹出一个浏览器,自动打开知乎页面以后就可以开始登录,下图所示就是登录页面,两类登录方式都可以,只要能登录就行,点击登录以后,不要再操作页面,键盘或鼠标都不可以,登录时间默认给了130s时间,130秒以后会自动退出,然后查看目录cookie是否保存好cookie_zhihu.pkl,保存好就可以开始爬取了。
- -### 2、每项单独爬取 -爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的 +
+### 2、每项单独爬取
+爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的
**爬取知乎想法** - -默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上 +
+默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上
` python.exe crawler.py --think ` - +
**爬取知乎回答** 默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s ` python.exe crawler.py --answer ` - +
**爬取知乎的article** 默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s ` python.exe crawler.py --article ` - +
### 3、三项一起爬取的 ` python.exe crawler.py --think --article --answer ` - +
### 又发布了一篇,只爬取写的这篇 第一次可以全部爬取,等所有article或者回答或者想法都已经爬取好以后,此时若是又写了一篇或者几篇,而且想爬取到本地,可以将article/article.txt这个档案重命名到article/article_2023_06_20.txt,或者重命名answer.txt,然后将写好的article或者回答的网址和标题按照之前档案的格式再create一个article.txt/answer.txt档案,运行爬取程序就可以了的,想法会跳过已经爬取好的时间,所以可以按照上面的方式运行,此时只会爬取article.txt/answer.txt的网址
若是过了很长时间,发布了很多篇,此时一篇一篇加入不太方便,可以直接将article/article.txt这个档案重命名到article/article_2023_06_20.txt,或者重命名answer.txt,然后运行爬取程序即可,上面提到了已经爬取过的不会重复爬取,所以实际只会爬取最近写好的article或者回答,想法则会直接跳过已经爬取的内容。 ### 目录 -think:该目录存放爬取到的想法内容 -article:该目录存放article的website以及爬取到的内容 -answer:该目录存放回答的website以及爬取到的内容 +think:该目录存放爬取到的想法内容
+article:该目录存放article的website以及爬取到的内容
+answer:该目录存放回答的website以及爬取到的内容
### 爬取注意事项 -1、需要较好的网速,本机网速测验是下载100Mbps,上传60Mbps,低点也可以的,不是太慢太卡就行[https://www.speedtest.cn/](https://www.speedtest.cn/) -2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s +1、需要较好的网速,本机网速测验是下载100Mbps,上传60Mbps,低点也可以的,不是太慢太卡就行[https://www.speedtest.cn/](https://www.speedtest.cn/)
+2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s
### blogs [https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l`
From 119524730060083c886f449b8423a48f54b7df3f Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:36:23 +0800 Subject: [PATCH 05/10] Update README.md --- README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 9b20826..e380324 100644 --- a/README.md +++ b/README.md @@ -57,11 +57,11 @@ pip install -r .\requirement.txt


-### 2、每项单独爬取
+### 2、每项单独爬取 爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的
**爬取知乎想法**
-默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上
+默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上 ` python.exe crawler.py --think ` @@ -82,7 +82,7 @@ python.exe crawler.py --article ` python.exe crawler.py --think --article --answer ` -
+ ### 又发布了一篇,只爬取写的这篇 第一次可以全部爬取,等所有article或者回答或者想法都已经爬取好以后,此时若是又写了一篇或者几篇,而且想爬取到本地,可以将article/article.txt这个档案重命名到article/article_2023_06_20.txt,或者重命名answer.txt,然后将写好的article或者回答的网址和标题按照之前档案的格式再create一个article.txt/answer.txt档案,运行爬取程序就可以了的,想法会跳过已经爬取好的时间,所以可以按照上面的方式运行,此时只会爬取article.txt/answer.txt的网址
From 0682c8d5dd41d0853f096c4f4d455414990c4595 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:37:19 +0800 Subject: [PATCH 06/10] Update README.md --- README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index e380324..dbcd1bf 100644 --- a/README.md +++ b/README.md @@ -65,19 +65,19 @@ pip install -r .\requirement.txt
` python.exe crawler.py --think ` -
+ **爬取知乎回答** 默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s ` python.exe crawler.py --answer ` -
+ **爬取知乎的article** 默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s ` python.exe crawler.py --article ` -
+ ### 3、三项一起爬取的 ` python.exe crawler.py --think --article --answer From 8533e26590d0af1b47ea042317ae738c27097509 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:38:23 +0800 Subject: [PATCH 07/10] Update README.md --- README.md | 22 +++++++++++----------- 1 file changed, 11 insertions(+), 11 deletions(-) diff --git a/README.md b/README.md index dbcd1bf..cdd9836 100644 --- a/README.md +++ b/README.md @@ -56,29 +56,29 @@ pip install -r .\requirement.txt
运行以后会弹出一个浏览器,自动打开知乎页面以后就可以开始登录,下图所示就是登录页面,两类登录方式都可以,只要能登录就行,点击登录以后,不要再操作页面,键盘或鼠标都不可以,登录时间默认给了130s时间,130秒以后会自动退出,然后查看目录cookie是否保存好cookie_zhihu.pkl,保存好就可以开始爬取了。
-
-### 2、每项单独爬取 -爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的
-**爬取知乎想法** -
-默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上 + +### 2、每项单独爬取
+爬取一旦开始就自动运行了,爬取窗口一般不能最小化,可以做其他事情的
+**爬取知乎想法**
+ +默认的爬取每篇想法的睡眠时间是 **6s*图片的数量** 以上
` python.exe crawler.py --think ` -**爬取知乎回答** -默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s +**爬取知乎回答**
+默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s
` python.exe crawler.py --answer ` -**爬取知乎的article** -默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s +**爬取知乎的article**
+默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s
` python.exe crawler.py --article ` -### 3、三项一起爬取的 +### 3、三项一起爬取的
` python.exe crawler.py --think --article --answer ` From 376d38f43a190e9c88db43f13b8331650bd1f0b5 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Mon, 3 Jul 2023 19:55:08 +0800 Subject: [PATCH 08/10] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index cdd9836..f04f5a6 100644 --- a/README.md +++ b/README.md @@ -39,7 +39,7 @@
## 环境以及安装 -**win10** **python** +**win10** **python**
1、点击下面这个网页,安装miniconda也就是安装python,下载好以后安装即可,在安装时需要加入到系统环境变量,勾选下图第二个框即可。
[https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe](https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe)

2、接着需要修改python安装的路径,将msedgedriver\\.condarc这个档案放到根目录`C:\Users\username`即可,另外再打开一个cmd或者PowerShell
From 7002c11aab5fe5a9484d33b69251b447cfa618a0 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Wed, 5 Jul 2023 06:39:10 +0800 Subject: [PATCH 09/10] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index f04f5a6..fc096d8 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,5 @@ # 爬取知乎的内容 -考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
+考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
## 亮点 1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
From c17225b864146312400ae369df88668751f28d02 Mon Sep 17 00:00:00 2001 From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com> Date: Wed, 5 Jul 2023 06:53:10 +0800 Subject: [PATCH 10/10] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index fc096d8..e513d7e 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ # 爬取知乎的内容 考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
- + ## 亮点 1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答