From ff1eeadd97107781b964ecfee818097b16f85492 Mon Sep 17 00:00:00 2001
From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com>
Date: Mon, 3 Jul 2023 19:28:38 +0800
Subject: [PATCH 01/10] Update README.md
---
README.md | 13 ++++++++++---
1 file changed, 10 insertions(+), 3 deletions(-)
diff --git a/README.md b/README.md
index 053c5f4..dfc534e 100644
--- a/README.md
+++ b/README.md
@@ -67,13 +67,13 @@ python.exe crawler.py --think
`
**爬取知乎回答**
-默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**
+默认的爬取每篇回答的睡眠时间是**16s**以上,这边实际爬取耗时平均是每篇 **30s**,每个图片需要6s
`
python.exe crawler.py --answer
`
**爬取知乎的article**
-默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**
+默认的爬取每篇article的睡眠时间是**16s**以上,这边实际爬取130多篇,耗时平均是每篇 **33.096s**,每个图片需要6s
`
python.exe crawler.py --article
`
@@ -95,4 +95,11 @@ python.exe crawler.py --think --article --answer
### 爬取注意事项
1、需要较好的网速,本机网速测验是下载100Mbps,上传60Mbps,低点也可以的,不是太慢太卡就行[https://www.speedtest.cn/](https://www.speedtest.cn/)
-2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s
\ No newline at end of file
+2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s
+
+### blogs
+[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l`
+[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948)
+[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892)
+[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422)
+[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909)
From 65a55d669c51396752121c1993dae6647bd38707 Mon Sep 17 00:00:00 2001
From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com>
Date: Mon, 3 Jul 2023 19:29:20 +0800
Subject: [PATCH 02/10] Update README.md
---
README.md | 10 +++++-----
1 file changed, 5 insertions(+), 5 deletions(-)
diff --git a/README.md b/README.md
index dfc534e..7891833 100644
--- a/README.md
+++ b/README.md
@@ -98,8 +98,8 @@ python.exe crawler.py --think --article --answer
2、爬取时设置了睡眠时间, 避免给知乎服务器带来太大压力,可以日间调试好,然后深夜运行爬取人少, 给其他小伙伴更好的用户体验, 避免知乎顺着网线过来找人,默认**6**s
### blogs
-[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l`
-[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948)
-[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892)
-[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422)
-[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909)
+[https://www.aliyundrive.com/s/NikyVRJq8JV 阿里云分享的](https://www.aliyundrive.com/s/NikyVRJq8JV) `提取 0h3l`
+[爬取知乎发布的想法和文篇和回答](https://zhuanlan.zhihu.com/p/641141948)
+[爬取CSDN发布的文篇](https://zhuanlan.zhihu.com/p/641140892)
+[https://zoujiu.blog.csdn.net/article/details/131514422](https://zoujiu.blog.csdn.net/article/details/131514422)
+[https://zoujiu.blog.csdn.net/article/details/131521909](https://zoujiu.blog.csdn.net/article/details/131521909)
From e00a5b6b9a7f0c5a110bf1208c33413b675cce45 Mon Sep 17 00:00:00 2001
From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com>
Date: Mon, 3 Jul 2023 19:32:56 +0800
Subject: [PATCH 03/10] Update README.md
---
README.md | 30 +++++++++++++++---------------
1 file changed, 15 insertions(+), 15 deletions(-)
diff --git a/README.md b/README.md
index 7891833..566ac8b 100644
--- a/README.md
+++ b/README.md
@@ -1,5 +1,5 @@
# 爬取知乎的内容
-考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
+考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
## 亮点
1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
@@ -18,25 +18,25 @@
每篇article都附带了修改时间和IP属地
-保存到Markdown格式的数学公式、codes和图片
-泰勒公式推导方式
-c++_set运算符重载
-
+保存到Markdown格式的数学公式、codes和图片
+泰勒公式推导方式
+c++_set运算符重载
+
-保存到PDF格式的,标题下面是网址
-
+保存到PDF格式的,标题下面是网址
+
### 爬取到的回答展示
-点击即可进入answer目录查看的
-每篇回答也附带了修改时间和IP属地
+点击即可进入answer目录查看的
+每篇回答也附带了修改时间和IP属地
-保存到Markdown格式的数学公式、codes和图片
-矩阵A正定,证A的逆矩阵和伴随矩阵也正定
-Visual_Studio_Code_怎么编写运行_C、C++_程序
-
+保存到Markdown格式的数学公式、codes和图片
+矩阵A正定,证A的逆矩阵和伴随矩阵也正定
+Visual_Studio_Code_怎么编写运行_C、C++_程序
+
-保存到PDF格式的,标题下面是网址
-
+保存到PDF格式的,标题下面是网址
+
## 环境以及安装
**win10** **python**
From f60b20353aa323ef93e64a8098db6c74899182aa Mon Sep 17 00:00:00 2001
From: ZouJiu1 <34758215+ZouJiu1@users.noreply.github.com>
Date: Mon, 3 Jul 2023 19:35:09 +0800
Subject: [PATCH 04/10] Update README.md
---
README.md | 64 +++++++++++++++++++++++++++----------------------------
1 file changed, 32 insertions(+), 32 deletions(-)
diff --git a/README.md b/README.md
index 566ac8b..9b20826 100644
--- a/README.md
+++ b/README.md
@@ -2,20 +2,20 @@
考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
## 亮点
-1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
+1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
-2、保存**article**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**
+2、保存**article**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**
-3、保存**想法**到text并保存相应的图片,最后对所有text进行汇总到一个档案
+3、保存**想法**到text并保存相应的图片,最后对所有text进行汇总到一个档案
### 爬取到的想法展示
-按照发布时间分目录存放,保存了图片以及文本文件
-点击即可进入think目录查看的
-2023-01-21 13:01
-
+按照发布时间分目录存放,保存了图片以及文本文件
+点击即可进入think目录查看的
+2023-01-21 13:01
+
### 爬取到的article展示
-点击即可进入article目录查看的
-每篇article都附带了修改时间和IP属地
+点击即可进入article目录查看的
+每篇article都附带了修改时间和IP属地
保存到Markdown格式的数学公式、codes和图片
@@ -40,62 +40,62 @@
## 环境以及安装
**win10** **python**
-1、点击下面这个网页,安装miniconda也就是安装python,下载好以后安装即可,在安装时需要加入到系统环境变量,勾选下图第二个框即可。 [https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe](https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe)
-
-2、接着需要修改python安装的路径,将msedgedriver\\.condarc这个档案放到根目录`C:\Users\username`即可,另外再打开一个cmd或者PowerShell
-运行`conda clean -i`输入`Y`即可,此时Python已经可以使用了
-
-3、安装Python相关的调用库,另外再打开一个cmd或者PowerShell,运行
-cd C:\Users\usrname\zhihu
-pip install -r .\requirement.txt
+1、点击下面这个网页,安装miniconda也就是安装python,下载好以后安装即可,在安装时需要加入到系统环境变量,勾选下图第二个框即可。
[https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe](https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe)
+
+2、接着需要修改python安装的路径,将msedgedriver\\.condarc这个档案放到根目录`C:\Users\username`即可,另外再打开一个cmd或者PowerShell
+运行`conda clean -i`输入`Y`即可,此时Python已经可以使用了
+
+3、安装Python相关的调用库,另外再打开一个cmd或者PowerShell,运行
+cd C:\Users\usrname\zhihu
+pip install -r .\requirement.txt
## 使用
### 1、登录
-运行以下内容,这一步是**手动**操作,需要人工输入账号和密码,然后点击登录就行,登录以后会自动保存好cookie,以后爬取时就不用重复登录了,保存的cookie在这个目录的**cookie**,产生的档案是**cookie_zhihu.pkl**
+运行以下内容,这一步是**手动**操作,需要人工输入账号和密码,然后点击登录就行,登录以后会自动保存好cookie,以后爬取时就不用重复登录了,保存的cookie在这个目录的**cookie**,产生的档案是**cookie_zhihu.pkl**
python.exe crawler.py