抓取文章内容

这个项目希望抓取网站的文章，使用 requests + bs4。主要提供两个函数：

get_matched_link(logger, pattern, url, cb_get_urls): 从指定页面(url)，根据模式(pattern)匹配找到对应的 html tags，然后调用 cb_get_urls(tag) 个到url;
get_page_content(logger, pattern, url, cb_get_content): 从url指定的页面中，提取匹配的正文，本质与 get_matched_link() 一样 :)

使用百度百科搜索

本项目通过百度百科搜索关键词，并保存关键词正文。data/ 目录中为需要搜索的关键词文件，每个关键词为一行，然后调用

GET baike.baidu.com/search/word?word=<kw>

项目内置了成语的关键词文件。提取所有关键词

python3 baike_baidu.py all

提取指定关键词

python3 baike_baidu.py 勾股定理

使用 sqlite3 存储，数据结构：

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
.vscode		.vscode
data		data
.gitignore		.gitignore
README.md		README.md
baike_baidu.py		baike_baidu.py
cnbeta.py		cnbeta.py
db.py		db.py
deyuxs_net.py		deyuxs_net.py
extract_sentences.py		extract_sentences.py
grab.py		grab.py
grab.sh		grab.sh
grab_stack.py		grab_stack.py
hupu.py		hupu.py
jandan.py		jandan.py
jianshu.py		jianshu.py
jiqizhixin.py		jiqizhixin.py
mydrivers.py		mydrivers.py
people.py		people.py
qdaily.py		qdaily.py
sohu.py		sohu.py
tianya.py		tianya.py
xinhuanet.py		xinhuanet.py