博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取小说——爬取章节地址
阅读量:2094 次
发布时间:2019-04-29

本文共 653 字,大约阅读时间需要 2 分钟。

def getList(book_M):    "爬取章节网址,book_L=str所有书的地址,code=list一本书所有章节的地址列表,title_L=list一本书所有章节的标题列表"    hd = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.4071 SLBChan/21"} url = book_M page = requests.get(url,headers=hd) page.encoding = page.apparent_encoding soup = BeautifulSoup(page.text, 'html.parser') dIv = soup.find('ul', attrs={
'class':"mulu_list"}) a = dIv.find_all('a') code = [] title_L = [] for i in a: src = i['href'] code.append(src.strip('.')) title_L.append(i.text) return code,title_L

转载地址:http://sbuhf.baihongyu.com/

你可能感兴趣的文章
布隆过滤器(BloomFilter)——应用(三)
查看>>
MPP架构数据库优化总结——华为LibrA(MPPDB、GuassDB)与GreenPlum
查看>>
Spark代码可读性与性能优化——示例七(构建聚合器,以用于复杂聚合)
查看>>
Spark代码可读性与性能优化——示例八(一个业务逻辑,多种解决方式)
查看>>
简单理解 HTTPS
查看>>
简单理解 NAT
查看>>
RPC框架——Thrift简单示例
查看>>
RPC框架——gRPC简单示例
查看>>
JVM对象头的简单记录
查看>>
从Java代码到Java堆——理解并优化你的应用的内存使用量
查看>>
Redis持久化与过期机制
查看>>
关于在网络中使用BIO、NIO、AIO的示例
查看>>
网络通信框架——Netty示例
查看>>
网络通信框架——KyroNet示例
查看>>
JVM对synchronized的优化——锁膨胀
查看>>
MySQL中的索引 B+Tree
查看>>
字符编码与解码(附:Java字符流与字节流源码剖析)
查看>>
Spark优化总结(一)——数据倾斜
查看>>
Spark代码可读性与性能优化——示例九(数据传输与解析)
查看>>
Spark代码可读性与性能优化——示例十(项目结构)
查看>>