博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Python]爬虫v0.1
阅读量:5889 次
发布时间:2019-06-19

本文共 1026 字,大约阅读时间需要 3 分钟。

#coding:utf-8import urllib#######爬虫v0.1 利用urlib2 和 字符串内建函数####### 获取网页内容def getHtml(url):    page = urllib.urlopen(url)    html = page.read()    return htmldef content(html):    # 内容分割的标签    str = '
' content = html.partition(str)[2] str1 = '
' content = content.partition(str1)[0] return content # 得到网页的内容 def title(content,beg = 0): # 思路是利用str.index()和序列的切片 try: title_list = [] while beg >=0: num1 = content.index('】',beg) num2 = content.index('

',num1) title_list.append(content[num1:num2]) beg = num2 except ValueError: return title_list def get_title(): # 利用循环更新num1和num2,从而匹配出全部title pass content = content(getHtml("http://bohaishibei.com/post/10449/"))#num = content.index('】')title = title(content)for i,e in enumerate(title): print '第%d个,title:%s' % (i,e)# 今天爬的单个页面的title

只是粗略的记录写爬虫的过程和思路,本来打算直播的,但是我们十一点断电断网。明天续写这个文章,直播写爬虫。哈哈哈,虽然基础,但是也是写出来吧。

 

转载地址:http://sdgix.baihongyu.com/

你可能感兴趣的文章
欲望永恒饥饿(转自学长)
查看>>
IIS发布网站出现“未能加载文件或程序集“System.Data.SQLite”或它的某一个依赖项。”的解决方法...
查看>>
web.config中配置数据库(多数据)连接的两种方式
查看>>
给图片加上某种颜色的蒙版
查看>>
Spring Boot Hikari
查看>>
Java的进程内缓存框架:EhCache (转)
查看>>
2018年4月13日,祝自己24岁生日快乐!
查看>>
实现一个涂抹擦除效果
查看>>
Unity PhysicsScene测试
查看>>
CSS行高——line-height
查看>>
WPF成长之路------翻转动画
查看>>
Html列表分页算法
查看>>
JS自学笔记03
查看>>
vim 加密(crypt)文本文档
查看>>
理解父类引用指向子类对象
查看>>
BZOJ-2763: [JLOI2011]飞行路线 (SPFA分层图)
查看>>
make、make clean、make install、make uninstall、make dist、make distcheck和make distclean
查看>>
华为内部面试题库---(5)
查看>>
JDK动态代理实现
查看>>
反射方法关闭窗体报错的解决方法
查看>>