python 入门,网页数据抓取
正在研究这篇文章:
使用 Python 蛮力提取"网易读书"书籍内容
http://xanpeng.iteye.com/blog/816748
这个不错。正好入门学习使用。
1、其中用到 feedparser:
技巧:使用 Universal Feed Parser 驾驭 RSS
http://www.ibm.com/developerworks/cn/xml/x-tipufp.html
请访问 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。
feedparser 实际下载地址:
http://code.google.com/p/feedparser/downloads/list
2、另外,需要将文件加上 utf-8 的 bom 头,需要用到 python 写入十六进制字符:
http://linux.byexamples.com/archives/478/python-writing-binary-file/
python 写入十六进制字符
file.write("\x5F\x9D\x3E")
file.close()
3、因为要调试,文件的打开模式改成 w 方便一些。
import urllib
import sys
import re
from feedparser import _getCharacterEncoding as enc
class TagParser:
def __init__(self, value):
self.value = value
def get(self, start, end):
regx = re.compile(r'<' + start + r'.*?>.*</' + end + r'>')
return re.findall(regx, self.value)
if __name__ == "__main__":
baseurl = "http://data.book.163.com/book/section/000BAfLU/000BAfLU"
f = open("test_01.txt", "w")
f.write("\xef\xbb\xbf")
# for ndx in range(0, 56):
for ndx in range(0, 1):
url = baseurl + str(ndx) + ".html"
print "get content from " + url
src = urllib.urlopen(url)
text = src.read()
f1= open("tmp_" + str(ndx) + ".txt", "w")
f1.write(text)
f1.close()
encoding = enc(src.headers, text)[0]
tp = TagParser(text)
title = tp.get('h1 class="f26s tC"', 'h1')
article = tp.get('p class="ti2em"', 'p')
t = re.sub(r'</.+>', '\n', title[0])
t = re.sub(r'<.+>', '\n', t)
data = t
c = ""
for p in article:
pt = re.sub(r'</p>', '\n', p)
c += pt
c = re.sub(r'<.+>', '\n', c)
data += c
data = data.decode(encoding)
f.write(data.encode('utf-8', 'ignore'))
f.close()
分享到:
相关推荐
python抓取网页数据入门知识,资料来源于网上共享
基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎...
在这个教程中,我们将以爬取百度首页为例,介绍如何使用Python语言进行简单的网页数据抓取。 本教程主要分为四个部分: 导入所需库:介绍了在爬虫程序中需要使用的Python库,包括requests库(用于向网站发送HTTP...
python抓取百度搜索的数据,智普推荐使用教程
技术关键词: 网络爬虫、数据抓取、数据清洗、Python编程 内容关键词: 网页解析、数据提取、数据存储、爬虫工具 用途: 提供基础知识和技能,帮助初学者了解和入门网络爬虫,掌握数据采集和处理的基本方法。 资源...
基于Python实现的LOL贴吧批量信息数据抓取 Python贴吧数据采集从入门到进阶 多个版本 含文档说明.rar
爬虫python入门 爬虫python入门 Python爬虫,简而言之,就是使用Python编程语言来编写的网络爬虫程序。...总之,Python爬虫是一种强大的数据抓取工具,可以帮助我们高效地从互联网上获取所需的信息。 以下为爬虫示例
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
Python数据科学课程教您掌握Python编程概念, 深入了解数据分析、机器学习、数据可视化、Web抓取和自然语言处理。学完本课程后,您将掌握使用Python进行数据科学分析的基本技能。很多数据科学职位将Python列为一项...
第07章项目实战1-论坛网站,实现静态网页数据抓取第08章多线程和线程池编程-进一步改造爬虫 第09章项目实战2-电商网站,实现动态网网站的数据抓取 第10章实战项目3-社区网站,实现模拟登陆和验证码 第11章先懂反爬再...
别担心,这些源码将助你轻松搞定数据抓取,让你成为网络世界的“数据侠盗”。 它们还具有超强的实用价值。无论你是想要分析竞品数据、收集行业情报,还是想要偷窥某个女神的社交媒体动态,这些源码都能满足你的需求...
爬虫python入门 Python爬虫,简而言之,就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序,能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言,特别适合...
内容概要:Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。...
Python入门网络爬虫之精华版 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要...
第07章项目实战1-论坛网站,实现静态网页数据抓取第08章多线程和线程池编程-进一步改造爬虫 第09章项目实战2-电商网站,实现动态网网站的数据抓取 第10章实战项目3-社区网站,实现模拟登陆和验证码 第11章先懂反爬再...
摘要 初学爬虫的朋友可以通过以下三个项目,逐步掌握使用Python进行网页爬取和数据提取的方法: 1. 爬取静态网页内容,如抓取...在三个月内,通过持续编写代码练习,就可以入门Python爬虫,为更多数据采集项目做好准备。
1. **Python爬虫入门基础** - 1.1 爬虫概念及其工作原理 - 1.2 Python环境搭建与爬虫库介绍 - 1.3 爬虫的合法性与道德规范 2. **网络请求与HTML基础** - 2.1 HTTP协议基础 - 2.2 使用requests库发起网络请求 -...
第07章项目实战1-论坛网站,实现静态网页数据抓取 第08章多线程和线程池编程-进一步改造爬虫 第09章项目实战2-电商网站,实现动态网网站的数据抓取 第10章实战项目3-社区网站,实现模拟登陆和验证码 第11章先懂...
Python 3 第一个练手程序, 访问python的官方网站, 下载最新的Win+Mac版本的Python到本地.