`
zwhc
  • 浏览: 257999 次
  • 性别: Icon_minigender_1
  • 来自: 福州
社区版块
存档分类
最新评论

python 入门,网页数据抓取

阅读更多
python 入门,网页数据抓取

正在研究这篇文章:
使用 Python 蛮力提取"网易读书"书籍内容
http://xanpeng.iteye.com/blog/816748

这个不错。正好入门学习使用。

1、其中用到 feedparser:
技巧:使用 Universal Feed Parser 驾驭 RSS
http://www.ibm.com/developerworks/cn/xml/x-tipufp.html
请访问 feedparser.org,详细了解 Universal Feed Parser,其中还包括一些下载资料和文档。

feedparser 实际下载地址:
http://code.google.com/p/feedparser/downloads/list

2、另外,需要将文件加上 utf-8 的 bom 头,需要用到 python 写入十六进制字符:
http://linux.byexamples.com/archives/478/python-writing-binary-file/
python 写入十六进制字符
file.write("\x5F\x9D\x3E")
file.close()

3、因为要调试,文件的打开模式改成 w 方便一些。

import urllib
import sys
import re
from feedparser import _getCharacterEncoding as enc

class TagParser:
    def __init__(self, value):
        self.value = value
    def get(self, start, end):
        regx = re.compile(r'<' + start + r'.*?>.*</' + end + r'>')
        return re.findall(regx, self.value)

if __name__ == "__main__":
    baseurl = "http://data.book.163.com/book/section/000BAfLU/000BAfLU"
    f = open("test_01.txt", "w")
    f.write("\xef\xbb\xbf")
#    for ndx in range(0, 56):
    for ndx in range(0, 1):
        url = baseurl + str(ndx) + ".html"
        print "get content from " + url
        src = urllib.urlopen(url)
        text = src.read()

    f1= open("tmp_" + str(ndx) + ".txt", "w")
    f1.write(text)
    f1.close()

        encoding = enc(src.headers, text)[0]
   
        tp = TagParser(text)
   
        title = tp.get('h1 class="f26s tC"', 'h1')
        article = tp.get('p class="ti2em"', 'p')
   
        t = re.sub(r'</.+>', '\n', title[0])
        t = re.sub(r'<.+>', '\n', t)
        data = t
   
        c = ""
        for p in article:
            pt = re.sub(r'</p>', '\n', p)
            c += pt
        c = re.sub(r'<.+>', '\n', c)
        data += c
        data = data.decode(encoding)
        f.write(data.encode('utf-8', 'ignore'))
   
    f.close()


分享到:
评论

相关推荐

    手把手教你用python抓网页数据

    python抓取网页数据入门知识,资料来源于网上共享

    基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar

    基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎热榜话题的数据抓取、分析与可视化python源码+数据集.tar基于对知乎...

    百度首页数据抓取:用Python快速入门网络爬虫

    在这个教程中,我们将以爬取百度首页为例,介绍如何使用Python语言进行简单的网页数据抓取。 本教程主要分为四个部分: 导入所需库:介绍了在爬虫程序中需要使用的Python库,包括requests库(用于向网站发送HTTP...

    python抓取百度搜索的数据

    python抓取百度搜索的数据,智普推荐使用教程

    Python 爬虫基础 网络爬虫、数据采集、Python编程、数据处理

    技术关键词: 网络爬虫、数据抓取、数据清洗、Python编程 内容关键词: 网页解析、数据提取、数据存储、爬虫工具 用途: 提供基础知识和技能,帮助初学者了解和入门网络爬虫,掌握数据采集和处理的基本方法。 资源...

    基于Python实现的LOL贴吧批量信息数据抓取 Python贴吧数据采集从入门到进阶 多个版本 含文档说明.rar

    基于Python实现的LOL贴吧批量信息数据抓取 Python贴吧数据采集从入门到进阶 多个版本 含文档说明.rar

    python 爬虫入门实例.docx

    爬虫python入门 爬虫python入门 Python爬虫,简而言之,就是使用Python编程语言来编写的网络爬虫程序。...总之,Python爬虫是一种强大的数据抓取工具,可以帮助我们高效地从互联网上获取所需的信息。 以下为爬虫示例

    Python 入门爬虫和数据分析实战.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    Python数据科学入门(上)

    Python数据科学课程教您掌握Python编程概念, 深入了解数据分析、机器学习、数据可视化、Web抓取和自然语言处理。学完本课程后,您将掌握使用Python进行数据科学分析的基本技能。很多数据科学职位将Python列为一项...

    python爬虫教程从入门到精通

    第07章项目实战1-论坛网站,实现静态网页数据抓取第08章多线程和线程池编程-进一步改造爬虫 第09章项目实战2-电商网站,实现动态网网站的数据抓取 第10章实战项目3-社区网站,实现模拟登陆和验证码 第11章先懂反爬再...

    Python入门网络爬虫之精华版.zip

    别担心,这些源码将助你轻松搞定数据抓取,让你成为网络世界的“数据侠盗”。 它们还具有超强的实用价值。无论你是想要分析竞品数据、收集行业情报,还是想要偷窥某个女神的社交媒体动态,这些源码都能满足你的需求...

    python 爬虫入门实例.zip

    爬虫python入门 Python爬虫,简而言之,就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序,能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言,特别适合...

    Python入门教程-网络爬虫Scrapy框架

    内容概要:Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。...

    Python入门网络爬虫之精华版

    Python入门网络爬虫之精华版 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要...

    python爬虫可视化教程(从入门到精通)

    第07章项目实战1-论坛网站,实现静态网页数据抓取第08章多线程和线程池编程-进一步改造爬虫 第09章项目实战2-电商网站,实现动态网网站的数据抓取 第10章实战项目3-社区网站,实现模拟登陆和验证码 第11章先懂反爬再...

    如何通过三个小项目入门Python爬虫.pdf

    摘要 初学爬虫的朋友可以通过以下三个项目,逐步掌握使用Python进行网页爬取和数据提取的方法: 1. 爬取静态网页内容,如抓取...在三个月内,通过持续编写代码练习,就可以入门Python爬虫,为更多数据采集项目做好准备。

    爬虫系列课+Python技术+爬虫与反爬+基础入门课

    1. **Python爬虫入门基础** - 1.1 爬虫概念及其工作原理 - 1.2 Python环境搭建与爬虫库介绍 - 1.3 爬虫的合法性与道德规范 2. **网络请求与HTML基础** - 2.1 HTTP协议基础 - 2.2 使用requests库发起网络请求 -...

    python爬虫最全教程从入门到精通

    第07章项目实战1-论坛网站,实现静态网页数据抓取 第08章多线程和线程池编程-进一步改造爬虫 第09章项目实战2-电商网站,实现动态网网站的数据抓取 第10章实战项目3-社区网站,实现模拟登陆和验证码 第11章先懂...

    Python 3 抓取最新版的Python安装包到本地

    Python 3 第一个练手程序, 访问python的官方网站, 下载最新的Win+Mac版本的Python到本地.

Global site tag (gtag.js) - Google Analytics