大学生涯
未读[toc] Scrapy一. Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架,可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。 尽管 Scrapy 最初是为网络抓取设计的,但它也可以用于使用 API(如Amazon Associates Web Services)提取数据,或用作通用网络爬虫。 其支持: 使用扩展 CSS 选择器和 XPath 表达式,以及使用正则表达式进行提取的帮助器方法,内置支持从 HTML/XML 源中选择和提取数据。 一个交互式外壳控制台(IPython 识别),用于尝试 CSS 和 XPath 表达式以抓取数据,在编写或调试爬虫时非常有用。 内置支持生成信息导出,格式多样(JSON、CSV、XML),并将其存储在多个后端(FTP、S3、本地文件系统)中。 强大的编码支持和自动检测,用于处理外来、非标准和损坏的编码声明。 强大的可扩展性支持,允许您使用信号和明确定义的 API(中间件、扩展和管道)插入您自己的功能。 用于处理的内置扩展和中间件范围广泛 cookie 和会话处理 HTTP 功能,如压缩 ...
[toc] 一. 正则1. 正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。常用函数有: 1> re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match() 就返回 none。 1re.match(pattern, string, flags=0) 函数参数说明: 参数 描述 pattern 匹配的正则表达式 string 要匹配的字符串。 flags 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 匹配成功 re.match 方法返回一个匹配的对象,否则返回 None。 123import reprint(re.match('www', 'www.baidu.com') ...
[toc] 面向对象一. 内置内属性 属性 定义 dict 类的属性(包含一个字典,由类的数据属性组成) doc 类的文档字符串 name 类名 module 类定义所在的模块(类的全名是’main.className’,如果类位于一个导入模块mymod中,那么className.module 等于 mymod) bases 类的所有父类构成元素(包含了一个由所有父类组成的元组) 123456789101112131415161718# 实例 1class Employee: """所有员工的基类""" empCount = 0 def __init__(self, name, salary): self.name = name self.salary = salary Employee.empCount += 1 def displayCount(self): print("Total Employee ...
@[toc] 一. 面向对象1. 简介Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对象是很容易的。本章节我们将详细介绍Python的面向对象编程。 如果你以前没有接触过面向对象的编程语言,那你可能需要先了解一些面向对象语言的一些基本特征,在头脑里头形成一个基本的面向对象的概念,这样有助于你更容易的学习Python的面向对象编程。 接下来我们先来简单的了解下面向对象的一些基本特征。 特征 概念 类(Class) 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。 类变量 类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量使用。 数据成员 类变量或者实例变量, 用于处理类及其实例对象的相关的数据。 方法重写 如果从父类继承的方法不能满足子类的需求,可以对其进行改写,这个过程叫方法的覆盖(override),也称为方法的重写。 局部变量 定义在方法中的变量,只作用于当前实例的类。 实例变量 在类的声明中,属性是用变量来表示 ...
@[TOC] 一、os模块Python的os模块提供了帮你执行文件处理操作的方法,比如重命名和删除文件。 要使用这个模块,你必须先导入它,然后才可以调用相关的各种功能。 123456#加载import os#查看os下的函数print(dir(os))#查看os.path下的函数print(dir(os.path)) 1. 常用函数1> rename() 方法rename() 方法为重命名文件,需要两个参数,当前的文件名和新文件名。 1234import os# 重命名文件password.txt到test.txt。os.rename("password.txt", "test.txt") 2> remove()方法你可以用remove()方法删除文件,需要提供要删除的文件名作为参数。 1234import os # 删除一个已经存在的文件test.txtos.remove("test.txt") 3> mkdir()方法可以使用os模块的mkdir()方法在当前目录下创建新的目录们。你需要提供一 ...
[toc] 一. 函数函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。 函数能提高应用的模块性,和代码的重复利用率。你已经知道Python提供了许多内建函数,比如**print()**。但你也可以自己创建函数,这被叫做用户自定义函数。 1. 定义函数你可以自定义一个自己想要功能的函数,以下是简单的规则: 函数代码块以 def 关键词开头,后接函数标识符名称和圆括号 () 。 任何传入参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。 函数的第一行语句可以选择性地使用文档字符串—用于存放函数说明。 函数内容以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回 None。 2. 语法及实例1234def func(str): "打印任何传入的字符串" print(str) return 3. 函数调用定义一个函数只给了函数一个名称,指定了函数里包含的参数,和代码块结构。这个函数的基本结构完成以后,你可以通过另一个函数调用执行,也可以直接从Python提示符 ...