python 分类

文章摘自加自己实际操作

前言

需要准备 python 环境

使用 pip 命令安装

1. 把 pip 升级到最新版本

pip3 install --upgrade pip

9_爬虫

Referer ：打开这个网页之前来自哪里
User-Agent：网站的一些信息，浏览器信息版本什么的

10_requests包

遇到问题: requests.exceptions.SSLError - dh key too small

import requests
import requests.packages.urllib3  
requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS = 'ALL:@SECLEVEL=1'  
requests.packages.urllib3.disable_warnings()

page = requests.get(url, verify=False)

1_base

开启新的征程

Hello Python（输出函数）

输出函数

# 井号是行注释
# 输出字符串
print('hello world')

print("hello world")

# 含有运算符表达式
print(3 + 1)

# 将数据输出到文件中
fp = open('./text.txt','a+') # a+就是没有这个文件就创建
print('hello world',file=fp)
fp.close()

# 不换行输出
print('hello','world','Python')

7_Web解析到网络空间

网络爬虫Request

提供了简单易用的类HTTP协议网络爬虫功能
支持连接池、SSL、Cookies、HTTP(S)代理等
是Python最主要的页面级网络爬虫功能库

Request官网地址：http://www.python-requests.org/

网络爬虫框架Scrapy

8_wordcloud库的使用

安装

pip install wordcloud

6_jieba库的使用

是优秀的中文分词第三方库，中文文本需要通过分词获得单个词语

安装

pip install jieba

3_time模块使用

import time

获取时间

.time() 函数：获取当前时间戳，很长的浮点数。1970 年 1 月 1 日 0 点 0 分开始到当前时刻为止秒为单位的数值

.ctime()：获取当前时间并以易读的方式标识返回字符串

.gmtime()：获取当前时间，标识计算机可以处理的时间

时间格式化

时间转字符串

.strftime(tpl, ts)：tpl 是格式化模板字符串，用来定义输出效果。ts 是计算机内部事件类型变量

import time

t = time.gmtime()
time.strftime('%Y-%m-%d %H:%M:%S', t)

4_random模块的使用

random模块的使用

是使用随机数的Python标准库

伪随机数：采用梅森旋转算法生成的（伪）随机序列中元素
计算机不能产生真正的随机数，所以伪随机数被称为随机数

基本函数

随机数种子产生，随机数种子确定了随机数序列。种子给一次就行。

.seed(a = None)：初始化给定的随机数种子，默认为当前系统时间。给几产生几个随机序列
.random()：生成一个[0.0, 1.0]之间的随机小数

为什么使用种子：因为只要种子相同，下次运行程序还是这个序列，可以复现

只要我们重新设置seed下次random的值是一样的。