爬虫 – ChaBug安全

[开车]Python爬取mm131美女套图附百度云

Y4er — Sun, 21 Jan 2018 08:46:00 +0000

最近闲来无事，在学python爬虫，而对于一个老司机来说，美女图永远是我学习爬虫的动力。@(小乖)

而对于所有的性感美女图片站中，mm131可谓是独树一帜，他们家的模特着实漂亮@(你懂的)，这也就促成了我的这篇文章。

先贴一张图片吧#(邪恶)

看完是不是鸡儿一硬@(滑稽)
别急来看代码

#!/usr/bin/env python
# coding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import os
import sys
def downloadpic(url):
        headers={
                'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
                'Accept-Encoding':'gzip, deflate',
                'Accept-Language':'zh-CN,zh;q=0.9',
                'Connection':'keep-alive',
                'Cookie':'UM_distinctid=160c072721f36a-049309acceadc2-e323462-144000-160c0727220f67; CNZZDATA3866066=cnzz_eid%3D1829424698-1494676185-%26ntime%3D1494676185; bdshare_firstime=1515057214243; Hm_lvt_9a737a8572f89206db6e9c301695b55a=1515057214,1515074260,1515159455; Hm_lpvt_9a737a8572f89206db6e9c301695b55a=1515159455',
                'Host':'img1.mm131.me',
                'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
                'Referer':'http://www.mm131.com/'
        }
        #url='http://www.mm131.com/xinggan/3561.html'
        r=requests.get(url)
        #r.encoding="gb2312"
        r.encoding=r.apparent_encoding
        html=r.text
        # 套图标题
        title = BeautifulSoup(html,'lxml').find("h5").get_text()
        #获取页码
        page = BeautifulSoup(html, 'lxml').find("span", {"class": "page-ch"}).get_text()
        print page
        pattern = re.compile('\d*')
        page = pattern.findall(page)[1]
        #创建以套图标题为题的文件夹
        path="E:\\pic\\"
        os.makedirs(path + title + page + 'P')
        #获取第一张图片地址
        a = re.search(r'img alt=.* src="(.*?)" /',html,re.S)
        print a.group(1)
        pic=requests.get(a.group(1),headers=headers)
        #下载图片
        f=open(path + title + page + 'P'  + '\\' + '1.jpg',"wb")
        f.write(pic.content)
        f.close
        #下载第一张以后的图
        after = int(page) + 1
        for i in range(2, after):
                #改变地址结构
                url0 = url[:-5]
                url1 = url0 + '_' + str(i) + '.html'
                #print url1
                html=requests.get(url1).text
                a = re.search(r'img alt=.* src="(.*?)" /',html,re.S)
                pic=requests.get(a.group(1),headers=headers)
                print a.group(1)
                f=open(path + title + page + 'P'  + '\\' +  str(i) +".jpg","wb")
                f.write(pic.content)
                f.close
if __name__ == '__main__':
    url = 'http://www.mm131.com/xinggan/'
    html = requests.get(url).text
    urls = BeautifulSoup(html, 'lxml').find('dl', {'class': 'list-left public-box'}).findAll('a', {'target': '_blank'})
    for url in urls:
        url = url['href']
        print url
        #downloadpic(url)
    for i in range(2,122):
        print("第"+str(i)+"页")
        url = 'http://www.mm131.com/xinggan/list_6_'+str(i)+'.html'
            html = requests.get(url).text
        urls = BeautifulSoup(html,'lxml').find('dl',{'class': 'list-left public-box'}).findAll('a',{'target': '_blank'})
        for url in urls:
            url = url['href']
            print url
            downloadpic(url)

ps:

注意安装模块
请注意修改文件保存路径,在37行 path="E:\\pic\\"

@(呵呵)看这里 Github开源给个star啊

百度云套图地址：https://pan.baidu.com/s/4dFQ7Tdv

[干货]Python爬虫-爬取各个地区的天气.

Y4er — Tue, 16 Jan 2018 11:50:00 +0000

大家好，我是傲天

好，开始正题，开始我们的爬虫!

首先配上效果图

OK，先说一下我的运行环境

Windows7
Python3.6

接下来是依赖库

BeautifulSoup
requests
pinyin

进入正题贴代码

import requests
import pinyin
from bs4 import BeautifulSoup
from os import system
class Get_url_weather(object):
    #实现请求一个天气的URL，并对数据进行解析
    def __init__(self, url, timeout=2):
        #    请扔进来一个url,还有一个超时查询默认为2秒吧
        self.r = requests.get(url, timeout=timeout)
        if self.r.status_code == 404:
            print("出现错误,请检查输入是否正确，如若多次输入不正确，说明该程序无法查询到你地址的天气")
    def get(self):
        soup = self.get_soup()
        #因为我们想要的信息都在一个dl里，class="weather_info"
        html = self.get_dl_weather_ifno(soup)
        a = []
        a.append("标头:{}".format(html.img["alt"]))
        a.append("地区:{}".format(html.dd.h2.text))
        a.append("{}".format(html.find("dd", class_="kongqi").h6.text))
        a.append("{}".format(html.find("dd", class_="kongqi").span.text)[:9])
        a.append("{}".format(html.find("dd", class_="kongqi").span.text)[9:])
        a.append("{}".format(html.find("dd", class_="shidu").b.text))
        a.append("{}".format(html.find("dd", class_="shidu").find_all("b")[1].text))
        a.append("{}".format(html.find("dd", class_="shidu").find_all("b")[2].text))
        a.append("{}".format(html.find("dd", class_="kongqi").h5.text))
        a.append("当前时间:{}".format(html.find("dd", class_="week").text))
        a.append("当前天气:{}".format(html.find("span").b.text))
        a.append("全天温度:{}".format(html.find("span").text))
        return a
    def get_soup(self):
        return(BeautifulSoup(self.r.text, "html.parser"))
    def get_dl_weather_ifno(self, soup):
        return (soup.find("dl", attrs={'class':'weather_info'}))
if __name__ == "__main__":
    URL = "http://www.tianqi.com/"
    url_path = pinyin.get(input("请输入地区名(不需要带市或省):"), format="strip")
    URL = URL+url_path
    Data = Get_url_weather(URL)
    data = Data.get()
    print('\n'.join(data))
    system("pause")
    #print(str(pinyin.get("你好", format="strip")))

需要学习爬虫的交流群:62851737

[干货]基于itchat,用Python玩微信.

Y4er — Tue, 16 Jan 2018 11:48:00 +0000

大家好，我是傲天

好，开始正题，开始我们的爬虫!

OK，先说一下我的运行环境

Windows7
Python3.6

接下来是依赖库

itchat

我承认上边是从那个文章复制来的

进入正题贴代码

"""
    这个程序会跑在服务器上，然后每天定时给某些好友发送一些信息
    目前这些信息包括每天凌晨发送过去天气状况
"""
import itchat
from time import sleep
import time
Wchat = itchat.auto_login(hotReload=True)
friends = itchat.get_friends()[0:]
#创建一个字典保存用户名称和id
friends_name = {}
for i in friends:
    if i["RemarkName"]:
        if i["RemarkName"] not in friends_name:
            friends_name[i["RemarkName"]] = i["UserName"]
while True:
    #sleep(30) #休眠一分钟
    #itchat.send_msg("xxx", toUserName='filehelper')
    #获取当前小时数
    time_now = time.strftime('%H%M',time.localtime(time.time()))
    if int(time_now) == 0700:#说明到了两点，然后就发送消息
        #在这个老爸的位置你可以更改为任何人，但那个人一定是你给备注了的名字
        itchat.send_msg(time.strftime('%Y-%m-%y-%H-%M-%S',time.localtime(time.time())), friends_name["老爸"])
        sleep(60)

当然这个程序还没有搞完，现在只是简单的实现了一个早上七点准时发一个消息
接下来我会将这个程序和天气的那个爬虫融合，让它每天早上7点准时给你报天气
这就是为什么我把上一个爬虫写成一个类，好的，等我下一篇吧。接下来又是交流群:62851737