有效沟通问答-【官方】百战程序员_IT在线教育培训机构

会员可以在此提问，百战程序员老师有问必答

对大家有帮助的问答会被标记为“推荐”
看完课程过来浏览一下别人提的问题，会帮你学得更全面

截止目前，同学们一共提了 128778个问题

时间排序推荐排序

Python 全系列/第十五阶段：Python 爬虫开发/scrapy框架使用 1楼

bin/bash在哪里能看到?是docker ps 后的command吗

Python 全系列/第十五阶段：Python 爬虫开发/docker容器扩展-旧20230925 2楼

老师,mongodb中怎么获取所有的字段名呢？

Python 全系列/第十五阶段：Python 爬虫开发/爬虫数据存储 3楼

为啥在begin.py里执行scrapy crawl正常但img里保存不了图片，而在命令行里执行scrapy crawl就可以正常保存

Python 全系列/第十五阶段：Python 爬虫开发/scrapy框架使用（旧） 4楼

老师，我按照视频写出现了图一的错误。然后我百度了一下解决办法，如图二，按照图二尝试了一下还是没有成功。

视频中说chromedriver.exe安装在Python下的Script目录中，与图二冲突，到底安装在哪？
我的浏览器是双核浏览器，这与出现图一的问题是否有关联？
图一的错误我还是没有解决

Python 全系列/第十五阶段：Python 爬虫开发/爬虫反反爬- 5楼

老师你好，我想暗搓搓地问一个不是本节课的知识点，就是VScode怎么设置可以使得输入main可以提示if __name__ == "__main__"，我pycharm可以提示但是VScode不行。

Python 全系列/第十五阶段：Python 爬虫开发/scrapy框架使用（旧） 6楼

老师，我这su进入不管理员模式啊，直接到根目录

Python 全系列/第十五阶段：Python 爬虫开发/移动端爬虫 7楼

第2节搞这个插件心态都要蹦了

给的那个软件根本打不开

最后还是网上下载了一个更高版本的

才能用。

Python 全系列/第十五阶段：Python 爬虫开发/爬虫基础（旧） 8楼

import requests

from fake_useragent import UserAgent

from lxml import etree

#找到url地址

url='https://www.zongheng.com/rank?nav=recommend&rankType=6'

#设置请求头

headers={'User-Agent':UserAgent().edge}

#发送请求

resp=requests.get(url,headers=headers)

#解析数据

e=etree.HTML(resp.text)

#提取数据

names=e.xpath('//div[@class="rank-modules-works--main-item-title ellipsis-two-lines global-hover"]/span/text()')

authors=e.xpath('//div[@class="rank-modules-works--main-item-author ellipsis"]/span[1]/text()')

#打印数据

for n,a in zip(names,authors):

print(n,a)

老师代码运行之后，没有出结果，2个表达式在浏览器上面试出了结果

Python 全系列/第十五阶段：Python 爬虫开发/爬虫基础 9楼

老师我这里在爬取了两页之后会提示说编码错误，麻烦老师帮我看下

from urllib.request import Request,urlopen
from fake_useragent import UserAgent

def get_html(url):
    headers = {"User-Agent": UserAgent().chrome}
    request = Request(url,headers=headers)
    response = urlopen(request)
    return response.read().decode()

def save_html(html,filename):
    with open(filename,'w',encoding='utf-8') as f:
        f.write(html)

def main(): 
    for i in range(1,4):
        url = 'https://www.qiushibaike.com/8hr/page/{}/'.format(i)
        html = get_html(url)
        filename = '《糗事百科》第'+str(i)+'页.html'
        save_html(html,filename)
        
if __name__ == "__main__":
    main()

Python 全系列/第十五阶段：Python 爬虫开发/爬虫基础（旧） 10楼

这个报错是什么原因？

Python 全系列/第十五阶段：Python 爬虫开发/scrapy框架使用 11楼

老师，关于验证码登录，我的代码没有问题，就是我不用session会话登录反而能登陆成功，用了session对象登录每次都登录不成功，求解！

云打码demo.zip

Python 全系列/第十五阶段：Python 爬虫开发/爬虫反反爬- 12楼

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

from urllib.request import Request,build_opener
from fake_useragent import UserAgent
from urllib.request import ProxyHandler

url = 'http://httpbin.org/get'
headers = {'User-Agent':UserAgent().chrome}
request = Request(url,headers=headers)
# 使用代理的两种方式
# handler = ProxyHandler({"http":"ip:port"})
# handler = ProxyHandler({"http":"name:password@ip:port"})
handler = ProxyHandler({'http':'27.46.20.189:8888'})
# handler = ProxyHandler({"http": "398707160:j8inhg2g@39.105.117.225:16818"})
opener = build_opener(handler)
response = opener.open(request)
print(response.read().decode())

运行结果：

为什么结果中"origin"的值有两个，而且跟代理的ip不一样

Python 全系列/第十五阶段：Python 爬虫开发/scrapy框架使用（旧） 13楼

import requests
from fake_useragent import UserAgent
from jsonpath import jsonpath
import json

url = 'https://www.lagou.com/lbs/getAllCitySearchLabels.json'
headers = {'User-gent':UserAgent().chrome}
resp = requests.get(url,headers=headers)
# print(resp.text)

obj = json.loads(resp.text)

ids = jsonpath(obj,"$..id")  #  第一个参数是obj对象，第二个是参数是jsonpath表达式
names = jsonpath(obj,'$..name')

for i,n in zip(ids,names):
    print(i,n)

我这个代码为什么报错呀，打印不出来

Python 全系列/第十五阶段：Python 爬虫开发/爬虫基础 14楼

import scrapy
import re
from chaojiying_Python.chaojiying import get_code

class Login1Spider(scrapy.Spider):
    name = 'login1'
    allowed_domains = ['ganji.com']
    start_urls = ['https://passport.ganji.com/login.php']
    def parse(self, response):
        img_url = 'https://passport.ganji.com/ajax.php?dir=captcha&module=login_captcha'
        hash_code =re.search(r'"__hash__":"(.+)"',response.text).group(1)
        yield scrapy.Request(img_url,callback=self.do_fromdata,meta={'hash_code':hash_code})
    def do_fromdata(self,response):
        with open('code.jpg','wb') as f:
            f.write(response.body)
        #code = get_code('code.jpg')
        code = input("请输入验证码：")
        hash_code = response.request.meta['hash_code']
        data = {
            'username': '17030240219',
            'password': '123456qaz',
            'setcookie': '14',
            'checkCode':code,
            'next': '/ user / register_success.php?username=17030240219&next=%2F',
            'source':'passport',
            '__hash__':hash_code
        }
        login_url = 'https://passport.ganji.com/login.php'
        yield scrapy.FormRequest(login_url,method='POST',formdata=data,callback=self.after_login)
        #print(response.text)
    def after_login(self,response):
        print(response.text)

为什么登录时显示无效数组长度，这个怎么弄

Python 全系列/第十五阶段：Python 爬虫开发/scrapy 框架高级 15楼

同学您好