我的编程空间,编程开发者的网络收藏夹
学习永远不晚

URL处理----拼接和编码

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

URL处理----拼接和编码

        ps:浪了好几周,我的锅。。。

        前几天想爬取一个用户网站自动创建每个用户的资料方便注册一些账号,想写一个通用点的爬虫程序爬取只要配置一些爬取规则、爬取深度就ok,避免代码改动,由于时间关系只完成的个半成品,后面在考虑是用xml文件作为配置文件,还是简单的使用.ini文件,后者虽然简单但局限性太大,所以,,,偷几天懒顺便重新考虑下逻辑。

==================================================================================================================================================          

        既然想通用一些,那url的一些处理必不可少,如拼接、中文编码和空格编码等问题,从网上找了下比较琐碎,所以自己简单封装了一个,主要处理了下url拼接和中文编码的问题。

运行环境:python3 、pycharm编辑器

代码如下:

 1 # -*- coding: utf-8 -*-
 2 # au: cpy
 3 # 20181016
 4 # url拼接和编码问题
 5 import re
 6 from urllib.parse import urljoin,quote
 7 
 8 
 9 def check_zh(word):
10     list_zh = re.findall('[\u4e00-\u9fa5]+',word)  # 正则匹配存在的中文
11     if list_zh:
12         for zh in list_zh:
13             word = re.sub(zh,quote(zh),word)
14             # print(word)
15     return word
16 
17 
18 def checkUrl(domain, url): # domain:域名
19     if type(url) is not str and hasattr(url, "decode"):
20         url = url.decode()
21     if not url.startswith("http"):
22         url = urljoin(domain, url)
23     url = check_zh(url)
24     return url
25 
26 if __name__ == '__main__':
27     domain = "https://www.baidu.com/"
28     # postfix_url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"
29     url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"
30     print(url)
31     print(checkUrl(domain, url))
32     '''
33     结果:
34     s?ie=UTF-8&wd=python3判断字符串中是否有中文
35     https://www.baidu.com/s?ie=UTF-8&wd=python3%E5%88%A4%E6%96%AD%E5%AD%97%E7%AC%A6%E4%B8%B2%E4%B8%AD%E6%98%AF%E5%90%A6%E6%9C%89%E4%B8%AD%E6%96%87
36     '''

ps: 代码在pycharm编辑器中正常运行,其它方式运行可能会提示存在编码问题

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

URL处理----拼接和编码

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

URL处理----拼接和编码

ps:浪了好几周,我的锅。。。        前几天想爬取一个用户网站自动创建每个用户的资料方便注册一些账号,想写一个通用点的爬虫程序爬取只要配置一些爬取规则、爬取深度就ok,避免代码改动,由于时间关系只完成的个半成品,后面在考虑是用xml
2023-01-30

python 中文url编码处理

可以直接处理中英混排的urlfrom urllib.parse import quote (python3)from urllib import quote (python2)url = 'http://www.baidu.com
2023-01-31

前端url拼接参数格式&?用&和? =拼接方法实例

在一些情况下需要直接往url上拼接请求参数,下面这篇文章主要给大家介绍了关于前端url拼接参数格式&?用&和? =拼接的相关资料,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-02-07

js怎么完全解析url和拼接

这篇文章主要介绍“js怎么完全解析url和拼接”,在日常操作中,相信很多人在js怎么完全解析url和拼接问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”js怎么完全解析url和拼接”的疑惑有所帮助!接下来,请跟
2023-06-30

python3的url编码和解码,自定义

因为很多时候要涉及到url的编码和解码工作,所以自己制作了一个类,废话不多说 码上见!# coding:utf-8import urllib.parseclass Urlchuli(): """Url处理类,需要传入两个实参:Urlc
2023-01-31

js中如何对url进行编码和解码

这篇文章主要介绍了js中如何对url进行编码和解码问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2022-11-16

怎么管理和维护大型SQL拼接代码库

管理和维护大型SQL拼接代码库需要一些有效的方法和工具来确保代码的质量和可维护性。以下是一些建议:使用版本控制系统:将SQL拼接代码库放入版本控制系统(如Git)中,可以跟踪代码变更、回滚代码、管理分支等。这样可以保证代码的安全性和可追溯性
怎么管理和维护大型SQL拼接代码库
2024-04-29

如何调试和测试SQL拼接代码

调试和测试SQL拼接代码的步骤如下:使用日志输出:在拼接SQL语句的过程中,可以使用日志输出来打印拼接的结果,以便查看拼接是否正确,可以使用System.out.println()或者日志库来输出拼接的SQL语句。使用IDE的调试功能:在I
如何调试和测试SQL拼接代码
2024-04-29

OpenCV图像处理之图像拼接详解

本文主要介绍了如何使用C++ OpenCV实现图像景拼接,文中的示例代码讲解详细,对我们学习OpenCV有一定的帮助,感兴趣的可以了解一下
2022-11-13

shell脚本字符串处理的使用(分割、截取和拼接)

目录1、分割2、截取3、拼接4、示例1、分割 按字符分割:${parameter//pattern/string} 。用string来替换parameter变量中所有匹配的pattern 示例: #!/bin/bashstring="hel
2023-03-23

如何实现字符串拼接的批处理

这篇文章主要为大家展示了“如何实现字符串拼接的批处理”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“如何实现字符串拼接的批处理”这篇文章吧。代码如下:@echo off :: 每6行拼接为一行,剩
2023-06-08

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录