我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python: xml转json

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python: xml转json

wKiom1dnjl3xp49HAABaGgp_tKo276.jpg

1,引言


GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所以这两款产品的输出信息是XML格式的,实现第一步:结构化转换。单纯作为一个网页采集器来说,输出XML格式也有好处,这是一种标准格式,后续的数据处理可以很容易地接入,任意发挥。

在web集成和网站前端领域,json越来越普遍,在Scrapy架构中,Scrapy dict数据结构本质上就是json,所以,由XML格式转换成JSON格式很有必要。

无论哪种编程语言,XML转Json都有很多现成的程序包,但是,就像前面说的,GooSeeker定义的XML格式主要用来做实体建模,有自己规定的一套语义结构描述标准。所以,不能直接使用现成的转换程序,或者需要在现成的转换程序上做些修改。

本文是一个实验过程,并没有考虑GooSeeker要求的语义结构,只是验证一下XML到Json的转换。

2,实验用的XML文件

我们使用《python爬虫实战(2):爬取京东商品列表》一文的结果文件,python爬虫爬取的结果保存在 京东手机列表_1.xml 文件中。内容如下图所示

230023zf7g3f3gfd3fhe4a.png

下面针对这个结果文件先做个xml转json的测试,为提取器gsExtractor添加输出Json文件的功能做技术准备。

3,测试过程

  • 测试使用的模块:xml.parsers.expat,  json

  • 测试输入: 以python爬虫实战(2):爬取京东商品列表一文的xml结果文件 京东手机列表_1.xml 作为输入

代码如下:

#! /usr/bin/env python
# -*- coding:utf-8 -*-
# xml 转 json
# xml2json.py
# Version 1.0

from xml.parsers.expat import ParserCreate
import json

class Xml2Json:
    LIST_TAGS = ['COMMANDS']
    
    def __init__(self, data = None):
        self._parser = ParserCreate()
        self._parser.StartElementHandler = self.start
        self._parser.EndElementHandler = self.end
        self._parser.CharacterDataHandler = self.data
        self.result = None
        if data:
            self.feed(data)
            self.close()
        
    def feed(self, data):
        self._stack = []
        self._data = ''
        self._parser.Parse(data, 0)

    def close(self):
        self._parser.Parse("", 1)
        del self._parser

    def start(self, tag, attrs):
        assert attrs == {}
        assert self._data.strip() == ''
        self._stack.append([tag])
        self._data = ''

    def end(self, tag):
        last_tag = self._stack.pop()
        assert last_tag[0] == tag
        if len(last_tag) == 1: #leaf
            data = self._data
        else:
            if tag not in Xml2Json.LIST_TAGS:
                # build a dict, repeating pairs get pushed into lists
                data = {}
                for k, v in last_tag[1:]:
                    if k not in data:
                        data[k] = v
                    else:
                        el = data[k]
                        if type(el) is not list:
                            data[k] = [el, v]
                        else:
                            el.append(v)
            else: #force into a list
                data = [{k:v} for k, v in last_tag[1:]]
        if self._stack:
            self._stack[-1].append((tag, data))
        else:
            self.result = {tag:data}
        self._data = ''

    def data(self, data):
        self._data = data

if __name__ == '__main__':
    xml = open("京东手机列表_1.xml", 'r', encoding='UTF-8').read()
    result = Xml2Json(xml).result;
    outputfile = open("京东手机列表_1.json", 'w', encoding='UTF-8')
    outputfile.write(str(result))
    outputfile.close()
  • 在控制台运行:  $ python xml2json.py

  • 测试输出:京东手机列表_1.json。运行后在当前文件夹下可以看到新生成的json文件

232425squkhbgak0k5h00d.png


4,接下来的工作


  • 升级gsExtractor提取器类,加入新的方法,支持把提取结果从xml转换为json格式

  • 转换成的json结构必须符合GooSeeker要求的语义描述结构,为直接存入MongoDB做准备


5,相关文档
1,Python即时网络爬虫项目: 内容提取器的定义
2,Python爬虫实战(2):爬取京东商品列表

6,集搜客GooSeeker开源代码下载源
1, GooSeeker开源Python网络爬虫GitHub源

7,文档修改历史

2016-06-20:V1.0,首次发布


免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python: xml转json

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python: xml转json

1,引言GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所
2023-01-31

python3 XML转Json

win7 python3.6 xmltodictpip install xmltodictxml gb2312编码文件转换为json utf-8文件 支持中文参考https://www.crifan.com/python_convertio
2023-01-31

Python中XML转JSON、XML转字典代码示例

本文介绍了如何使用Python将XML转换为JSON和字典。提供了代码示例,展示将XML数据解析为JSON数据和字典对象的详细步骤。还提供了处理嵌套元素、属性和命名空间的更高级示例。最后,文中提供了最佳实践建议,以确保代码高效、可维护和可靠。
Python中XML转JSON、XML转字典代码示例
2024-04-02

nodejs json转xml

Node.js是一种基于Chrome V8 JavaScript引擎构建的服务器端运行环境。它能够使用JavaScript编写服务器端代码,同时也是目前最流行的服务器端编程语言之一。其中,JSON(JavaScript 对象表示法)是一种轻量级的数据交换格式,广泛应用于网络数据传输和数据存储。而XML(可扩展标记语言)则是一种用于存储和传输数据的语言,也被广泛应用于数据传输和存
2023-05-24

Python中xml和json格式互转

Python中xml和json格式是可以互转的,就像json格式转Python字典对象那样。xml格式和json格式互转用到的xmltodict库安装xmltodict库C:\Users\Administrator>pip3 install
2023-01-31

python中将xml格式转json格式

一、简介在用python写脚本时,通常需要处理xml格式的文件或字符串。由于json格式处理的方便性,我们可将其转为json格式进行处理。二、步骤1、安装工具包xmltodict在命令行输入:pip install xmltodict2、在
2023-01-31

javascript中xml如何转json

这篇文章主要介绍javascript中xml如何转json,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!JavaScript可以做什么1.可以使网页具有交互性,例如响应用户点击,给用户提供更好的体验。2.可以处理表单
2023-06-14

python3-将xml文件转成json

from xml.etree import ElementTree as etimport jsondef readxml_et(): tree = et.ElementTree(file="D:\\vscode\\xml2json\
2023-01-30

在 PHP 中转换 XML 到 JSON

本文将介绍在 PHP 中把 XML 字符串转换为 JSON 的方法。在 PHP 中使用 simplexml_load_string() 和 json_encode() 函数把一个 XML 字符串转换为 JSON我们将使用两个函数在 PHP
在 PHP 中转换 XML 到 JSON
2024-02-27

Python怎么将xml格式转换为json格式

本篇内容介绍了“Python怎么将xml格式转换为json格式”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!在Python编程中,经常遇到x
2023-06-02

php中xml转json格式如何转换

这篇文章主要介绍php中xml转json格式如何转换,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!php xml转json格式的方法:首先创建一个PHP示例文件;然后通过“function xmlToArray($x
2023-06-15

php怎么将xml转为json格式

本文小编为大家详细介绍“php怎么将xml转为json格式”,内容详细,步骤清晰,细节处理妥当,希望这篇“php怎么将xml转为json格式”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。方法一:使用SimpleX
2023-07-05

javascript中将xml转为json的方法

这篇文章将为大家详细讲解有关javascript中将xml转为json的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。javascript中将xml转换为json字符串的方法:首先通过XML字符串或请
2023-06-14

JavaBean到XML和JSON的转换方法

本篇内容主要讲解“JavaBean到XML和JSON的转换方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“JavaBean到XML和JSON的转换方法”吧!XML和JSON是当今常用的两种数据
2023-06-18

python xml转成dict

可以转成dict defdictlist(node):    res={}    res[node.tag]={}    xmltodict(node,res[node.tag])    reply={}    reply[node.tag
2023-01-31

php怎么将json格式转成xml格式

这篇文章主要介绍“php怎么将json格式转成xml格式”,在日常操作中,相信很多人在php怎么将json格式转成xml格式问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”php怎么将json格式转成xml格式
2023-07-05

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录