我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何使用Python写一个简单的JSONParser

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何使用Python写一个简单的JSONParser

本篇内容主要讲解“如何使用Python写一个简单的JSONParser”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用Python写一个简单的JSONParser”吧!

JSON Tokenizer

JSON 的词法分析,我主要是参考上面这个截图里面的方式,自己写了一个简单的示例。写得比较简单,应该说它只能支持 JSON 的一个简单子集。

这里 TOKEN 的种类,参考了 https://json.org,不过它的 JSON 的语法格式是带 whitespace 的,我不习惯处理这个,所以没有参考它的语法。经过词法分析之后,过滤掉了 空格、换行、制表符,我这里就是简单的丢弃不处理。

json_tokenizer.py

使用正则表达式来进行 JSON 的词法分析。

import jsonimport refrom typing import Dict, List, Union# TOKEN 的种类LEFT_BRACE = "LEFT_BRACE"        # {RIGHT_BRACE = "RIGHT_BRACE"      # }LEFT_BRACKET = "LEFT_BRACKET"    # ]RIGHT_BRACKET = "RIGHT_BRACKET"  # [COLON = "COLON"                  # :COMMA = "COMMA"                  # ,NUMBER = "NUMBER"                # ".*?"STRING = "STRING"                # [1-9]\d*BOOL = "BOOL"                    # true/falseNULL = "NULL"                    # nullNEWLINE = "NEWLINE"            # \nSKIP = "SKIP"                    # ' ', '\t'MISMATCH = "MISMATCH"            # mismatch# 处理 token 的正则token_specification = [    ('LEFT_BRACE', r'[{]'),    ('RIGHT_BRACE', r'[}]'),    ('LEFT_BRACKET', r'[\[]'),    ('RIGHT_BRACKET', r'[\]]'),    ('COLON', r'[:]'),    ('COMMA', r'[,]'),    ('NUMBER', r'-?[1-9]+[0-9]*'),    ('STRING', r'".*?"'),    ('BOOL', r'(true)|(false)'),    ('NULL', r'null'),    ('NEWLINE', r'\n'),    ('SKIP', r'[ \t]'),    ('MISMATCH', r'.')]tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)print("Debug: ", tok_regex)def process(kind: str, value: str) -> Dict[str, Union[str, bool, int, None]]:    """    处理输入的 kind 和 value,并生成 Dict 对象,简单表示 token 对象    """    if kind == STRING:        # 去掉外层的双引号,暂时没有比较好的方式        return {"kind": kind, "value": value[1:-1]}    if kind == NUMBER:        return {"kind": kind, "value": int(value)}    if kind == BOOL:        if value == "true":            return {"kind": kind, "value": True}        else:            return {"kind": kind, "value": False}    if kind == NULL:        return {"kind": kind, "value": None}    return {"kind": kind, "value": value}def tokenizer(json_str: str) -> List[Dict[str, Union[str, bool, int, None]]]:    """    tokenizer    """    tokens = []    for m in re.finditer(tok_regex, json_str):        # 获取 token 的类型        kind = m.lastgroup        # 获取 token 的值        value = m.group()        if kind == MISMATCH:            raise Exception("json format is error")        if kind == NEWLINE:            continue        if kind == SKIP:            continue        token = process(kind=kind, value=value)        tokens.append(token)    return tokensif __name__ == "__main__":    json_doc = open("./demo.json", "r", encoding="utf-8").read()    tokens = tokenizer(json_doc)    if tokens:        json.dump(tokens, open("./json_tokens.json", "w",                               encoding="utf-8"), ensure_ascii=False)

我这里把输入、输出数据全部放在文档里面了,下面我贴一下我输入数据和部分输出数据。

demo.json

{    "name": "小黑子",    "age": 3,    "gender": false,    "other_info": {        "friends": [            "嘎子",            "潘叔",            "狗"        ],        "declaration": "练习时长两年半",        "hobbies": [            "唱",            "跳",            "rap",            "篮球????"        ]    }}

json_token.json 部分数据,数据我格式化了,所以比较长,这里只截取一部分。

如何使用Python写一个简单的JSONParser

JSON Parser

json_parser.py

对上一步生成的 token 序列,进行 parser,生成 JSON 对应的 Dict 对象。parser 的实现参考了 antlr4 的 json 语法文件,它去掉了 whitespace,处理起来更简单一点。

import jsonfrom typing import Dict, Union# TOKEN 的种类LEFT_BRACE = "LEFT_BRACE"        # {RIGHT_BRACE = "RIGHT_BRACE"      # }LEFT_BRACKET = "LEFT_BRACKET"    # ]RIGHT_BRACKET = "RIGHT_BRACKET"  # [COLON = "COLON"                  # :COMMA = "COMMA"                  # ,NUMBER = "NUMBER"                # ".*?"STRING = "STRING"                # [1-9]\d*BOOL = "BOOL"                    # true/falseNULL = "NULL"                    # nullclass Token(object):    """为了简单,就不创建这个了"""class JSON_Parser(object):    """    JSON_Parser the class aims parse input token sequence into a python object or array.    """    def __init__(self, tokens) -> None:        self.index = 0        self.tokens = tokens    def get_token(self) -> Dict[str, Union[str, int, bool, None]]:        """        get current's token        """        if self.index < len(self.tokens):            return self.tokens[self.index]        else:            raise Exception("index out of range.")    def move_token(self) -> Dict[str, Union[str, int, bool, None]]:        """        move to next token and return it        """        if self.index + 1 < len(self.tokens):            self.index = self.index + 1            return self.tokens[self.index]        else:            raise Exception("index out of range.")    def parse(self):        """        parse whole json        """        token = self.get_token()        if token.get("kind") == LEFT_BRACE:            return self.parse_obj()        elif token.get("kind") == LEFT_BRACKET:            return self.parse_arr()        else:            raise Exception("error json, neither object or array.")    def parse_obj(self):        """        parse object        """        obj = {}        token = self.move_token()        kind = token.get("kind")        # '{' '}'        if kind == RIGHT_BRACE:            return obj        # '{' pair (',' pair)* '}'        name, val = self.parse_pair()        obj[name] = val        while self.index < len(self.tokens):            token = self.move_token()            kind = token.get("kind")            if kind == COMMA:                self.move_token()                name, val = self.parse_pair()                obj[name] = val            elif kind == RIGHT_BRACE:                return obj            else:                raise Exception("parse object encounter error")    def parse_arr(self):        """        parse array        """        arr = []        token = self.move_token()        kind = token.get("kind")        # '[' ']'        if kind == RIGHT_BRACE:            return arr        # '[' value (',' value)* ']'        val = self.parse_value()        arr.append(val)        while self.index < len(self.tokens):            token = self.move_token()            kind = token.get("kind")            if kind == COMMA:                self.move_token()                val = self.parse_value()                arr.append(val)            elif kind == RIGHT_BRACKET:                return arr            else:                raise Exception("parse array encounter error")    def parse_value(self):        """        parse value        """        token = self.get_token()        kind = token.get("kind")        if kind == LEFT_BRACE:            return self.parse_obj()        elif kind == LEFT_BRACKET:            return self.parse_arr()        elif kind == STRING or kind == NUMBER or kind == BOOL:            return token.get("value")        elif kind == NULL:            return        else:            raise Exception("encounter unexcepted token")    def parse_pair(self):        """        parse pair        """        token = self.get_token()        kind = token.get("kind")        name = token.get("value")        # STRING ':' value        if kind == STRING:            token = self.move_token()            kind = token.get("kind")            if kind == COLON:                token = self.move_token()                return name, self.parse_value()        raise Exception("parse pair encounter error")if __name__ == "__main__":    # json token 文件路径    TOKEN_PATH = "./json_tokens.json"    # 读取 token 序列    input_tokens = [token for token in json.load(        open(TOKEN_PATH, "r", encoding="utf-8"))]    if not input_tokens:        raise Exception("input token sequence is empty")    # 调试的时候,用来查表的,很方便定位到 index 走到哪一个 token 了    for i, tok in enumerate(input_tokens):        print(f"debug {i:2d} --> {tok}")    print("\n===========================================\n")    parser = JSON_Parser(tokens=input_tokens)    json_obj = parser.parse()    # 再将 object 转成 json 并格式化后输出    print(json.dumps(json_obj, ensure_ascii=False, indent=4))

输出结果:

如何使用Python写一个简单的JSONParser

到此,相信大家对“如何使用Python写一个简单的JSONParser”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何使用Python写一个简单的JSONParser

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用Python写一个简单的JSONParser

本篇内容主要讲解“如何使用Python写一个简单的JSONParser”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用Python写一个简单的JSONParser”吧!JSON Token
2023-07-06

教你使用Python写一个简单的JSONParser

这篇文章主要介绍了教你使用Python写一个简单的JSONParser,它的整个效果,有点类似于python标准库json的json.load()方法,需要的朋友可以参考下
2023-05-14

如何用python写一个简单的find命

对一个运维来说可能会经常去查找目录下的一些文件是否存在,最常用的就是find命令,它不仅可以查找文件也可以查找目录,find命令用法查找文件[root@node1 opt]# find /usr/ -type f -name df/usr/
2023-01-31

如何用Python写一个简单的Web框架

如何用Python写一个简单的Web框架,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。一、概述在Python中,WSGI(Web Server Gateway
2023-06-17

用Python编写一个简单的Http S

原文地址:Write a simple HTTP server in Python http://www.acmesystems.it/python_httpd 例子中源码: https://github.com/tanzilli/play
2023-01-31

用Python写一个简单公众号

前言:虽然简单,但是稍稍还是有点可取的地方的,终于可以有一个可以作为项目放在自己的github上了T_T,一个好项目一定是可拔插好扩展的,离好项目至少60%吧,以后再进一步完善了。   说实话,有一个微信公众号还是蛮方便的,可以将一些自己常
2023-01-31

如何编写一个VBScript简单的页面

这篇文章主要介绍“如何编写一个VBScript简单的页面”,在日常操作中,相信很多人在如何编写一个VBScript简单的页面问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何编写一个VBScript简单的页面
2023-06-09

用python写一个简单的倒计时软件

模块:timeimport timecount = 0a = int(input('time:'))while (count < a): count_now = a - count print(count_now) tim
2023-01-31

怎么用Python编写一个简单的游戏

本篇内容介绍了“怎么用Python编写一个简单的游戏”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!在这个系列中,我们要用不同的编程语言编写相
2023-06-15

如何使用C++编写一个简单的电子词典程序?

如何使用C++编写一个简单的电子词典程序?随着科技的发展,电子词典成为了我们生活中常见的工具。在这篇文章中,我将介绍如何使用C++编写一个简单的电子词典程序,让你能够快速查询单词的含义。这个程序将使用哈希表数据结构来存储单词和其含义的对应关
如何使用C++编写一个简单的电子词典程序?
2023-11-02

如何使用C++编写一个简单的电子商务平台?

如何使用C++编写一个简单的电子商务平台?随着互联网的发展和普及,电子商务已经成为了现代商业运营的重要手段。对于开发者来说,了解如何使用C++编写一个简单的电子商务平台是非常有用的技能。本文将介绍一些基本的概念和技术,以帮助你快速上手。首先
如何使用C++编写一个简单的电子商务平台?
2023-11-02

如何使用C++编写一个简单的人事管理系统?

如何使用C++编写一个简单的人事管理系统?人事管理系统是一个用于管理和维护组织内人力资源相关信息的软件。它可以帮助组织进行员工管理、薪资核算、考勤统计、福利发放等工作。本文将介绍如何使用C++编写一个简单的人事管理系统,帮助读者理解人事管理
如何使用C++编写一个简单的人事管理系统?
2023-11-02

如何使用C++编写一个简单的物流管理系统?

如何使用C++编写一个简单的物流管理系统?简介:物流管理系统是现代物流业中非常重要的一环,它能够帮助企业高效地管理运输、仓储、配送等物流环节。本文将介绍如何使用C++编写一个简单的物流管理系统,帮助读者了解C++的基本语法和面向对象的编程思
如何使用C++编写一个简单的物流管理系统?
2023-11-04

如何使用C++编写一个简单的餐厅预订系统?

如何使用C++编写一个简单的餐厅预订系统?餐饮行业是一个快节奏的行业,餐厅经常需要面对繁忙的预订情况。为了有效管理预订,提高服务质量,很多餐厅都会使用电子预订系统。本文将介绍如何使用C++编写一个简单的餐厅预订系统。首先,我们需要定义餐厅预
如何使用C++编写一个简单的餐厅预订系统?
2023-11-02

如何使用C++编写一个简单的网上商城系统?

如何使用C++编写一个简单的网上商城系统?随着互联网的发展,电子商务已经成为人们购物的主要方式之一。为了满足用户的购物需求,开发一个简单实用的网上商城系统是非常有必要的。本文将介绍如何使用C++编写一个简单的网上商城系统。一、需求分析在开始
如何使用C++编写一个简单的网上商城系统?
2023-11-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录