我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python 图片文字识别的实现之PaddleOCR

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python 图片文字识别的实现之PaddleOCR

前言

什么是OCR?

光学字符识别(Optical Character Recognition, OCR),是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。简而言之,检测图像中的文本资料,并且识别出文本的内容。

那么有哪些应用场景呢?

其实我们日常生活中处处都有ocr的影子,比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中,机器学习已经越来越多的扮演着重要角色,也不再是神秘的东西。

OCR的技术路线是什么呢?

ocr的运行方式如下图,输入->图像预处理->文字检测->文本识别->输出。

本文主要是介绍一个博主使用的比较好的OCR开源项目,在这里分享给大家——PaddleOCR。

项目Github地址: PaddleOCR地址

我会按照刚接触的状态,梳理一下验证使用该项目的过程。

项目使用

先把项目从github上clone下来,慢慢分析。

项目结构

首先我们看一下项目的构造。

发现项目有中文的介绍说明,这就很方便了,点开按照官方的说明开始操作。

环境部署

点开README.md,,可以从文档教程中看到第一步就是教你如何安装环境。

由于内容过多,我就做个概括,方便大家直接上手。

1、安装Anaconda,构造虚拟环境

这里可以参考我的另一篇文章,里面很详细:Python 机器学习第一章环境配置图解流程

官方给的是python3.8的虚拟环境,我们也构造一个,打开Anaconda Prompt。

输入命令:


conda create -n paddle_env python=3.8

激活环境:


conda activate paddle_env

2、依赖包下载

paddlepaddle安装


pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

layoutparser安装


pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

Shapely安装,这个需要下载,下载地址:Shapely下载地址

我选的是这个

安装命令:


pip install Shapely-1.8.0-cp38-cp38-win_amd64.whl

paddleocr安装


pip install paddleocr -i https://mirror.baidu.com/pypi/simple

好的,环境有点多,都安装好了就开始上手使用吧。

测试代码

官方给出了两种模式,一是命令行执行,一是代码执行。为了直观的看到配置,我这里使用的是代码模式。

准备一张带文字的图片

测试代码如下


#!/user/bin/env python
# coding=utf-8
"""
@project : ocr_paddle
@author  : huyi
@file   : test.py
@ide    : PyCharm
@time   : 2021-11-15 14:56:20
"""
from paddleocr import PaddleOCR, draw_ocr
 
# Paddleocr目前支持的多语言语种可以通过修改lang参数进行切换
# 例如`ch`, `en`, `fr`, `german`, `korean`, `japan`
ocr = PaddleOCR(use_angle_cls=True, use_gpu=False,
                lang="ch")  # need to run only once to download and load model into memory
img_path = './data/2.jpg'
result = ocr.ocr(img_path, cls=True)
for line in result:
    # print(line[-1][0], line[-1][1])
    print(line)
 
# 显示结果
from PIL import Image
 
image = Image.open(img_path).convert('RGB')
boxes = [line[0] for line in result]
txts = [line[1][0] for line in result]
scores = [line[1][1] for line in result]
im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf')
im_show = Image.fromarray(im_show)
im_show.save('result.jpg')

代码说明

1、因为我的电脑没有显卡,所以设置了use_gpu=False。

2、显示结果部分会将识别的文字用框标出来,并且展示识别的结果。

验证一下

我们看到,打印的内容有识别出来的每句话所在的图片位置,以及识别结果和可信度。而上面的结果图中,将每句话对应的文字都框了出来。效果很不错!

参数补充

官方还给出了一些参数,可以调整输出的内容。可以参看quickstart.md文件。参数补充:

- 单独使用检测:设置`--rec`为`false`
- 单独使用识别:设置`--det`为`false`

官方还提供一个标准的json结构输出数据

PP-Structure的返回结果为一个dict组成的list,示例如下

```shell
[{ 'type': 'Text',
'bbox': [34, 432, 345, 462],
'res': ([[36.0, 437.0, 341.0, 437.0, 341.0, 446.0, 36.0, 447.0], [41.0, 454.0, 125.0, 453.0, 125.0, 459.0, 41.0, 460.0]],
[('Tigure-6. The performance of CNN and IPT models using difforen', 0.90060663), ('Tent ', 0.465441)])
}
]
```

总结

总的来说,这个项目还是很有意思的,训练的部分我就不多赘述了,毕竟准备数据挺麻烦的。回头我再想想这个项目可不可以魔改成好用的工具。

分享:

我们根本不需要最后的落脚点,只要不断前进就好了,只要不停下,道路就会不断延伸。——《进击的巨人》

如果本文对你有帮助的话,请不要吝啬你的赞,谢谢!

到此这篇关于Python 图片文字识别的实现之PaddleOCR的文章就介绍到这了,更多相关Python 文字识别内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python 图片文字识别的实现之PaddleOCR

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python如何实现图片文字识别

这篇文章主要为大家展示了“Python如何实现图片文字识别”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python如何实现图片文字识别”这篇文章吧。前言什么是OCR?光学字符识别(Optica
2023-06-25

Python通过pytesseract库实现识别图片中的文字

Pytesseract是一个Python的OCR库,它可以识别图片中的文本并将其转换成文本形式。本文就来用pytesseract库实现识别图片中的文字,感兴趣的可以了解一下
2023-05-19

python图片文本识别的简单实现

http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.htmlPython图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用
2023-01-31

python利用pytesseract快速识别提取图片中的文字((图片识别)

本文介绍了tesseract的python调用,也就是pytesseract库,其中还有一些其他的内容并没有涉及,仅涉及到了图片提取文字,如果你对其感兴趣,可以深入探索一下,也希望能和我探讨一下
2022-11-13

Python怎么实现截图识别文字

这篇文章主要讲解了“Python怎么实现截图识别文字”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python怎么实现截图识别文字”吧!前言系统:win10Python版本:python3.
2023-06-21

Python如何实现批量识别图片文字并存为Excel

今天小编给大家分享一下Python如何实现批量识别图片文字并存为Excel的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一、
2023-07-02

如何利用Python识别图片中的文字

这篇文章将为大家详细讲解有关如何利用Python识别图片中的文字,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、Tesseract文字识别是ORC的一部分内容,ORC的意思是光学字符识别,通俗讲就是文字
2023-06-15

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录