引言
安装依赖
在安装Pytesseract之前,我们需要确保安装了一些依赖项,包括Tesseract OCR引擎和Python的pip包管理器。
安装Tesseract OCR
- 使用以下命令安装Tesseract OCR:
sudo yum install tesseract
- 安装完成后,可以检查安装的版本:
tesseract -v
安装Python和pip
- 使用以下命令安装Python和pip:
sudo yum install python3-pip
- 验证安装:
pip3 --version
安装Pytesseract
现在我们已经有了Tesseract OCR和pip,接下来可以安装Pytesseract。
- 使用pip安装Pytesseract:
pip3 install pytesseract
- 安装完成后,可以通过以下命令验证Pytesseract是否安装成功:
python3 -c "import pytesseract; print(pytesseract.pytesseract.tesseract_cmd)"
如果输出包含Tesseract的安装路径,说明Pytesseract已成功安装。
使用Pytesseract进行图文识别
from PIL import Image
import pytesseract
# 打开图片
image = Image.open('example.png')
# 使用Tesseract OCR识别文本
text = pytesseract.image_to_string(image)
# 输出识别的文本
print(text)