Así como OpenCV es la herramienta por excelencia en computer vision, TensorFlow en deep learning y scikit-learn en machine learning, en el caso de OCR, es Tesseract.
Por tal motivo, el objetivo de este breve post es aprender a instalar Tesseract en cualquiera de los tres sistemas operativos más importantes: masOS, Ubuntu y Windows.Al final de este artículo sabrás:
¿Preparado? ¡Comencemos!
Cómo Instalar Tesseract en macOS
Instalar Tesseract en macOS es absurdamente simple.
Solo tienes que abrir tu terminal y correr este comando:
brew install tesseract
Voilà.
Cómo Instalar Tesseract en Ubuntu
Para instalar Tesseract en Ubuntu seguiremos una secuencia de pasos similar a la de macOS (después de todo, ambos son sistemas operativos basados en Unix).
Abre tu terminal y ejecuta:
sudo apt-get install tesseract-ocr
Así de fácil.
Cómo Instalar Tesseract en Windows
Para instalar Tesseract en Windows dirígete a este enlace: https://github.com/UB-Mannheim/tesseract/wiki
Luego, dependiendo de si tu arquitectura es de 32 bits o 64 bits, tendrás que descargar el primer o segundo instalador:
Una vez descargar el instalador, ejecútalo y sigue las instrucciones del instalador.
Eso sí, asegúrate de marcar las opciones Additional script data (download) y Additional language data (download), así:También es importante que recuerdes dónde instalaste Tesseract, porque tendremos que añadir esta ubicación al Path luego:
Una vez se haya completado la instalación, edita tu variable de entorno Path, y añade la ruta al archivo tesseract.exe, el cual se encontrará dentro del directorio donde instalaste Tesseract.
Por ejemplo, en mi caso es C:\Program Files\Tesseract-OCR\tesseract.exe.C’est fini.
Validando la Instalación de Tesseract
Sin importar el sistema operativo que uses, la forma de validar que tu instalación de Tesseract fue exitosa, es abrir un terminal y correr el siguiente comando:
tesseract -v
Deberías ver algo como esto:
tesseract v5.0.1.20220118 leptonica-1.78.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0 Found AVX2 Found AVX Found FMA Found SSE4.1 Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5 Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0
Resumen
En este post aprendimos a instalar Tesseract en tres de los sistemas operativos más populares que existen: macOS, Ubuntu y Windows.
En el caso de lo SO basados en Unix, con tan solo una instrucción logramos descargar e instalar Tesseract faciilmente.
Lamentablemente, con Windows tuvimos que llevar a cabo más pasos, pero nada demasiado traumático.
Así quedamos preparados para los artículos que vendrán, en los que exploraremos las capacidades, bondades y características de Tesseract y el mundo del OCR en general.
¡Hasta pronto!