febrero 4, 2022 10:00 am

Jesús

Así como OpenCV es la herramienta por excelencia en computer vision, TensorFlow en deep learning y scikit-learn en machine learning, en el caso de OCR, es Tesseract.

Por tal motivo, el objetivo de este breve post es aprender a instalar Tesseract en cualquiera de los tres sistemas operativos más importantes: masOS, Ubuntu y Windows.

Al final de este artículo sabrás:

  • Cómo instalar Tesseract en masOS.
  • Cómo instalar Tesseract en Ubuntu.
  • Cómo instalar Tesseract en Windows.

¿Preparado? ¡Comencemos!

Cómo Instalar Tesseract en macOS

Instalar Tesseract en macOS es absurdamente simple. 

Solo tienes que abrir tu terminal y correr este comando:

brew install tesseract

Voilà.

Cómo Instalar Tesseract en Ubuntu

Para instalar Tesseract en Ubuntu seguiremos una secuencia de pasos similar a la de macOS (después de todo, ambos son sistemas operativos basados en Unix).

Abre tu terminal y ejecuta:

sudo apt-get install tesseract-ocr

Así de fácil.

Cómo Instalar Tesseract en Windows

Para instalar Tesseract en Windows dirígete a este enlace: https://github.com/UB-Mannheim/tesseract/wiki

Luego, dependiendo de si tu arquitectura es de 32 bits o 64 bits, tendrás que descargar el primer o segundo instalador:

Una vez descargar el instalador, ejecútalo y sigue las instrucciones del instalador. 

Eso sí, asegúrate de marcar las opciones Additional script data (download) y Additional language data (download), así:

También es importante que recuerdes dónde instalaste Tesseract, porque tendremos que añadir esta ubicación al Path luego:

Una vez se haya completado la instalación, edita tu variable de entorno Path, y añade la ruta al archivo tesseract.exe, el cual se encontrará dentro del directorio donde instalaste Tesseract.

Por ejemplo, en mi caso es C:\Program Files\Tesseract-OCR\tesseract.exe.

C’est fini.

Validando la Instalación de Tesseract

Sin importar el  sistema operativo que uses, la forma de validar que tu instalación de Tesseract fue exitosa, es abrir un terminal y correr el siguiente comando:

tesseract -v

Deberías ver algo como esto:

tesseract v5.0.1.20220118
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE4.1
 Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
 Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

Resumen

En este post aprendimos a instalar Tesseract en tres de los sistemas operativos más populares que existen: macOS, Ubuntu y Windows.

En el caso de lo SO basados en Unix, con tan solo una instrucción logramos descargar e instalar Tesseract faciilmente.

Lamentablemente, con Windows tuvimos que llevar a cabo más pasos, pero nada demasiado traumático.

Así quedamos preparados para los artículos que vendrán, en los que exploraremos las capacidades, bondades y características de Tesseract y el mundo del OCR en general.

¡Hasta pronto!

Sobre el Autor

Jesús Martínez es el creador de DataSmarts, un lugar para los apasionados por computer vision y machine learning. Cuando no se encuentra bloggeando, jugando con algún algoritmo o trabajando en un proyecto (muy) cool, disfruta escuchar a The Beatles, leer o viajar por carretera.