System wspomagający gromadzenie i przetwarzanie danych z wykorzystaniem modeli językowych i technologii OCR

Autor

  • Łukasz Łapiak Uniwersytet Kazimierza Wielkiego w Bydgoszczy
  • Piotr Kotlarz Uniwersytet Kazimierza Wielkiego w Bydgoszczy

DOI:

https://doi.org/10.34767/SIMIS.2026.01.02

Słowa kluczowe:

OCR, Modele językowe, Analiza tekstu, Przetwarzanie obrazu, Flask, MySQL, Tesseract, GPT-4, Gemini, Odległość Levenshtein

Abstrakt

Niniejszy artykuł przedstawia kompleksowy system wspomagający gromadzenie i przetwarzanie danych wizualnych w czasie rzeczywistym z wykorzystaniem technologii OCR oraz modeli językowych. Badania porównują sześć narzędzi rozpoznawania tekstu: lokalne silniki (Tesseract, EasyOCR), zewnętrzne usługi (OCR.space) oraz multimodalne modele językowe (GPT-4, Gemini 1.5 Flash, Claude 3 Haiku). Analiza wykazała, że skuteczność technologii jest ściśle zależna od rodzaju materiału źródłowego. Modele językowe osiągnęły znaczącą przewagę w rozpoznawaniu pisma odręcznego i treści złożonych, podczas gdy dla standardowego tekstu cyfrowego tradycyjne silniki OCR zaoferowały porównywalną precyzję przy znacznie wyższej szybkości przetwarzania. Aplikacja webowa oparta na Flask i MySQL umożliwia efektywne zarządzanie danymi. Do pomiaru dokładności wykorzystano metrykę odległości Levenshteina. Wyniki wskazują na zasadność stosowania podejścia hybrydowego, integrującego wydajność lokalnego OCR z możliwościami semantycznymi modeli AI.

Bibliografia

Dokumentacja Anthropic - docs.anthropic.com

Dokumentacja bazy danych MySQL - dev.mysql.com/doc

Dokumentacja Flask - flask.palletsprojects.com/en/stable/

Dokumentacja Gemini - ai.google.dev/gemini-api

Dokumentacja OpenAI - platform.openai.com/docs/concepts/dostęp źródła

Dokumentacja Python - docs.python.org/3

Grinberg M., Flask. Tworzenie aplikacji internetowych w Pythonie, Helion.

Levenshtein distance - algorytm porównywania tekstów, en.wikipedia.org/wiki/Levenshtein_distance

Matplotlib biblioteka do generowania wykresów - matplotlib.org/3.5.3/index.html

OCR Space - narzędzie do rozpoznawania tekstu - ocr.space

Projekt EasyOCR na GitHub - github.com/JaidedAI/EasyOCR

Projekt Tesseract OCR na GitHub – github.com/tesseractocr/tesseract

Pobrania

Opublikowane

2026-04-16

Jak cytować

System wspomagający gromadzenie i przetwarzanie danych z wykorzystaniem modeli językowych i technologii OCR. (2026). Studia I Materiały Informatyki Stosowanej, 18(1), 11-15. https://doi.org/10.34767/SIMIS.2026.01.02