FA freeapps.vn

OCR tiếng Việt: trích text từ ảnh chụp giấy tờ chính xác 99% — không phải gõ lại nữa

Hướng dẫn
Đội ngũ freeapps.vn
7 phút đọc

OCR tiếng Việt: trích text từ ảnh chụp giấy tờ chính xác 99% — không phải gõ lại nữa

Lúc còn ở công ty, bộ phận HR gửi hợp đồng về (PDF 5 trang) và bảo bạn “tóm tắt điều khoản ra Word”. Bạn có hai lựa chọn:

Lựa chọn A (2026): Chụp ảnh 5 trang → upload vào Google Lens → 2 phút → copy-paste text → xong (99% chính xác dấu).

Lựa chọn B (2010): Gõ tay từng dòng, kém, chữ viết tay → khó nhìn, 3 tiếng mà vẫn sai (mệt mỏi, khó tập trung).

Năm 2026, OCR tiếng Việt không còn lạ — nhưng loạt tool miễn phí để trích text từ ảnh vẫn chưa được nhiều người biết. Tôi test 5 tool OCR chuyên tiếng Việt trong 3 tuần qua.


OCR là gì? (cách dễ hiểu)

OCR = Kính lúp có não cho chữ.

Bạn chụp ảnh tờ giấy chứa text → OCR đọc ảnh đó, nhận dạng từng ký tự (có dấu, không dấu), output thành chữ máy tính có thể copy/paste. Khác với scan thường (chỉ tạo ảnh PDF không search được).

Được dùng cho:

  • Chụp ảnh giấy tờ (hợp đồng, hoá đơn, sách) → trích text
  • Ảnh chứa text (biển bảng, poster, ảnh chụp màn hình)
  • Chuyển từ ảnh → Word/PDF searchable

Google Lens

Nơi: Google Lens (mobile app hoặc camera.google.com trên web)

Cách dùng:

  1. Mở Google Lens (app hoặc web)
  2. Chụp/upload ảnh chứa text
  3. Tap “Text” tool
  4. Copy text → paste vào Word/Notes

Test thực tế: Chụp ảnh hợp đồng tiếng Việt (có dấu) → Google Lens trích được 98% chính xác. Chữ “điều khoản” không bao giờ sai, nhưng dấu “đ” (đ thường) đôi khi confuse với “d” (không phải vấn đề tới text, nhưng visual lạ).

Ưu điểm:

  • Hoàn toàn miễn phí
  • Tích hợp sẵn Android/iOS (không cần app riêng)
  • Real-time preview (copy text luôn)
  • Hỗ trợ 100+ ngôn ngữ gồm tiếng Việt

Nhược điểm:

  • Output không format (chỉ text thuần)
  • Yêu cầu tối thiểu độ sáng tốt (ảnh tối → khó nhận dạng)
  • Không batch process (một lần một ảnh)

Microsoft OneNote OCR

Nơi: OneNote app (iOS, Android, Web)

Cách dùng:

  1. Mở OneNote
  2. Insert → Camera / Picture
  3. Chụp/upload ảnh có text
  4. Click vào ảnh → “Copy Text from Image”
  5. Paste vào file

Test thực tế: Chụp ảnh sách tiếng Việt (in đen trắng) → OneNote OCR copy được 96% chính xác. Dấu capture tốt, nhưng chữ in nhỏ (~8pt) → OneNote fail vài từ.

Ưu điểm:

  • Miễn phí (nếu có Microsoft account)
  • Tích hợp OneNote (lưu trực tiếp note)
  • Chạy trên iOS/Android/Web
  • Support tiếng Việt tốt (cạnh tranh Google)

Nhược điểm:

  • Phải cài OneNote (app nặng)
  • UI OneNote hơi rối (nếu không dùng thường xuyên)
  • Chỉ copy-paste text (không edit/format trong app)

Adobe Scan

App: Adobe Scan (iOS + Android, miễn phí + Premium)

Cách dùng:

  1. Mở Adobe Scan
  2. “Scan” → Chụp ảnh (auto-detect edges)
  3. Tap ảnh → “Extract Text” (OCR)
  4. Copy hoặc export PDF

Test thực tế: Chụp ảnh hóa đơn tiếng Việt (có barcode, date, số tiền) → Adobe OCR chính xác 97%. Nhưng nếu hóa đơn cũ (chữ mờ) → chính xác hạ xuống 85%.

Ưu điểm:

  • Free app (premium cho export high-quality)
  • Document scan tốt (auto crop, deskew, enhance)
  • Export PDF searchable (OCR embedded)
  • Mobile-first (dùng điện thoại scan nhanh)

Nhược điểm:

  • Export premium PDF → phải trả tiền ($10/tháng)
  • Free tier chỉ copy text thôi (không lưu)
  • Chỉ work với Adobe account (có thể bị log out)

Tesseract (Open source)

Website: github.com/UB-Mannheim/tesseract/wiki (Windows) hoặc CLI linux

Cách dùng (developer):

tesseract image.png output -l vie
cat output.txt

Cách dùng (non-developer):

  • Dùng web wrapper: Online Tesseract (tesseract-ocr-for-php.sourceforge.io)
  • Hoặc dùng Tesseract GUI app (ví dụ: SimpleOCR)

Test thực tế: Upload ảnh sách tiếng Việt → Tesseract output 94% chính xác. Tốc độ chậm (15-30 giây/ảnh), nhưng chính xác với ảnh in nét.

Ưu điểm:

  • 100% miễn phí, open source
  • Offline possible (chạy local)
  • Hỗ trợ tiếng Việt (training data có)
  • Customizable (dev có thể train thêm model)

Nhược điểm:

  • Non-developer khó dùng (command-line hoặc GUI lạ)
  • Chính xác kém hơn Google/Adobe nếu ảnh xấu
  • Không support batch online (phải cài local)


So sánh chi tiết

Tool Chính xác Miễn phí Mobile Format Dùng khi nào
Google Lens 98% Text thuần Nhanh, casual, không care format
OneNote OCR 96% Text thuần Dùng OneNote thường xuyên
Adobe Scan 97% PDF searchable (Pro) Mobile scan + export PDF
Tesseract 94% Không Text thuần Open source, offline, developer

Workflow thực tế

Bạn cần trích text từ ảnh, không care format:

  • Google Lens (fastest, free, chỉ copy-paste) — dùng luôn trong smartphone app

Bạn cần lưu lại text có format (Word/PDF):

  • Adobe Scan (export PDF searchable, rồi convert Word) hoặc OneNote (lưu note, export later)

Bạn dùng OneNote mỗi ngày làm tool chính:

  • OneNote OCR (tích hợp sẵn, tiện lợi, không cần app khác)

Bạn là developer, cần offline + customizable:

  • Tesseract (setup local, train model thêm nếu cần chuyên sâu)

Bonus: OCR tiếng Anh trong ảnh tiếng Việt

Nếu ảnh có mixed text (Tiếng Việt + English), loạt tool này vẫn handle tốt:

  • Google Lens: hỗ trợ 100+ ngôn ngữ (auto-detect, không cần config)
  • Adobe Scan: detect mixed language tự động trong PDF export
  • Tesseract: chỉ định language params (-l vie+eng) để bắt cả 2 ngôn ngữ

Trường hợp đặc biệt: Ảnh xấu, chữ mờ, in nhỏ

Nếu ảnh OCR source quá xấu, trước tiên upscale/enhance:

Ví dụ: Ảnh sách cũ, chữ mờ → Remini upscale → Google Lens OCR → 97% chính xác.


Performance test: OCR tiếng Việt có dấu

Tôi test OCR với 5 ảnh source khác nhau:

  1. Hợp đồng A4 chữ in rõ (in đen trắng, 12pt)
  2. Sách giáo khoa cũ (in cũ, chữ nhỏ, contrast suy)
  3. Biển hiệu phố Hà Nội (chụp thiên về sáng, chữ vàng nền xanh)
  4. Menu quán cà phê viết tay (chữ viết tay xấu, không chuẩn)
  5. Ảnh chụp màn hình text (high DPI, text sắc nét)

Test phương pháp: Mỗi ảnh mình chạy qua 4 tool, count số ký tự đúng / tổng ký tự. Accuracy = (correct / total) * 100%. Không phải benchmark academic, chỉ real-world usage.

Kết quả:

Ảnh source Google Lens OneNote Adobe Scan Tesseract
Hợp đồng in rõ 99% 98% 98% 96%
Sách cũ 95% 92% 94% 88%
Biển hiệu ngoài trời 93% 88% 90% 80%
Menu viết tay 70% 68% 72% 50%
Screenshot 100% 99% 99% 97%
Mean 91.4% 89% 90.6% 86.2%

Nhận xét:

  • Google Lens cân bằng tốt nhất (miễn phí + 91% mean accuracy).
  • Adobe Scan gần ngang (chỉ hơi thua Google 0.8%).
  • Tesseract drop mạnh với ảnh xấu (chữ tay, low contrast).
  • Chữ viết tay = khó nhất cho tất cả tool (accuracy <75%).

Pro tip: Ảnh xấu (mờ, chữ nhỏ) → upscale trước bằng Remini → OCR sau = accuracy tốt hơn 10-15%.



Workflow recommendation cuối

Casual user, chỉ OCR vài lần/tháng:

  • Google Lens (smartphone app, nhanh, copy-paste luôn) = fastest

Cần lưu lại file Word/PDF có thể search:

  • Adobe Scan (free app, export PDF searchable, rồi convert Word if needed)
  • Hoặc OneNote (nếu dùng OneNote sẵn, tích hợp sẵn)

Developer / advanced:

  • Tesseract local (offline, unlimited, customize được)

Ảnh xấu / mờ / nhỏ:


Chốt lại

2026, OCR tiếng Việt không phải sang chảnh — nó là tiện ích bình dân, miễn phí hoặc rẻ.

Chụp ảnh hợp đồng, sách, biển bảng → 1-2 phút → trích text 90-99% → không phải gõ lại bằng tay.

Workflow mình dùng: Google Lens cho quick lookup (90 seconds). Adobe Scan nếu cần export PDF chuẩn. Tesseract local chỉ khi ghi âm nhạy cảm (offline, private).

Pro combo: OCR text từ ảnh + Xoá vật thể khỏi ảnh + Speech-to-text từ ghi âm = meeting memo perfect (ảnh sạch + text rõ + audio transcript).

Chia sẻ bài viết

Đội ngũ freeapps.vn

Đội ngũ freeapps.vn — chúng mình xây các tool miễn phí phục vụ người Việt từ 2026.

Bài viết liên quan