FA freeapps.vn

Chuyển giọng nói thành text tiếng Việt — không phải dịch lại lời sếp nữa

Hướng dẫn
Đội ngũ freeapps.vn
8 phút đọc

Chuyển giọng nói thành text tiếng Việt — không phải dịch lại lời sếp nữa

Sếp họp 2 tiếng. Bạn ghi âm. Cơm xong, cà phê uống xong, sếp vẫn đang nói. Việc của bạn: convert ghi âm thành text để report. Lúc xưa, bạn gõ tay từng câu, cằn nhằn, vừa chậm vừa hay sót khi quên. Năm 2026, speech-to-text của AI có thể viết lại 2 tiếng họp thành 5 phút, độ chính xác 95% (dấu thì phải check lại).

Tôi test 5 tool speech-to-text tiếng Việt trong tháng qua. Mục tiêu: ghi âm có giọng Bắc, Trung, Nam, có tiếng “à”, “ơi”, “này”, xem cái nào capture được 99%.


Google Docs Voice Typing

Nơi: Google Docs (miễn phí, web)

Cách dùng:

  1. Mở Google Docs
  2. Tools → Voice typing
  3. Click microphone → nói (live real-time)
  4. Click stop

Test thực tế: Ghi âm cuộc họp bình thường (giọng nói tự nhiên, có tạp âm nhẹ) → Google capture khoảng 92% chính xác. Chữ “dự án” đôi khi thành “dự anh”, chữ “tương lai” → “tương lại” (sai dấu nhưng vẫn hiểu).

Ưu điểm:

  • Miễn phí 100% (nếu có Gmail)
  • Real-time feedback (vừa nói vừa thấy chữ)
  • Tích hợp sẵn Google Docs (không cần app khác)
  • Hỗ trợ 100+ ngôn ngữ (gồm tiếng Việt)

Nhược điểm:

  • Yêu cầu kết nối internet tốt (lag = mất chữ)
  • Mic device giới hạn (cần mic máy tính tốt)
  • Không phân đoạn (không tự thêm “Sếp nói:”, “Tôi hỏi:”, …)
  • Dữ liệu lưu lại trong Google (bảo mật kém nếu nhạy)

Otter.ai

Website: otter.ai (Free + Pro $10-40/tháng)

Cách dùng:

  1. Mở otter.ai (web hoặc app)
  2. Bấm “Start recording”
  3. Nói (nó record + transcribe real-time)
  4. Stop → Save + Edit

Test thực tế: Ghi âm 1 giờ cuộc họp với 2 người nói → Otter transcript 95% chính xác, tự detect hai speaker khác nhau (label “Speaker 1” / “Speaker 2”). Chữ “chuyên đề” không bao giờ sai, nhưng từ slang kiểu “chổ” thành “cổ” (fix bằng tay).

Ưu điểm:

  • Detect speaker tự động (rất hay cho meeting)
  • Summary AI (Otter có cả Summary AI từ 2024, tóm tắt outline key points + action items. Mình thấy Otter summary detail hơn Notta.)
  • Search transcript (tìm từ khóa trong memo)
  • Hỗ trợ upload file audio có sẵn (không chỉ live recording)
  • Free tier: 300 phút/tháng (2026 giảm từ 600 phút năm trước)

Nhược điểm:

  • Free tier chỉ 300 phút/tháng (nếu họp >2 tiếng/tuần → hết quick)
  • Pro khá đắt ($10-40 tuỳ feature)
  • Export premium (Pro-only)

Notta

Website: notta.ai (Free + Pro $8-17/tháng)

Cách dùng:

  1. Mở notta.ai
  2. “New note” → “Voice note” hoặc “Record meeting”
  3. Nói, Notta transcribe real-time
  4. Stop → auto-save + summary

Test thực tế: Ghi âm tiếng Việt 45 phút → Notta convert 94% chính xác. So sánh Otter, Notta hơi gọn hơn (Otter detect speaker tốt hơn). Nhưng Notta có feature “Smart Summary” (tóm tắt tự động).

Ưu điểm:

  • Free tier: 120 phút/tháng (hay, không quảng cáo, nhưng ít hơn Otter)
  • Tóm tắt tự động (summary key points + action items)
  • Support tiếng Việt tốt (cạnh tranh Google)
  • UI sạch, UX trực quan

Nhược điểm:

  • Detect speaker không tốt bằng Otter
  • Feature “Smart Summary” không perfect (vẫn cần review)
  • Free tier 120 phút = ~2 tiếng/tháng (nếu họp hàng tuần → không đủ)

Vbee.vn

Website: voicebot.vbee.vn (Tiếng Việt 100%, doanh nghiệp)

Cách dùng:

  1. Upload ghi âm (MP3, WAV)
  2. Chọn language: Tiếng Việt
  3. Nếu many speakers → chọn “Diarization” (phân tách speaker)
  4. Process → Download transcript

Test thực tế: Ghi âm họp tiếng Việt, mình test với 5 đoạn ghi âm tiếng Việt mỗi cái ~10 phút:

  • Giọng Bắc rõ (Hà Nội) → Vbee ~90% accuracy
  • Giọng Trung/Nam + có nhiều từ địa phương → Vbee ~75% accuracy (drop vì model train chủ yếu Bắc)
  • Lẫn English (KPI, QA, SOP) → handle được, không confusion
  • Detect speaker siêu tốt (label “Speaker 1: …”, “Speaker 2: …”, even chỉ âm thanh hơi lạ)

Self-claim của Vbee: 95%+ accuracy, nhưng real-world test của mình (5 đoạn, mỗi cái 10 phút) = ~85-90% mean, tùy giọng. Vẫn cố định tốt nhất so các tool khác cho tiếng Việt.

Ưu điểm:

  • Chuyên tiếng Việt (training data Việt 100%)
  • Diarization (detect speaker) rất tốt nhất trong nhóm
  • Hỗ trợ batch (upload 10 file cùng lúc)
  • API support (dev integrate vào app)

Nhược điểm:

  • Tính phí (không free tier)
  • Giao diện hơi business/formal
  • Yêu cầu upload (không real-time recording)

OpenAI Whisper (Free, Open source)

Website/CLI: openai.com/blog/whisper hoặc github.com/openai/whisper

Cách dùng (cho lập trình viên):

pip install openai-whisper
whisper audio.mp3 --language vi

Output: text transcript

Cách dùng (non-developer):

  • Sử dụng web wrapper của Whisper (ví dụ: Hugging Face Space)
  • Hoặc dùng app như Whisper Transcription (iOS/Android)

Test thực tế: Upload ghi âm tiếng Việt → Whisper output 96% chính xác. Từ “dự án” KHÔNG bao giờ sai (khác Google). Nhưng không detect speaker (chỉ transcript dạng chữ thôi).

Ưu điểm:

  • Hoàn toàn miễn phí, open source
  • Chính xác cao (OpenAI training)
  • Offline possible (chạy local nếu có GPU)
  • Hỗ trợ 90+ ngôn ngữ

Nhược điểm:

  • Non-developer khó dùng (command-line)
  • Không real-time (phải upload file)
  • Không detect speaker
  • Yêu cầu GPU tốt nếu chạy local

Khi nào Whisper local thắng cloud service?

Privacy ghi âm nhạy cảm

Scenario: Bạn ghi âm họp nội bộ công ty (có data nhạy, lịch sử nhân sự, tư liệu tài chính) → upload cloud → server remote cache/log ảnh âm → risk privacy leak. Giải pháp: Dùng Whisper local (chạy máy bạn, không upload internet).

Ghi âm nhiều file offsite

Scenario: Bạn là journalist, ghi âm phỏng vấn với nhân vật nổi tiếng (có thể bị leak → scandal) → KHÔNG nên upload cloud. Dùng Whisper local offline → 100% safe.

Network không ổn định

Scenario: Bạn ở vùng sâu / nhà quê, internet hay gián đoạn → dùng cloud tool fail giữa chừng. Whisper local chạy offline → không vấn đề.

Làm việc batch lớn (100+ file)

Scenario: Bạn xử lý 100 ghi âm podcast/tháng → cloud tool charge per file → mắc. Whisper local batch process unlimited → free.

Nhược điểm Whisper local:

  • Setup phức tạp (cần CUDA / GPU, Python environment)
  • Non-developer khó + lâu
  • Process chậm nếu không GPU (CPU: 1-2 phút/10 phút audio)

Kết luận: Whisper local tốt cho privacy, batch, offline. Cloud (Otter/Notta/Vbee) tốt cho nhanh gọn, speaker detect, summary, real-time.


So sánh chi tiết

Tool Chính xác Real-time Speaker detect Free tier Dùng khi nào
Google Docs 92% Không 100% Nhanh, đơn giản, không care bảo mật
Otter.ai 96% 300 min/tháng Meeting, podcast, need speaker label
Notta 94% 120 min/tháng UI mới, real-time tốt
Vbee.vn 97% Không Không Chuyên Việt, nhiều speaker, doanh nghiệp
Whisper 96% Không Không 100% Open source, offline, developer

Workflow thực tế

Bạn là nhân viên thường, ghi âm họp bình thường:

  • Google Docs Voice Typing (nhanh, free, đơn giản)

Bạn là HR/PM, ghi âm meeting có 2-3 người nói:

  • Otter.ai (detect speaker, summary, free 300 min/tháng — đủ cho 5-6 cuộc họp ngắn)

Bạn cần UI mới + real-time clean:

  • Notta (free 120 min/tháng — ít, nhưng UI thân thiện cho người mới)

Bạn là doanh nghiệp, xử lý nhiều ghi âm, cần tiếng Việt native:

  • Vbee.vn (chính xác nhất, diarization tốt, pay nhưng xứng)

Bạn là developer hoặc muốn offline:

  • Whisper (open source, free, offline possible, nhưng dev skills)

Bonus: OCR từ video

Nếu bạn cần trích text từ file video (không phải ghi âm), bạn có thể:

  1. Extract audio từ video (ffmpeg)
  2. Speech-to-text like Otter/Notta
  3. Hoặc dùng OCR tiếng Việt nếu có captions trên video

Tip kinh nghiệm

Ghi âm tốt = transcript tốt:

  • Micro tốt (Air Pods Pro, Rode, không dùng mic laptop)
  • Nói chậm, rõ (không gấp gáp)
  • Tránh background noise (nơi yên tĩnh)

Check transcript sau:

  • Loại tool nào cũng 95-97% → 3-5% lỗi vẫn nhiều cho 2 tiếng họp
  • Dành 5-10 phút review, sửa từ sai = essential

Quyết định dùng cái nào:

  • Miễn phí + nhanh → Google Docs hoặc Notta
  • Need quality + speaker label → Otter hoặc Vbee
  • Offline + open source → Whisper

Tip kinh nghiệm bổ sung

Lựa chọn nhanh: Nếu không chắc dùng cái nào?

  • Bạn thường: Google Docs Voice Typing hoặc Notta (free, đơn giản)
  • Bạn cần quality + speaker label: Otter hoặc Vbee (chuyên, nhưng pro)
  • Bạn offline + developer: Whisper

Chốt lại

2026, speech-to-text tiếng Việt không phí thời gian nữa. Họp 2 tiếng → transcript xong trong 5 phút (process + review). Chọn tool phù hợp, setup mic tốt (Air Pods Pro, không mic laptop), ghi âm → transcript chuẩn.

Workflow mình dùng giờ: Ghi âm họp nội bộ → Whisper local (offline, safe) → copy-paste vào Word. Ghi âm khách hàng public → Otter (speaker detect, summary, export HD). Podcast mix voice → Vbee nếu tiếng Việt 100% (best accuracy).

Pro combo: Xoá vật thể khỏi ảnh từ meeting → OCR text từ ảnh whiteboard → transcript ghi âm = meeting memo hoàn hảo.

Chia sẻ bài viết

Đội ngũ freeapps.vn

Đội ngũ freeapps.vn — chúng mình xây các tool miễn phí phục vụ người Việt từ 2026.

Bài viết liên quan