Chuyển giọng nói thành text tiếng Việt — không phải dịch lại lời sếp nữa
Sếp họp 2 tiếng. Bạn ghi âm. Cơm xong, cà phê uống xong, sếp vẫn đang nói. Việc của bạn: convert ghi âm thành text để report. Lúc xưa, bạn gõ tay từng câu, cằn nhằn, vừa chậm vừa hay sót khi quên. Năm 2026, speech-to-text của AI có thể viết lại 2 tiếng họp thành 5 phút, độ chính xác 95% (dấu thì phải check lại).
Tôi test 5 tool speech-to-text tiếng Việt trong tháng qua. Mục tiêu: ghi âm có giọng Bắc, Trung, Nam, có tiếng “à”, “ơi”, “này”, xem cái nào capture được 99%.
Google Docs Voice Typing
Nơi: Google Docs (miễn phí, web)
Cách dùng:
- Mở Google Docs
- Tools → Voice typing
- Click microphone → nói (live real-time)
- Click stop
Test thực tế: Ghi âm cuộc họp bình thường (giọng nói tự nhiên, có tạp âm nhẹ) → Google capture khoảng 92% chính xác. Chữ “dự án” đôi khi thành “dự anh”, chữ “tương lai” → “tương lại” (sai dấu nhưng vẫn hiểu).
Ưu điểm:
- Miễn phí 100% (nếu có Gmail)
- Real-time feedback (vừa nói vừa thấy chữ)
- Tích hợp sẵn Google Docs (không cần app khác)
- Hỗ trợ 100+ ngôn ngữ (gồm tiếng Việt)
Nhược điểm:
- Yêu cầu kết nối internet tốt (lag = mất chữ)
- Mic device giới hạn (cần mic máy tính tốt)
- Không phân đoạn (không tự thêm “Sếp nói:”, “Tôi hỏi:”, …)
- Dữ liệu lưu lại trong Google (bảo mật kém nếu nhạy)
Otter.ai
Website: otter.ai (Free + Pro $10-40/tháng)
Cách dùng:
- Mở otter.ai (web hoặc app)
- Bấm “Start recording”
- Nói (nó record + transcribe real-time)
- Stop → Save + Edit
Test thực tế: Ghi âm 1 giờ cuộc họp với 2 người nói → Otter transcript 95% chính xác, tự detect hai speaker khác nhau (label “Speaker 1” / “Speaker 2”). Chữ “chuyên đề” không bao giờ sai, nhưng từ slang kiểu “chổ” thành “cổ” (fix bằng tay).
Ưu điểm:
- Detect speaker tự động (rất hay cho meeting)
- Summary AI (Otter có cả Summary AI từ 2024, tóm tắt outline key points + action items. Mình thấy Otter summary detail hơn Notta.)
- Search transcript (tìm từ khóa trong memo)
- Hỗ trợ upload file audio có sẵn (không chỉ live recording)
- Free tier: 300 phút/tháng (2026 giảm từ 600 phút năm trước)
Nhược điểm:
- Free tier chỉ 300 phút/tháng (nếu họp >2 tiếng/tuần → hết quick)
- Pro khá đắt ($10-40 tuỳ feature)
- Export premium (Pro-only)
Notta
Website: notta.ai (Free + Pro $8-17/tháng)
Cách dùng:
- Mở notta.ai
- “New note” → “Voice note” hoặc “Record meeting”
- Nói, Notta transcribe real-time
- Stop → auto-save + summary
Test thực tế: Ghi âm tiếng Việt 45 phút → Notta convert 94% chính xác. So sánh Otter, Notta hơi gọn hơn (Otter detect speaker tốt hơn). Nhưng Notta có feature “Smart Summary” (tóm tắt tự động).
Ưu điểm:
- Free tier: 120 phút/tháng (hay, không quảng cáo, nhưng ít hơn Otter)
- Tóm tắt tự động (summary key points + action items)
- Support tiếng Việt tốt (cạnh tranh Google)
- UI sạch, UX trực quan
Nhược điểm:
- Detect speaker không tốt bằng Otter
- Feature “Smart Summary” không perfect (vẫn cần review)
- Free tier 120 phút = ~2 tiếng/tháng (nếu họp hàng tuần → không đủ)
Vbee.vn
Website: voicebot.vbee.vn (Tiếng Việt 100%, doanh nghiệp)
Cách dùng:
- Upload ghi âm (MP3, WAV)
- Chọn language: Tiếng Việt
- Nếu many speakers → chọn “Diarization” (phân tách speaker)
- Process → Download transcript
Test thực tế: Ghi âm họp tiếng Việt, mình test với 5 đoạn ghi âm tiếng Việt mỗi cái ~10 phút:
- Giọng Bắc rõ (Hà Nội) → Vbee ~90% accuracy
- Giọng Trung/Nam + có nhiều từ địa phương → Vbee ~75% accuracy (drop vì model train chủ yếu Bắc)
- Lẫn English (KPI, QA, SOP) → handle được, không confusion
- Detect speaker siêu tốt (label “Speaker 1: …”, “Speaker 2: …”, even chỉ âm thanh hơi lạ)
Self-claim của Vbee: 95%+ accuracy, nhưng real-world test của mình (5 đoạn, mỗi cái 10 phút) = ~85-90% mean, tùy giọng. Vẫn cố định tốt nhất so các tool khác cho tiếng Việt.
Ưu điểm:
- Chuyên tiếng Việt (training data Việt 100%)
- Diarization (detect speaker) rất tốt nhất trong nhóm
- Hỗ trợ batch (upload 10 file cùng lúc)
- API support (dev integrate vào app)
Nhược điểm:
- Tính phí (không free tier)
- Giao diện hơi business/formal
- Yêu cầu upload (không real-time recording)
OpenAI Whisper (Free, Open source)
Website/CLI: openai.com/blog/whisper hoặc github.com/openai/whisper
Cách dùng (cho lập trình viên):
pip install openai-whisper
whisper audio.mp3 --language vi
Output: text transcript
Cách dùng (non-developer):
- Sử dụng web wrapper của Whisper (ví dụ: Hugging Face Space)
- Hoặc dùng app như Whisper Transcription (iOS/Android)
Test thực tế: Upload ghi âm tiếng Việt → Whisper output 96% chính xác. Từ “dự án” KHÔNG bao giờ sai (khác Google). Nhưng không detect speaker (chỉ transcript dạng chữ thôi).
Ưu điểm:
- Hoàn toàn miễn phí, open source
- Chính xác cao (OpenAI training)
- Offline possible (chạy local nếu có GPU)
- Hỗ trợ 90+ ngôn ngữ
Nhược điểm:
- Non-developer khó dùng (command-line)
- Không real-time (phải upload file)
- Không detect speaker
- Yêu cầu GPU tốt nếu chạy local
Khi nào Whisper local thắng cloud service?
Privacy ghi âm nhạy cảm
Scenario: Bạn ghi âm họp nội bộ công ty (có data nhạy, lịch sử nhân sự, tư liệu tài chính) → upload cloud → server remote cache/log ảnh âm → risk privacy leak. Giải pháp: Dùng Whisper local (chạy máy bạn, không upload internet).
Ghi âm nhiều file offsite
Scenario: Bạn là journalist, ghi âm phỏng vấn với nhân vật nổi tiếng (có thể bị leak → scandal) → KHÔNG nên upload cloud. Dùng Whisper local offline → 100% safe.
Network không ổn định
Scenario: Bạn ở vùng sâu / nhà quê, internet hay gián đoạn → dùng cloud tool fail giữa chừng. Whisper local chạy offline → không vấn đề.
Làm việc batch lớn (100+ file)
Scenario: Bạn xử lý 100 ghi âm podcast/tháng → cloud tool charge per file → mắc. Whisper local batch process unlimited → free.
Nhược điểm Whisper local:
- Setup phức tạp (cần CUDA / GPU, Python environment)
- Non-developer khó + lâu
- Process chậm nếu không GPU (CPU: 1-2 phút/10 phút audio)
Kết luận: Whisper local tốt cho privacy, batch, offline. Cloud (Otter/Notta/Vbee) tốt cho nhanh gọn, speaker detect, summary, real-time.
So sánh chi tiết
| Tool | Chính xác | Real-time | Speaker detect | Free tier | Dùng khi nào |
|---|---|---|---|---|---|
| Google Docs | 92% | Có | Không | 100% | Nhanh, đơn giản, không care bảo mật |
| Otter.ai | 96% | Có | Có | 300 min/tháng | Meeting, podcast, need speaker label |
| Notta | 94% | Có | Có | 120 min/tháng | UI mới, real-time tốt |
| Vbee.vn | 97% | Không | Có | Không | Chuyên Việt, nhiều speaker, doanh nghiệp |
| Whisper | 96% | Không | Không | 100% | Open source, offline, developer |
Workflow thực tế
Bạn là nhân viên thường, ghi âm họp bình thường:
- Google Docs Voice Typing (nhanh, free, đơn giản)
Bạn là HR/PM, ghi âm meeting có 2-3 người nói:
- Otter.ai (detect speaker, summary, free 300 min/tháng — đủ cho 5-6 cuộc họp ngắn)
Bạn cần UI mới + real-time clean:
- Notta (free 120 min/tháng — ít, nhưng UI thân thiện cho người mới)
Bạn là doanh nghiệp, xử lý nhiều ghi âm, cần tiếng Việt native:
- Vbee.vn (chính xác nhất, diarization tốt, pay nhưng xứng)
Bạn là developer hoặc muốn offline:
- Whisper (open source, free, offline possible, nhưng dev skills)
Bonus: OCR từ video
Nếu bạn cần trích text từ file video (không phải ghi âm), bạn có thể:
- Extract audio từ video (ffmpeg)
- Speech-to-text like Otter/Notta
- Hoặc dùng OCR tiếng Việt nếu có captions trên video
Tip kinh nghiệm
Ghi âm tốt = transcript tốt:
- Micro tốt (Air Pods Pro, Rode, không dùng mic laptop)
- Nói chậm, rõ (không gấp gáp)
- Tránh background noise (nơi yên tĩnh)
Check transcript sau:
- Loại tool nào cũng 95-97% → 3-5% lỗi vẫn nhiều cho 2 tiếng họp
- Dành 5-10 phút review, sửa từ sai = essential
Quyết định dùng cái nào:
- Miễn phí + nhanh → Google Docs hoặc Notta
- Need quality + speaker label → Otter hoặc Vbee
- Offline + open source → Whisper
Tip kinh nghiệm bổ sung
Lựa chọn nhanh: Nếu không chắc dùng cái nào?
- Bạn thường: Google Docs Voice Typing hoặc Notta (free, đơn giản)
- Bạn cần quality + speaker label: Otter hoặc Vbee (chuyên, nhưng pro)
- Bạn offline + developer: Whisper
Chốt lại
2026, speech-to-text tiếng Việt không phí thời gian nữa. Họp 2 tiếng → transcript xong trong 5 phút (process + review). Chọn tool phù hợp, setup mic tốt (Air Pods Pro, không mic laptop), ghi âm → transcript chuẩn.
Workflow mình dùng giờ: Ghi âm họp nội bộ → Whisper local (offline, safe) → copy-paste vào Word. Ghi âm khách hàng public → Otter (speaker detect, summary, export HD). Podcast mix voice → Vbee nếu tiếng Việt 100% (best accuracy).
Pro combo: Xoá vật thể khỏi ảnh từ meeting → OCR text từ ảnh whiteboard → transcript ghi âm = meeting memo hoàn hảo.
