Đếm Từ

Đếm từ, ký tự, câu, đoạn văn và ước tính thời gian đọc

Thử ví dụ

0

Từ

0

Ký tự

0

Ký tự (không dấu cách)

0

Câu

0

Đoạn văn

Thời gian đọc

Thời gian nói

Văn bản của bạn

Chạy cục bộ · An toàn để dán thông tin bí mật

Đếm Từ Là Gì?

Công cụ đếm từ cho bạn biết văn bản chứa bao nhiêu từ, ký tự, câu và đoạn văn. Công cụ tách đầu vào tại các ranh giới khoảng trắng và áp dụng các quy tắc dựa trên mẫu để phát hiện câu và đoạn văn. Định nghĩa về "từ" khác nhau tùy theo ngôn ngữ, chữ viết và ngữ cảnh. Trong tiếng Anh, các token phân tách bằng khoảng trắng hoạt động tốt. Trong các ngôn ngữ CJK (tiếng Trung, Nhật, Hàn), từ không được phân tách bằng dấu cách và việc phân đoạn yêu cầu các thuật toán dựa trên từ điển như ICU's BreakIterator.

Đếm ký tự có hai định nghĩa phổ biến: tính cả dấu cách và không tính dấu cách. Tổng số ký tự bao gồm mọi Unicode code point trong văn bản, kể cả dấu cách, tab và ký tự xuống dòng. Ký tự không tính dấu cách sẽ loại bỏ toàn bộ khoảng trắng trước khi đếm — đây là chỉ số được các nền tảng như Twitter (nay là X) dùng cho giới hạn độ dài bài đăng và được các dịch giả tính phí theo ký tự sử dụng. Sự khác biệt này quan trọng khi dán văn bản vào các hệ thống có giới hạn độ dài nghiêm ngặt.

Ước tính thời gian đọc và thời gian nói được tính bằng cách chia số từ cho tốc độ trung bình. Nghiên cứu đăng trên Journal of Memory and Language (Brysbaert, 2019) cho thấy tốc độ đọc thầm trung bình là 238 từ mỗi phút đối với văn xuôi tiếng Anh. Tốc độ nói trong thuyết trình thường từ 130 đến 160 từ mỗi phút. Các con số trung bình này thay đổi theo độ khó của văn bản, đối tượng và ngôn ngữ, nhưng chúng cung cấp ước lượng thực tế cho bài viết blog, tài liệu và slide thuyết trình.

Tại Sao Dùng Công Cụ Đếm Từ Này?

Dán văn bản của bạn và nhận ngay kết quả đếm từ, ký tự, câu và đoạn văn theo thời gian thực mà không cần tạo tài khoản hay gửi dữ liệu qua mạng.

Kết Quả Tức Thì
Số đếm cập nhật ngay khi bạn gõ hoặc dán. Không cần nhấn nút, không có vòng tải. Thử nhiều văn bản khác nhau liên tiếp mà không cần chờ đợi.
🔒
Xử Lý Ưu Tiên Quyền Riêng Tư
Toàn bộ việc đếm diễn ra trong trình duyệt của bạn bằng JavaScript. Văn bản của bạn không bao giờ rời khỏi thiết bị và không có gì được lưu trữ hay ghi nhật ký trên bất kỳ máy chủ nào.
📊
Bảy Chỉ Số Cùng Lúc
Từ, ký tự (có và không có dấu cách), câu, đoạn văn, thời gian đọc và thời gian nói. Một lần dán cho bạn tất cả những gì cần thiết.
🌍
Không Cần Tài Khoản Hay Cài Đặt
Mở trang và bắt đầu đếm. Không đăng ký, không tiện ích mở rộng trình duyệt, không ứng dụng desktop. Hoạt động trên mọi thiết bị có trình duyệt hiện đại.

Các Trường Hợp Sử Dụng Công Cụ Đếm Từ

Viết Nội Dung và Blog
Kiểm tra độ dài bài viết theo mục tiêu SEO. Google không đặt ra số từ tối thiểu, nhưng các nghiên cứu của Backlinko và Ahrefs cho thấy các trang xếp hạng cao trung bình từ 1.400 đến 1.700 từ cho các truy vấn cạnh tranh.
Tài Liệu API
Giữ các mô tả endpoint nhất quán. Nếu hướng dẫn phong cách của bạn quy định mỗi mô tả tham số phải dưới 200 ký tự, hãy dán văn bản vào đây để kiểm tra trước khi commit.
Chuẩn Bị Bài Báo Khoa Học
Bài nộp hội nghị và bài báo trên tạp chí có giới hạn từ nghiêm ngặt. Đếm từ trước khi nộp để tránh bị từ chối ngay vì vượt quá giới hạn tối đa.
Soạn Thảo Bài Đăng Mạng Xã Hội
Twitter/X cho phép 280 ký tự, bài đăng LinkedIn bị cắt ở 3.000 ký tự và tiêu đề quảng cáo Meta giới hạn ở 40 ký tự. Kiểm tra số ký tự trước khi đăng.
Commit Message cho DevOps
Định dạng commit message Git thông thường khuyến nghị dòng tiêu đề dưới 50 ký tự và nội dung xuống dòng ở 72 ký tự mỗi dòng. Dán bản nháp vào để kiểm tra trước khi commit.
Dịch Thuật và Bản Địa Hóa
Dịch giả tính giá theo số từ hoặc số ký tự. Lấy số đếm chính xác của văn bản nguồn để yêu cầu báo giá và ước tính chi phí dự án trước khi gửi tệp cho công ty dịch thuật.

Tham Chiếu Chỉ Số Văn Bản

Mỗi chỉ số mà công cụ này báo cáo có một định nghĩa cụ thể. Bảng dưới đây cho thấy cách tính từng chỉ số.

Chỉ sốCách TínhVí dụ
WordsSequences separated by whitespace"hello world" → 2
CharactersAll characters including spaces"hi there" → 8
Characters (no spaces)Letters, digits, punctuation only"hi there" → 7
SentencesSegments ending with . ? or !"Hi. Bye!" → 2
ParagraphsText blocks separated by blank lines"A\n\nB" → 2
Reading timeWord count ÷ 238 wpm (silent reading avg)1 000 words → ~4.2 min
Speaking timeWord count ÷ 150 wpm (presentation pace)1 000 words → ~6.7 min

Số Từ và Số Ký Tự

Hai chỉ số này trả lời các câu hỏi khác nhau. Chọn sai chỉ số có thể dẫn đến bài nộp bị từ chối hoặc bố cục bị hỏng.

Số Từ
Đo số lượng token được phân tách bằng khoảng trắng. Đây là chỉ số tiêu chuẩn cho bài luận, bài viết và bản thảo sách. Hầu hết các tạp chí học thuật, nền tảng blog và hợp đồng freelance đều định nghĩa độ dài theo số từ. Chỉ số này phụ thuộc vào ngôn ngữ: một đoạn văn tiếng Anh 500 từ có thể dịch thành 700 từ trong tiếng Đức hoặc 300 ký tự trong tiếng Trung.
Số Ký Tự
Đo số lượng ký tự riêng lẻ (Unicode code point). Đây là tiêu chuẩn cho giới hạn mạng xã hội (Twitter: 280 ký tự), tin nhắn SMS (160 byte trong GSM-7), chuỗi UI và văn bản CJK nơi ranh giới từ không tồn tại. Khi một nền tảng nói "giới hạn ký tự", họ thường có nghĩa là code point, không phải byte. Các cặp surrogate (emoji, một số CJK) có thể được tính là 1 hoặc 2 tùy thuộc vào nền tảng.

Ví Dụ Code

Cách đếm từ và ký tự theo chương trình trong các ngôn ngữ lập trình khác nhau. Mỗi ví dụ xử lý cùng một chuỗi đầu vào để so sánh nhất quán.

JavaScript
// Word count — split on whitespace, filter empty strings
const text = 'Hello  world!  How are you?'
const words = text.trim().split(/\s+/).filter(Boolean)
console.log(words.length) // → 5

// Character count
console.log(text.length)                          // → 27 (with spaces)
console.log(text.replace(/\s/g, '').length)       // → 22 (without spaces)

// Sentence count — split on sentence-ending punctuation
const sentences = text.split(/[.!?]+/).filter(s => s.trim().length > 0)
console.log(sentences.length) // → 2

// Reading time estimate (238 wpm average)
const readingMin = words.length / 238
console.log(Math.ceil(readingMin)) // → 1 min
Python
import re

text = 'Hello  world!  How are you?'

# Word count
words = text.split()
print(len(words))  # → 5

# Character counts
print(len(text))                              # → 27 (with spaces)
print(len(text.replace(' ', '')))             # → 22 (without spaces)

# Sentence count
sentences = [s for s in re.split(r'[.!?]+', text) if s.strip()]
print(len(sentences))  # → 2

# Paragraph count
multiline = """First paragraph.

Second paragraph."""
paragraphs = [p for p in multiline.split('\n\n') if p.strip()]
print(len(paragraphs))  # → 2
Go
package main

import (
	"fmt"
	"strings"
	"unicode"
)

func main() {
	text := "Hello  world!  How are you?"

	// Word count
	words := strings.Fields(text)
	fmt.Println(len(words)) // → 5

	// Character count (rune-aware for Unicode)
	fmt.Println(len([]rune(text))) // → 27

	// Characters without spaces
	noSpaces := strings.Map(func(r rune) rune {
		if unicode.IsSpace(r) {
			return -1
		}
		return r
	}, text)
	fmt.Println(len([]rune(noSpaces))) // → 22
}
CLI (bash)
# Word count
echo "Hello world" | wc -w
# → 2

# Character count (bytes — use wc -m for multibyte chars)
echo -n "Hello world" | wc -m
# → 11

# Line count
echo -e "line1\nline2\nline3" | wc -l
# → 3

# Count words in a file
wc -w < article.txt
# → 4230

Câu Hỏi Thường Gặp

Công cụ đếm từ định nghĩa "từ" như thế nào?
Công cụ này tách văn bản tại các khoảng trắng (dấu cách, tab, xuống dòng) và đếm các token không rỗng. Các từ có gạch nối như "well-known" được tính là một từ. Điều này khớp với cách hoạt động của Microsoft Word và Google Docs cho văn bản tiếng Anh. Đối với các ngôn ngữ CJK, việc tách theo khoảng trắng đánh giá thấp số từ thực sự vì các chữ viết đó không dùng dấu cách giữa các từ.
Ước tính thời gian đọc có chính xác không?
Ước tính sử dụng 238 từ mỗi phút, dựa trên phân tích tổng hợp năm 2019 của Marc Brysbaert bao gồm 190 nghiên cứu. Đây là mức trung bình tốt cho văn xuôi phi hư cấu tiếng Anh được người lớn đọc thầm. Tài liệu kỹ thuật có các khối code được đọc chậm hơn (150 đến 180 từ mỗi phút), và nội dung blog thông thường được đọc nhanh hơn (250 đến 300 từ mỗi phút). Hãy coi con số này là hướng dẫn, không phải đảm bảo.
Sự khác biệt giữa ký tự và ký tự không dấu cách là gì?
Ký tự bao gồm mọi ký tự trong văn bản: chữ cái, chữ số, dấu câu, dấu cách, tab và xuống dòng. Ký tự không dấu cách loại bỏ tất cả khoảng trắng trước khi đếm. Dùng số đếm "không dấu cách" khi kiểm tra giới hạn cho các nền tảng như Twitter, nơi dấu cách được tính vào giới hạn, hoặc cho định giá dịch thuật trong các ngôn ngữ CJK nơi dấu cách không phải là một phần của hệ thống chữ viết.
Câu được đếm như thế nào?
Công cụ đếm các đoạn kết thúc bằng dấu chấm, dấu chấm than hoặc dấu hỏi. Các viết tắt như "Dr." hoặc "U.S.A." có thể làm tăng số đếm vì mỗi dấu chấm kích hoạt một kết quả khớp. Để phân đoạn câu chính xác, hãy dùng các thư viện NLP như spaCy hoặc NLTK áp dụng các mô hình đã được huấn luyện để xử lý viết tắt, dấu ba chấm và số thập phân.
Tôi có thể đếm từ trong tệp mà không cần dán không?
Công cụ trình duyệt này chỉ hoạt động với văn bản được dán vào. Để đếm từ trong tệp từ dòng lệnh, dùng wc -w filename trên Linux hoặc macOS. Trên Windows, PowerShell cung cấp (Get-Content file.txt | Measure-Object -Word).Words. Đối với các tệp lớn hoặc xử lý theo lô, các công cụ dòng lệnh nhanh hơn bất kỳ công cụ đếm nào trên trình duyệt.
Công cụ có đếm ký tự Unicode đúng không?
Có. Phương thức string.length của JavaScript đếm các đơn vị code UTF-16, không phải code point, vì vậy một emoji như cờ quốc gia (là một chuỗi ZWJ gồm nhiều code point) có thể báo cáo số ký tự cao hơn mong đợi. Công cụ này dùng cùng phương pháp đếm như API chuỗi tích hợp của trình duyệt. Để đếm grapheme cluster chính xác, hãy dùng Intl.Segmenter API có sẵn trong các trình duyệt hiện đại.
Công cụ này so với bộ đếm từ trong Microsoft Word hoặc Google Docs như thế nào?
Microsoft Word và Google Docs dùng cách tách dựa trên khoảng trắng tương tự cho số từ tiếng Anh. Có thể có sự khác biệt nhỏ với các từ có gạch nối, dấu gạch ngang em không có dấu cách, và cách chú thích hoặc tiêu đề được tính. Công cụ này đếm chính xác văn bản bạn dán vào, không có metadata, tiêu đề hay chú thích. Để khớp chính xác số đếm của một nền tảng cụ thể, hãy dán cùng văn bản vào cả hai và so sánh.