حذف خطوط تکراری چیست؟

حذف خطوط تکراری فرایند اسکن یک متن خط به خط و نگه‌داشتن تنها اولین رخداد هر خط منحصربه‌فرد است. وقتی خطوط تکراری را به‌صورت آنلاین حذف می‌کنید، ابزار ورودی شما را بر اساس کاراکترهای خط جدید تقسیم می‌کند، با استفاده از یک ساختار داده مبتنی بر هش (مانند Set) پیگیری می‌کند کدام خطوط قبلاً دیده شده‌اند، و فقط خطوطی را که تاکنون مشاهده نشده‌اند خروجی می‌دهد. ترتیب اصلی خطوط حفظ می‌شود.

دو خط زمانی تکراری محسوب می‌شوند که کاراکتر به کاراکتر دقیقاً یکسان باشند. با این حال، داده‌های دنیای واقعی به‌ندرت دقیقاً با هم تطابق دارند. فاصله‌های ابتدایی یا انتهایی، حروف بزرگ و کوچک ناهماهنگ، و کاراکترهای نامرئی مانند tab یا carriage return می‌توانند باعث شوند خطوطی که ظاهراً یکسان هستند به‌عنوان منحصربه‌فرد تلقی شوند. به همین دلیل است که اکثر ابزارهای حذف تکراری گزینه‌هایی برای مقایسه بدون حساسیت به حروف و حذف فاصله‌های اضافی ارائه می‌دهند.

حذف تکراری یک عملیات متمایز از مرتب‌سازی است. دستور sort -u در یونیکس هم مرتب‌سازی می‌کند و هم تکراری‌ها را حذف می‌کند، که ترتیب خطوط را تغییر می‌دهد. اگر نیاز دارید ترتیب اصلی خطوط حفظ شود، باید از رویکرد seen-set استفاده کنید: خطوط را به‌ترتیب پیمایش کنید، شکل نرمال‌شده هر خط را به یک مجموعه اضافه کنید، و هر خطی که کلیدش از قبل وجود دارد را نادیده بگیرید. این ابزار از روش seen-set استفاده می‌کند، بنابراین اولین رخدادها در موقعیت‌های اصلی خود باقی می‌مانند.

چرا از این ابزار حذف تکراری استفاده کنیم؟

متن خود را جای‌گذاری کنید، گزینه‌های مقایسه را انتخاب کنید، و بلافاصله نتیجه پاک‌شده را ببینید. بدون نیاز به خط فرمان، بدون نوشتن regex، بدون آپلود فایل.

⚡

حذف تکراری فوری

نتایج با تایپ یا جای‌گذاری متن به‌روز می‌شوند. حساسیت به حروف و حذف فاصله‌های اضافی را روشن و خاموش کنید تا ببینید گزینه‌های مختلف چگونه روی خروجی تأثیر می‌گذارند، بدون اینکه نیازی به اجرای مجدد باشد.

🔒

پردازش با اولویت حریم خصوصی

تمام عملیات حذف تکراری در مرورگر شما با استفاده از JavaScript اجرا می‌شود. متن شما روی دستگاهتان باقی می‌ماند و هرگز به سرور آپلود نمی‌شود یا در جایی ثبت نمی‌شود.

🎯

تطابق قابل تنظیم

حالت بدون حساسیت به حروف را فعال کنید تا «Apple» و «apple» به‌عنوان یک خط تلقی شوند. حذف فاصله‌های اضافی را روشن کنید تا فاصله‌های ابتدایی و انتهایی در هنگام مقایسه نادیده گرفته شوند.

📋

بدون نیاز به حساب کاربری

صفحه را باز کنید و شروع به حذف تکراری کنید. بدون ثبت‌نام، بدون افزونه مرورگر، بدون نصب دسکتاپ. روی هر دستگاهی با مرورگر مدرن کار می‌کند.

موارد استفاده از ابزار حذف خطوط تکراری

توسعه فرانت‌اند

لیست کلاس‌های CSS را پاک‌سازی کنید، دستورات import تکراری را حذف کنید، یا کلیدهای ترجمه i18n تکراری را حذف کنید. حذف تکراری‌ها قبل از commit از بسته‌های حجیم جلوگیری کرده و تعارضات merge را کاهش می‌دهد.

مهندسی بک‌اند

ورودی‌های تکراری را از requirements.txt، Gemfile، یا لیست‌های dependency در package.json بعد از merge شاخه‌ها حذف کنید. ورودی‌های تکراری را از allow-list‌ها، deny-list‌ها، یا جداول مسیریابی حذف کنید.

DevOps و زیرساخت

ورودی‌های تکراری را از فایل‌های .env، لیست‌های host، یا ConfigMap‌های Kubernetes پاک کنید. متغیرهای محیطی تکراری باعث بازنویسی خاموش می‌شوند، بنابراین شناسایی آن‌ها قبل از استقرار از باگ‌های پیکربندی سخت‌ردیابی جلوگیری می‌کند.

QA و اتوماسیون تست

شناسه‌های test case تکراری را از مانیفست‌های اجرای تست یا assertions تکراری در مجموعه‌های تست تولیدشده حذف کنید. پیام‌های خطا را از خروجی لاگ از تکراری خالی کنید تا مجموعه منحصربه‌فرد خرابی‌ها را ببینید.

مهندسی داده

ردیف‌های تکراری را از خروجی‌های CSV یا نتایج کوئری SQL که به‌صورت متن جای‌گذاری شده‌اند حذف کنید. لیست‌های ایمیل، لیست‌های شناسه کاربری، یا لیست‌های tag را قبل از وارد کردن آن‌ها به پایگاه داده یا پایپ‌لاین پاک‌سازی کنید.

دانشجویان و یادگیرندگان

ورودی‌های تکراری را از لیست‌های واژگان، خطوط کتاب‌نامه، یا یادداشت‌های مطالعه حذف کنید. محتوا را از منابع مختلف جای‌گذاری کنید و یک لیست پاک و منحصربه‌فرد بدون نصب برنامه صفحه‌گسترده به دست آورید.

مقایسه روش‌های حذف تکراری

روش‌های مختلفی برای حذف خطوط تکراری وجود دارند که هر کدام مبادله‌های متفاوتی برای حفظ ترتیب، مصرف حافظه، و دقت دارند.

روش	نحوه کارکرد	ترتیب خروجی	کجا استفاده می‌شود
Set	Hash-based, O(1) lookup	Unordered	JavaScript Set, Python set()
Sorted + scan	Sort then skip adjacent	Sorted output	Unix sort -u, C++ std::unique
Seen-set + list	Track seen, preserve order	Original order	This tool, Python dict.fromkeys()
Bloom filter	Probabilistic membership	May miss some	Large-scale pipelines, Redis
SQL DISTINCT	Database-level dedup	Query-dependent	SELECT DISTINCT col FROM table

مدیریت حساسیت به حروف و فاصله‌های اضافی

دو گزینه تعیین می‌کنند که این ابزار چگونه تشخیص می‌دهد دو خط تکراری هستند. درک زمان استفاده از هر گزینه هم از مثبت کاذب (تلقی خطوط مختلف به‌عنوان تکراری) و هم از منفی کاذب (نادیده گرفتن خطوطی که باید تطابق داشته باشند) جلوگیری می‌کند.

حساس به حروف (پیش‌فرض: روشن)

وقتی فعال است، «Apple» و «apple» به‌عنوان خطوط مختلف تلقی می‌شوند. این گزینه را وقتی داده‌های ارسال‌شده توسط کاربر، لیست‌های نام دامنه، یا هر متنی را پاک‌سازی می‌کنید که حروف‌نگاری ناهماهنگ است اما معنی یکسان دارد، خاموش کنید.

حذف فاصله‌های اضافی (پیش‌فرض: روشن)

وقتی فعال است، فاصله‌ها و tab‌های ابتدایی و انتهایی قبل از مقایسه حذف می‌شوند. این ویژگی خطوطی را که ظاهراً یکسان هستند اما از نظر کاراکترهای نامرئی تفاوت دارند شناسایی می‌کند — که در خروجی ترمینال کپی‌شده، فایل‌های پیکربندی با فاصله‌گذاری، و آثار ویرایشگر متداول است.

مثال‌های کد

خطوط تکراری را به‌صورت برنامه‌نویسی در JavaScript، Python، Go، و خط فرمان حذف کنید. هر مثال حذف تکراری با حفظ ترتیب را نشان می‌دهد و حساسیت به حروف را مدیریت می‌کند.

JavaScript

const text = `apple
banana
apple
Cherry
banana
cherry`

// Remove exact duplicates, preserve order
const unique = [...new Map(
  text.split('\n').map(line => [line, line])
).values()].join('\n')
// → "apple\nbanana\nCherry\ncherry"

// Case-insensitive deduplication
const seen = new Set()
const ciUnique = text.split('\n').filter(line => {
  const key = line.toLowerCase()
  if (seen.has(key)) return false
  seen.add(key)
  return true
}).join('\n')
// → "apple\nbanana\nCherry"

// Trim whitespace before comparing
const trimDedup = text.split('\n').filter(line => {
  const key = line.trim().toLowerCase()
  if (seen.has(key)) return false
  seen.add(key)
  return true
}).join('\n')

Python

text = """apple
banana
apple
Cherry
banana
cherry"""

lines = text.splitlines()

# Remove duplicates, preserve order (Python 3.7+)
unique = list(dict.fromkeys(lines))
# → ['apple', 'banana', 'Cherry', 'cherry']

# Case-insensitive deduplication
seen = set()
ci_unique = []
for line in lines:
    key = line.lower()
    if key not in seen:
        seen.add(key)
        ci_unique.append(line)
# → ['apple', 'banana', 'Cherry']

# With whitespace trimming
seen = set()
trimmed = []
for line in lines:
    key = line.strip().lower()
    if key not in seen:
        seen.add(key)
        trimmed.append(line)

package main

import (
	"fmt"
	"strings"
)

func removeDuplicates(text string) string {
	lines := strings.Split(text, "\n")
	seen := make(map[string]bool)
	result := make([]string, 0, len(lines))

	for _, line := range lines {
		if !seen[line] {
			seen[line] = true
			result = append(result, line)
		}
	}
	return strings.Join(result, "\n")
}

func main() {
	text := "apple\nbanana\napple\ncherry\nbanana"
	fmt.Println(removeDuplicates(text))
	// → apple\nbanana\ncherry
}

CLI (bash)

# Remove duplicates (sorts output — does not preserve order)
sort -u file.txt

# Remove duplicates while preserving original order
awk '!seen[$0]++' file.txt

# Case-insensitive dedup, preserve order
awk 'BEGIN{IGNORECASE=1} !seen[tolower($0)]++' file.txt

# Trim whitespace then dedup
sed 's/^[[:space:]]*//;s/[[:space:]]*$//' file.txt | awk '!seen[$0]++'

# Count duplicates before removing
sort file.txt | uniq -c | sort -rn

سوالات متداول

تفاوت حذف تکراری و استفاده از sort -u چیست؟

دستور sort -u ابتدا تمام خطوط را به‌صورت الفبایی مرتب می‌کند و سپس تکراری‌های مجاور را حذف می‌کند. این ترتیب اصلی خطوط را تغییر می‌دهد. رویکرد seen-set که این ابزار از آن استفاده می‌کند، خطوط را به‌ترتیب پیمایش می‌کند و هر خطی که قبلاً ظاهر شده را نادیده می‌گیرد و ترتیب اصلی را حفظ می‌کند. وقتی هم خروجی مرتب‌شده و هم منحصربه‌فرد می‌خواهید از sort -u استفاده کنید. وقتی ترتیب اهمیت دارد از رویکرد seen-set استفاده کنید.

آیا متن من هنگام حذف تکراری به سرور ارسال می‌شود؟

خیر. تمام پردازش در مرورگر شما با استفاده از JavaScript انجام می‌شود. متن هرگز دستگاه شما را ترک نمی‌کند. می‌توانید این را با باز کردن تب Network در DevTools مرورگر تأیید کنید و مطمئن شوید که هنگام جای‌گذاری متن و تغییر گزینه‌ها هیچ درخواستی ارسال نمی‌شود.

این ابزار چه تعداد خط را می‌تواند مدیریت کند؟

این ابزار با دهها هزار خط به‌خوبی کار می‌کند. Set در JavaScript دارای زمان جستجوی میانگین O(1) است، بنابراین حذف تکراری از ۱۰۰٬۰۰۰ خط در سخت‌افزار مدرن کمتر از ۱۰۰ میلی‌ثانیه طول می‌کشد. برای فایل‌های بزرگتر از چند مگابایت، از one-liner awk '!seen[$0]++' در خط فرمان استفاده کنید که بدون بارگذاری کامل فایل در حافظه، آن را پردازش می‌کند.

حذف تکراری بدون حساسیت به حروف چگونه کار می‌کند؟

وقتی حساسیت به حروف خاموش است، هر خط قبل از بررسی در مقابل مجموعه خطوط دیده‌شده به حروف کوچک تبدیل می‌شود. نسخه اصلی اولین رخداد در خروجی نگه داشته می‌شود. بنابراین اگر ورودی شما «Apple» در خط ۱ و «apple» در خط ۵ داشته باشد، «Apple» نگه داشته شده و «apple» حذف می‌شود.

آیا می‌توانم همزمان تکراری‌ها را حذف کنم و مرتب‌سازی هم انجام دهم؟

این ابزار تکراری‌ها را بدون تغییر ترتیب خطوط حذف می‌کند. برای دریافت خروجی مرتب‌شده و منحصربه‌فرد، ابتدا از ابزار مرتب‌سازی خطوط در همان دسته برای مرتب‌سازی متن استفاده کنید، سپس نتیجه مرتب‌شده را اینجا جای‌گذاری کنید تا تکراری‌های باقی‌مانده حذف شوند. همچنین می‌توانید از sort -u در خط فرمان برای یک راه‌حل یک‌مرحله‌ای استفاده کنید.

با خطوط خالی و خطوط فقط شامل فاصله چه اتفاقی می‌افتد؟

خطوط خالی مانند هر خط دیگری تلقی می‌شوند. اگر متن شما سه خط خالی داشته باشد، فقط اولی نگه داشته می‌شود. وقتی حذف فاصله‌های اضافی روشن است، خطوطی که فقط شامل فاصله یا tab هستند قبل از مقایسه به رشته خالی نرمال‌سازی می‌شوند، بنابراین همه آن‌ها به‌عنوان تکراری اولین خط خالی یا فقط شامل فاصله تلقی می‌شوند.

چگونه می‌توانم تکراری‌ها را از یک فایل CSV بر اساس یک ستون خاص حذف کنم؟

این ابزار کل خطوط را مقایسه می‌کند، نه ستون‌های جداگانه. برای حذف تکراری از یک CSV بر اساس یک ستون خاص، از awk با جداکننده فیلد استفاده کنید: دستور awk -F',' '!seen[$2]++' file.csv ردیف‌هایی با مقادیر تکراری در ستون دوم را حذف می‌کند. در Python از pandas استفاده کنید: df.drop_duplicates(subset=['column_name']). برای داده‌های SQL از SELECT DISTINCT یا GROUP BY روی ستون هدف استفاده کنید.

Duplicate Line Remover