Phần này mô tả cách tạo một danh sách mới trong Python bằng cách loại bỏ hoặc trích xuất các phần tử trùng lặp từ một danh sách (mảng).
Các chi tiết sau đây được mô tả ở đây.
- Loại bỏ các yếu tố trùng lặp và tạo danh sách mới
- Không bảo tồn thứ tự của danh sách ban đầu:
set()
- Duy trì thứ tự của danh sách ban đầu:
dict.fromkeys()
,sorted()
- Mảng hai chiều (danh sách các danh sách)
- Không bảo tồn thứ tự của danh sách ban đầu:
- Trích xuất các phần tử trùng lặp và tạo một danh sách mới
- Không bảo tồn thứ tự của danh sách ban đầu
- Duy trì thứ tự của danh sách ban đầu
- Mảng hai chiều (danh sách các danh sách)
Khái niệm tương tự có thể được áp dụng cho các bộ giá trị thay vì danh sách.
Xem bài viết sau để biết
- Nếu bạn muốn xác định xem một danh sách hoặc bộ dữ liệu có các phần tử trùng lặp hay không
- Nếu bạn muốn trích xuất các yếu tố phổ biến hoặc không phổ biến giữa nhiều danh sách thay vì một danh sách
Lưu ý rằng danh sách có thể lưu trữ các loại dữ liệu khác nhau và hoàn toàn khác với mảng. Nếu bạn muốn xử lý mảng trong các quy trình yêu cầu kích thước bộ nhớ và địa chỉ bộ nhớ hoặc xử lý số đối với dữ liệu lớn, hãy sử dụng mảng (thư viện chuẩn) hoặc NumPy.
Loại bỏ các yếu tố trùng lặp và tạo danh sách mới
Không bảo tồn thứ tự của danh sách ban đầu:set()
Nếu không cần thiết phải bảo toàn thứ tự của danh sách ban đầu, hãy sử dụng set (), tạo ra một tập hợp kiểu tập hợp.
Kiểu tập hợp là kiểu dữ liệu không có phần tử trùng lặp. Khi một danh sách hoặc kiểu dữ liệu khác được chuyển đến set (), các giá trị trùng lặp sẽ bị bỏ qua và một đối tượng của kiểu set được trả về trong đó chỉ các giá trị duy nhất là phần tử.
Nếu bạn muốn biến nó thành một tuple, hãy sử dụng tuple ().
l = [3, 3, 2, 1, 5, 1, 4, 2, 3]
print(set(l))
# {1, 2, 3, 4, 5}
print(list(set(l)))
# [1, 2, 3, 4, 5]
Tất nhiên, nó cũng có thể được để nguyên. Xem bài viết sau để biết thêm thông tin về loại set set.
- CÓ LIÊN QUAN:Đặt các hoạt động (ví dụ: xác định tập hợp, tập hợp sản phẩm và tập hợp con) với loại tập hợp của Python
Duy trì thứ tự của danh sách ban đầu:dict.fromkeys(),sorted()
Nếu bạn muốn giữ nguyên thứ tự của danh sách ban đầu, hãy sử dụng phương thức lớp fromkeys () của kiểu từ điển hoặc hàm sorted () tích hợp sẵn.
dict.fromkeys () tạo một đối tượng từ điển mới có khóa là danh sách, bộ giá trị, v.v. được chỉ định trong các đối số. Nếu đối số thứ hai bị bỏ qua, giá trị là Không có.
Vì các khóa từ điển không có các phần tử trùng lặp, các giá trị trùng lặp sẽ bị bỏ qua như trong set (). Ngoài ra, một đối tượng từ điển có thể được chuyển làm đối số cho list () để lấy danh sách có các phần tử là khóa từ điển.
print(dict.fromkeys(l))
# {3: None, 2: None, 1: None, 5: None, 4: None}
print(list(dict.fromkeys(l)))
# [3, 2, 1, 5, 4]
Nó đã được đảm bảo kể từ Python 3.7 (CPython là 3.6) rằng dict.fromkeys () bảo toàn thứ tự của chuỗi đối số. Các phiên bản trước sử dụng hàm sorted () tích hợp sẵn như sau.
Chỉ định danh sách phương thức tuple index () cho khóa đối số của đã sắp xếp, nó trả về một danh sách các phần tử đã được sắp xếp.
index () là một phương thức trả về chỉ số của giá trị (số phần tử trong danh sách), có thể được chỉ định làm khóa của sorted () để sắp xếp danh sách dựa trên thứ tự của danh sách ban đầu. Khóa đối số được chỉ định là một đối tượng có thể gọi (callable), do đó, không viết ().
print(sorted(set(l), key=l.index))
# [3, 2, 1, 5, 4]
Mảng hai chiều (danh sách các danh sách)
Đối với mảng hai chiều (danh sách các danh sách), phương thức sử dụng set () hoặc dict.fromkeys () dẫn đến Lỗi kiểu.
l_2d = [[1, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 1], [1, 1]]
# l_2d_unique = list(set(l_2d))
# TypeError: unhashable type: 'list'
# l_2d_unique_order = dict.fromkeys(l_2d)
# TypeError: unhashable type: 'list'
Điều này là do các đối tượng không thể băm như danh sách không thể là phần tử của tập hợp kiểu hoặc các khóa thuộc kiểu dict.
Xác định các chức năng sau Thứ tự của danh sách ban đầu được giữ nguyên và hoạt động đối với danh sách một chiều và bộ giá trị.
def get_unique_list(seq):
seen = []
return [x for x in seq if x not in seen and not seen.append(x)]
print(get_unique_list(l_2d))
# [[1, 1], [0, 1], [0, 0], [1, 0]]
print(get_unique_list(l))
# [3, 2, 1, 5, 4]
Ký hiệu đọc hiểu danh sách được sử dụng.
- CÓ LIÊN QUAN:Cách sử dụng hiểu danh sách Python
Ở đây, chúng tôi sử dụng những thứ sau
- Nếu X trong “X và Y” là sai trong đánh giá ngắn mạch của toán tử và, thì Y không được đánh giá (không được thực thi).
- Phương thức append () trả về Không có.
Nếu các phần tử của danh sách ban đầu seq không tồn tại trong cái nhìn thấy, thì và sau đó được đánh giá.
see.append (x) được thực thi và phần tử được thêm vào saw.
Bởi vì phương thức append () trả về None và None là False, nên không nhìn thấy .append (x) đánh giá là True.
Biểu thức điều kiện trong ký hiệu hiểu danh sách trở thành True và được thêm vào như một phần tử của danh sách được tạo cuối cùng.
Nếu các phần tử của danh sách ban đầu seq có mặt trong see, thì x không có trong saw là Sai và biểu thức điều kiện cho biểu thức hiểu danh sách là Sai.
Do đó, chúng không được thêm vào dưới dạng các phần tử của danh sách được tạo cuối cùng.
Một phương pháp khác là đặt trục đối số trong hàm np.unique () của NumPy, mặc dù kết quả sẽ được sắp xếp.
Trích xuất các phần tử trùng lặp và tạo một danh sách mới
Không bảo tồn thứ tự của danh sách ban đầu
Để chỉ trích xuất các phần tử trùng lặp từ danh sách ban đầu, hãy sử dụng collection.Counter ().
Trả về một bộ sưu tập.Counter (một lớp con của từ điển) với các phần tử là khóa và số phần tử là giá trị.
import collections
l = [3, 3, 2, 1, 5, 1, 4, 2, 3]
print(collections.Counter(l))
# Counter({3: 3, 2: 2, 1: 2, 5: 1, 4: 1})
Vì nó là một lớp con của từ điển, các mục () có thể được sử dụng để truy xuất các khóa và giá trị. Chỉ cần trích xuất các khóa có số lượng là hai hoặc nhiều hơn.
print([k for k, v in collections.Counter(l).items() if v > 1])
# [3, 2, 1]
Duy trì thứ tự của danh sách ban đầu
Như thể hiện trong ví dụ trên, kể từ Python 3.7, các khóa của bộ sưu tập.Counter giữ nguyên thứ tự của danh sách ban đầu, v.v.
Trong các phiên bản trước, sắp xếp với sorted () là đủ, cũng như xóa các phần tử trùng lặp.
print(sorted([k for k, v in collections.Counter(l).items() if v > 1], key=l.index))
# [3, 2, 1]
Nếu bạn muốn trích xuất các bản sao như chúng vốn có, chỉ cần để lại các phần tử từ danh sách ban đầu với số lượng hai hoặc nhiều hơn. Thứ tự cũng được giữ nguyên.
cc = collections.Counter(l)
print([x for x in l if cc[x] > 1])
# [3, 3, 2, 1, 1, 2, 3]
Mảng hai chiều (danh sách các danh sách)
Đối với mảng hai chiều (danh sách các danh sách), các chức năng sau đây khả thi khi thứ tự của danh sách ban đầu không được giữ lại và khi nó được giữ lại tương ứng. Nó cũng hoạt động cho các danh sách một chiều và các bộ giá trị.
l_2d = [[1, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 1], [1, 1]]
def get_duplicate_list(seq):
seen = []
return [x for x in seq if not seen.append(x) and seen.count(x) == 2]
def get_duplicate_list_order(seq):
seen = []
return [x for x in seq if seq.count(x) > 1 and not seen.append(x) and seen.count(x) == 1]
print(get_duplicate_list(l_2d))
# [[0, 1], [1, 1]]
print(get_duplicate_list_order(l_2d))
# [[1, 1], [0, 1]]
print(get_duplicate_list(l))
# [3, 1, 2]
print(get_duplicate_list_order(l))
# [3, 2, 1]
Nếu bạn muốn trích xuất với các bản sao, hãy để các phần tử từ danh sách ban đầu với số lượng là hai hoặc nhiều hơn.
print([x for x in l_2d if l_2d.count(x) > 1])
# [[1, 1], [0, 1], [0, 1], [1, 1], [1, 1]]
Lưu ý rằng vì độ phức tạp tính toán của count () là O (n), hàm hiển thị ở trên thực hiện lặp đi lặp lại count () là rất kém hiệu quả. Có thể có một cách thông minh hơn.
Bộ đếm là một lớp con của từ điển, vì vậy nếu bạn chuyển một danh sách hoặc bộ mã có các phần tử là danh sách hoặc các đối tượng không thể băm khác vào bộ sưu tập.Counter (), một lỗi sẽ xảy ra và bạn sẽ không thể sử dụng nó.
# print(collections.Counter(l_2d))
# TypeError: unhashable type: 'list'