Tiền xử lý dữ liệu

     

Bài này onip.vn chia sẽ đến ace kiến thức về TIỀN XỬ LÝ DỮ LIỆU trước khi sử dụng dữ liệu cho ML nhằm nó học. Chúng ta hãy tìm hiểu thêm bài sau đây.

Bạn đang xem: Tiền xử lý dữ liệu

• Tiền cách xử lý đề cập đến các phép biến đổi được vận dụng cho dữ liệu của họ trước khi chuyển nó vào thuật toán.

• Tiền xử trí dữ liệu là một kỹ thuật được áp dụng để đổi khác dữ liệu thô thành một tập dữ liệu sạch. Nói cách khác, bất cứ khi nào dữ liệu được thu thập từ những nguồn không giống nhau, nó được tích lũy ở định dạng thô không khả thi cho bài toán phân tích.

*

1. Yêu cầu tiền xử trí dữ liệu

• Để đạt được kết quả tốt hơn từ quy mô được áp dụng trong những dự án ML , format của tài liệu phải theo phong cách phù hợp. Một số mô hình ML được hướng đẫn cần thông tin ở format được chỉ định, ví dụ: thuật toán Rừng tình cờ không hỗ trợ giá trị null, vì chưng đó, để triển khai thuật toán rừng ngẫu nhiên, quý hiếm rỗng buộc phải được thống trị từ tập dữ liệu thô ban đầu.


• Một điều tỉ mỷ khác là tập dữ liệu nên được định dạng theo phong cách mà nhiều hơn nữa một thuật toán ML và Học sâu được thực thi trong một tập dữ liệu và cực tốt trong số bọn chúng được chọn.

Bài viết này bao hàm 3 nghệ thuật tiền xử lý dữ liệu không giống nhau cho ML:

Bộ tài liệu về bệnh tiểu đường ở Ấn Độ Pima được sử dụng trong từng kỹ thuật.

Đây là 1 bài toán phân loại nhị phân trong đó toàn bộ các nằm trong tính đông đảo là số và có các phần trăm khác nhau.

Đây là một trong ví dụ tuyệt vời và hoàn hảo nhất về tập dữ liệu hoàn toàn có thể được tận hưởng lợi từ các việc xử lý trước.


Bạn rất có thể tìm thấy bộ dữ liệu này trên website của Kho tàng trữ Máy học UCI.

2. Tuỳ chỉnh lại dữ liệu

• Khi tài liệu của chúng ta bao gồm các trực thuộc tính cùng với các tỷ lệ khác nhau, các thuật toán ML rất có thể hưởng lợi từ việc thay đổi tỷ lệ các thuộc tính để tất cả các thuộc tính tất cả cùng tỷ lệ.

Xem thêm: Sắp Xếp Mảng Tăng Dần Trong Java Có Lời Giải, Sắp Xếp Mảng Số Nguyên Trong Java

• Điều này hữu ích cho các thuật toán buổi tối ưu hóa được áp dụng trong lõi của những thuật toán ML như gradient descent.

• Nó cũng hữu ích cho những thuật toán bao gồm trọng số đầu vào như hồi quy cùng mạng nơ-ron và những thuật toán sử dụng những phép đo khoảng cách như K-Nearest Neighbors.

• bạn cũng có thể bán lại dữ liệu của doanh nghiệp bằng scikit-learning bằng cách sử dụng lớp MinMaxScaler.

# -----------------------------------------------------------#onip.vn - Kênh thông tin IT số 1 Việt Nam#
author onip.vnn#Contact: onip.vnn

3. Binarize Data (Tạo nhị phân)

• chúng ta có thể biến đổi tài liệu của mình bằng cách sử dụng ngưỡng nhị phân. Tất cả các giá trị trên ngưỡng được ghi lại 1 và tất cả bằng hoặc thấp rộng được lưu lại là 0.

• Điều này được call là mã hóa dữ liệu của người sử dụng hoặc ngưỡng tài liệu của bạn. Nó hoàn toàn có thể hữu ích khi bạn có tỷ lệ mà bạn muốn tạo ra những giá trị rõ nét. Nó cũng có lợi khi kỹ thuật nhân tài và bạn có nhu cầu thêm những tính năng mới cho biết điều gì đó có ý nghĩa.

• chúng ta có thể tạo các thuộc tính nhị phân mới trong Python bằng phương pháp sử dụng scikit-learning với lớp Binarizer.

# Python code for binarization from sklearn.preprocessing import Binarizer import pandas import numpy url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"names = <"preg", "plas", "pres", "skin", "test", "mass", "pedi", "age", "class"> dataframe = pandas.read_csv(url, names=names) array = dataframe.values # separate array into input và output components X = array<:,0:8> Y = array<:,8> binarizer = Binarizer(threshold=0.0).fit(X) binaryX = binarizer.transform(X) # summarize transformed data numpy.set_printoptions(precision=3) print(binaryX<0:5,:>) chúng ta có thể thấy rằng toàn bộ các giá bán trị bằng hoặc nhỏ hơn 0 được khắc ghi 0 và tất cả các giá trị trên 0 được ghi lại 1.


Output<< 1. 1. 1. 1. 0. 1. 1. 1.> < 1. 1. 1. 1. 0. 1. 1. 1.> < 1. 1. 1. 0. 0. 1. 1. 1.> < 1. 1. 1. 1. 1. 1. 1. 1.> < 0. 1. 1. 1. 1. 1. 1. 1.>>

3. Chuẩn chỉnh hóa dữ liệu

• chuẩn chỉnh hóa là một trong kỹ thuật hữu dụng để chuyển đổi các nằm trong tính gồm phân phối Gaussian và những phương tiện khác nhau và độ lệch chuẩn thành trưng bày Gaussian chuẩn chỉnh với quý giá trung bình là 0 với độ lệch chuẩn là 1.

Xem thêm: Cách Đặt Hàng Bách Hóa Xanh Online Giao Hàng Tận Nhà, Hướng Dẫn Mua Hàng Tại Website Tmđt Bachhoaxanh

• chúng ta có thể chuẩn hóa dữ liệu bằng phương pháp sử dụng scikit-learning cùng với lớp StandardScaler.

# -----------------------------------------------------------#onip.vn - Kênh thông tin IT bậc nhất Việt Nam#

Nguồn cùng Tài liệu tiếng anh tham khảo:

Tài liệu trường đoản cú onip.vn:

Nếu các bạn thấy hay và hữu ích, chúng ta có thể tham gia các kênh sau của onip.vn để nhận được không ít hơn nữa: