Xử lý dữ liệu đám mây điểm LiDAR với thư viện Pandas của Python

Thứ tư, 1/5/2024, 08:06 (GMT+7)

Cỡ chữ

Dữ liệu đóng vai trò quan trọng trong các hệ thống thông tin và các hệ thống xử lý hiện nay. Khi có dữ liệu đúng, hoạt động trên dữ liệu sẽ đúng. Chính vì vậy, xử lý dữ liệu đóng vai trò quan trọng trong việc phân tích và hiểu dữ liệu một cách đúng đắn.

Việc chuyển đổi dữ liệu sang các định dạng có thể đọc được như biểu đồ và tài liệu sẽ giúp trực quan hóa và biểu diễn dữ liệu hiệu quả. Pandas của Python là hàm thư viện có thế mạnh lớn khi đây là thư viện mã nguồn mở, có độ mạnh và linh hoạt trong xử lý dữ liệu. Với bộ dữ liệu lớn như đám mây điểm LiDAR, Pandas có thể xử lý, phân tích và trực quan hóa dữ liệu.

Mở đầu

Pandas được thiết kế để làm việc dễ dàng và trực quan với dữ liệu có cấu trúc (như bảng, dữ liệu nhiều chiều hoặc không đồng nhất) và dữ liệu chuỗi thời gian [1]. Pandas được phát triển bởi Wes McKinney vào năm 2008 và được sử dụng chủ yếu để thao tác, phân tích và làm sạch dữ liệu. Pandas hỗ trợ nhiều kiểu cấu trúc dữ liệu cũng như các phương thức hỗ trợ thao tác dữ liệu số và dữ liệu thời gian (time series) [2].

Thư viện Pandas thích hợp với các loại dữ liệu sau [1]: Dữ liệu dạng bảng với các cột được nhập không đồng nhất, như trong bảng SQL hoặc bảng tính Excel; dữ liệu chuỗi thời gian theo thứ tự và không có thứ tự; dữ liệu ma trận tùy ý; dữ liệu chưa được dán nhãn vào cấu trúc dữ liệu Pandas được xây dựng dựa trên NumPy.

Hai cấu trúc dữ liệu chính của Pandas là Series (1 chiều) và DataFrame (2 chiều). Pandas xử lý được phần lớn các trường hợp điển hình trong tài chính, thống kê, khoa học xã hội và nhiều lĩnh vực kỹ thuật.

Pandas được dùng trong [4]:

Tính toán số liệu thống kê, trả lời các câu hỏi về dữ liệu như giá trị trung bình, tối đa, tối thiểu của mỗi cột. Cột A có tương quan với cột B không? Sự phân bố dữ liệu trong cột C trông như thế nào?...

Làm sạch dữ liệu bằng cách thực hiện những việc như xóa các 2giá trị bị thiếu và lọc các hàng và cột theo một số tiêu chí.

Trực quan hóa dữ liệu với sự trợ giúp từ Matplotlib, biểu đồ thanh, đường kẻ, biểu đồ,.... và lưu trữ các dữ liệu đã được làm sạch, chuyển đổi chúng thành CSV, tệp hoặc các cơ sở dữ liệu.

Các lệnh xử lý dữ liệu đám mây điểm LiDAR trong thư viện Pandas

Mô tả dữ liệu thực nghiệm:

Dữ liệu thực nghiệm là dữ liệu về tạo độ và độ cao của điểm LiDAR được thu thập tại Hà Nội với 343.944 dòng dữ liệu và 11 cột thuộc tính. Bài toán thử nghiệm được đặt ra là phát hiện hiện giá trị mất mát, thay thế bằng giá trị 0 và các thao tác xử lý dữ liệu cơ bản. Dữ liệu đám mây điểm được chuyển từ file .las sang file có định dạng .csv để thao tác và xử lý trên Pandas.

Cài đặt thư viện Pandas trong Python 3.11