
Dữ liệu sử dụng trong thực nghiệm lấy từ kho dữ liệu mở Sentinel thông qua nền tảng điện toán đám mây Google Earth Engine (GEE). Kết quả quá trình huấn luyện mạng UNET được đánh giá qua các chỉ số trong ma trận hợp nhất và qua chỉ số mIoU. Kết quả thực hiện phân loại lớp phủ sử dụng UNET cũng được so sánh với kết quả thực hiện phân loại lớp phủ sử dụng phương pháp học máy Random Forest để thấy được tiềm năng ứng dụng trong thực tế.
Mở đầu
Phân loại sử dụng đất/lớp phủ đất (LULC) từ lâu đã là chủ đề được quan tâm trong nghiên cứu quan sát Trái đất [1,2,3]. Những nghiên cứu này cung cấp các đặc điểm của phạm vi rộng lớn của bề mặt Trái đất bằng cách phân loại sự biến đổi liên tục của các thuộc tính của nó thành các lớp riêng biệt và góp phần thiết lập đường cơ sở trong các nghiên cứu về sự thay đổi lớp phủ bề mặt, rất cần thiết cho việc quản lý và giám sát bề mặt đất [4,5,6,7]. Vì lý do này, các nghiên cứu lớp phủ bề mặt rất quan trọng cho việc quản lý và giám sát bề Trái đất.
Gần đây, các phương pháp học sâu đã trở nên phổ biến hơn do độ chính xác tăng lên so với các phương pháp học máy trước đây [4,5,6]. Ngoài ra, các thuật toán học sâu có khả năng học các mẫu phức tạp và phi tuyến tính theo chiều không gian và thời gian, đồng thời chúng không yêu cầu chuyển đổi đầu vào, ví dụ: tính toán các phép biến đổi quang phổ như chỉ số thực vật [7,8,9] .
Mạng học sâu tích chập (Convolutinal Neural Network - CNN) cho phép thu được dự đoán lớp cho từng điểm ảnh trong hình ảnh [5,6]. Các thuật toán này có khả năng xác định các mẫu ở các quy mô khác nhau để tạo ra các phân loại [2,7]. Do đó, kiến trúc CNN hiện nay là một trong những thuật toán được áp dụng rộng rãi nhất cho các nhiệm vụ phân loại [2], và đặc biệt, UNET là một trong những thuật toán phổ biến nhất trong các nghiên cứu về phân loại lớp phủ [1,2,6] do khả năng tóm tắt các mẫu của nó trong cả miền quang phổ và miền không gian. Đối với các ứng dụng quan sát Trái đất, hình ảnh có độ phân giải trung bình từ các cảm biến vệ tinh như Landsat hoặc Sentinel được ưu tiên hơn do phạm vi bao phủ không gian rộng hơn, độ phân giải đủ để lập bản đồ lớp phủ mặt đất và quan trọng nhất là tính sẵn có miễn phí của chúng [4,9]. Tất cả những đặc điểm này làm cho chúng trở thành một lựa chọn tiện ích nhất để giám sát môi trường.
Trong bối cảnh đó, mục tiêu của nghiên cứu này là đánh giá tiềm năng của UNET kết hợp với dữ liệu hình ảnh Sentinel-1 và Sentinel-2 để phát triển và huấn luyện mạng nơ-ron nhân tạo thực hiện tác vụ phân loại lớp phủ bề mặt chi tiết ở khu vực TP. Hà Nội. Ngoài ra, phần đánh giá kết quả sẽ bao gồm so sánh các kết quả thu được với mạng UNET và thuật toán rừng ngẫu nhiên (Random Forest - RF), cũng như đánh giá tác động của đầu vào hình ảnh đối với độ chính xác của phân loại.
2. Khu vực nghiện cứu và dữ liệu
Hình 1. Khu vực nghiên cứu
Nghiên cứu này thực hiện trên phạm vi TP. Hà Nội, với diện tích tự nhiên khoảng 24.314,7 km2. Khu vực nghiên cứu được giới hạn từ 20,50 đến 21,40 vĩ độ bắc, từ 105,180 đến 106,120 kinh độ đông (Hình 1).
Dữ liệu được sử dụng cho huấn luyện và nghiên cứu lấy từ nguồn dữ liệu mở Sentinel (bao gồm Sentinel-1 GRD và Sentinel-2 Level 2A). Quá trình xử lý và tạo bộ dữ liệu huấn luyện, bộ dữ liệu đánh giá được thực hiện thông qua nền tảng điện toán đám mây GEE. Quá trình huấn luyện thực hiện trên nền tảng điện toán đám mây Google Cloud thông qua giao diện Google Colab. Quá trình đánh giá và so sánh với phương pháp học máy Random Forest. Tất cả được minh họa trong Hình 2.
Hình 2. Các giai đoạn trong nghiên cứu
Thu thập dữ liệu Sentinel: Dữ liệu Sentinel-1 GRD và Sentinel-2 Level 2A là đầu vào hình ảnh được sử dụng để huấn luyện mạng UNET và thuật toán Random Forest. Nhóm nghiên cứu chọn hình ảnh Sentinel-2 có tỷ lệ mây che phủ thấp nhất và gần với ngày thu thập dữ liệu hiện trường nhất (được ghi lại vào tháng 4 năm 2023). Đối với dữ liệu Sentinel, hệ số tán xạ ngược trung bình được thu thập và tính toán để giảm nhiễu ‘muối tiêu’ đặc trưng của ảnh SAR. Ngoài ra, một bộ lọc hình tròn có bán kính bằng 3 pixel đã được áp dụng để giảm thêm nhiễu ‘muối tiêu’.
Hình 3. Kiến trúc mạng học sâu UNET
Kết quả, ba bộ dữ liệu ảnh viễn thám khác nhau đã được xây dựng để phục vụ huấn luyện mạng U-net:
(1) - Ảnh đa phổ Sentinel-2 (B-G-R-NIR).
(2) - Ảnh Sentinel-1 (VV-VH).
(3) - Ảnh hợp nhất ((1) + (2)).
Tất cả quá trình xử lý hình ảnh được thực hiện trong Google Earth Engine bằng API Javascript.
Chuẩn bị dữ liệu huấn luyện: Tạo nhãn cho các lớp phủ (labeling) được thực hiện thủ công thông qua giải đoán trực quan ảnh viễn thám. Ảnh giải đoán sau đó được thành các ảnh nhỏ hơn có kích thước 256 x 256. Quá trình giải đoán cũng như chia nhỏ ảnh được thực hiện trên phần mềm QGIS. Số lượng lớp phủ mặt đất là 5 lớp bao gồm: phủ nước mặt, phủ thực vật 1 (cây trồng), phủ thực vật 2 (cây nông nghiệp), phủ đô thị (các công trình nhân tạo), phủ đất trống. Ngoài ra, tập dữ liệu huấn luyện tạo từ bộ dữ liệu (3) sẽ thêm hai lớp bổ sung, đám mây (cloud) và bóng mây (shadow), đại diện cho các khu vực mà không thể lấy được lớp phủ dựa trên dữ liệu ảnh đa phổ. Hai lớp này không được đưa vào tính toán các chỉ số đánh giá kết quả huấn luyện. Để đánh giá độ chính xác của mô hình UNET sau khi huấn luyện, bộ dữ liệu kiểm thử (testing) được tạo sử dụng quy trình lấy mẫu ngẫu nhiên phân tầng. Dữ liệu dùng để huấn luyện (training) được làm giàu bằng các phương pháp như: Tái chia mẫu (resampling), lật ảnh (reflecting) theo cả hướng dọc và ngang.
Bộ dữ liệu sau khi sử lí và tăng cường độ giàu thông tin sẽ được chia thành bộ dữ liệu huấn luyện (training), bộ dữ liệu xác nhận (validation) và bộ dữ liệu đánh giá (testing) theo tỷ lệ 60% - 20% - 20%.
Mạng unet
Xây dựng mô hình học sâu UNET: UNET là một thuật toán dựa trên mạng nơ-ron tích chập, do đó, giống như bất kỳ mạng tích chập nào, nó “học” cách nhận biết các lớp đối tượng bằng cách sử dụng phương pháp học có giám sát. Các bộ lọc tích chập này thường được tổ chức theo cấu trúc giống như mạng cho phép nhận ra các mẫu phổ và không gian ở các tỷ lệ khác nhau [12,17]. Kiến trúc mạng UNET có hai phần, bộ mã hóa (encoder) nằm ở nửa bên trái và bộ giải mã (decoder) nằm ở nửa bên phải (Hình 3).
Huấn luyện mạng UNET và thuật toán Random Forest: Toàn bộ quá trình đào tạo được triển khai trên nền tảng điện toán đám mây với giao diện tương tác Google Colab. Trong quá trình huấn luyện có cài đặt cơ chế ‘dừng sớm’ (early stopping) để tránh phải thực hiện các vòng huấn luyện thừa khi đã tìm ra giá trị tối ưu cũng như tránh hiện tượng quá khớp và rút ngắn thời gian huán luyện. Ngưỡng sử dụng cho cơ chế dừng sớm là hàm mất mát (loss function) trên bộ dữ liệu xác thực không thay đổi quá 0,01 đơn vị trong 10 lần lặp liên tiếp. Cross-entropy được sử dụng làm hàm mất mát, trong khi Adam là thuật toán tối ưu hóa được chọn [8]. Ngoài ra, việc chuẩn hóa và khởi tạo để đặt giá trị ban đầu của các siêu tham số sử dụng phương pháp của Kaiming He [9].
Để giám sát quá trình huấn luyện của thuật toán, hai chỉ số độ chính xác tổng thể và avgF1 trung bình đã được tính toán theo phương trình 1 trong mỗi lần lặp trên cả tập huấn luyện và tập xác thực.
(1)
(2)
(3)
Trong đó, avgF1 là viết tắt của điểm F1 trung bình tổng thể, C là số lượng lớp (tức là 5 lớp), c đại diện cho mỗi lớp, p cho độ chính xác, r là chỉ số Recall, TP cho kết quả dương tính thực, FP cho kết quả dương tính giả và FN cho kết quả sai âm tính (phương trình 2 và 3).
Thuật toán Random Forest (RF) là một trong những thuật toán học máy phổ biến nhất trong phân loại lớp phủ. Việc phân loại sử dụng RF được thực hiện bằng cách sử dụng thông tin đầu vào giống như mạng UNET. Dữ liệu huấn luyện và xác nhận giống như trong UNET đã được sử dụng nhưng không thực hiện ‘làm giàu’ dữ liệu. Sau khi huấn luyện, RF được sử dụng để dự đoán phân loại lớp phủ của dữ liệu xác thực và các lớp phủ được đánh giá bằng cách sử dụng ma trận hợp nhất và các số liệu tương tự như kết quả UNET, tức là độ chính xác tổng thể và điểm avgF1.
Đánh giá độ chính xác của UNET
Độ chính xác phân loại lớp phủ cho toàn bộ khu vực nghiên cứu được đánh giá theo thiết kế lấy mẫu ngẫu nhiên phân tầng trong đó các điểm ngẫu nhiên được phân bổ theo tỷ lệ diện tích mà mỗi lớp chiếm giữ trong bản đồ phân loại, ngoại trừ các lớp hiếm nhất , trong đó số lượng điểm ngẫu nhiên lớn hơn tỷ lệ diện tích tương ứng của nó được chỉ định. Tổng số đơn vị mẫu cho quá trình xác minh được tính theo công thức bên dưới.
Trong đó, là sai số chuẩn mong muốn của độ chính xác tổng thể ước tính. Wt là tỷ lệ diện tích chiếm giữ của mỗi lớp trong phân loại, trong đó t là viết tắt của mỗi lớp, còn q là số lượng lớp. Stlà độ lệch chuẩn của lớp t, tính theo công thức . .
Cuối cùng, công cụ đánh giá độ chính xác của Openforis được sử dụng để tính toán các ước tính diện tích không độ lệch (bias) và khoảng tin cậy 95% (Confidence Interval - CI) của nó. Các ước tính này dựa trên ma trận hợp nhất do quá trình đánh giá độ chính xác và tỷ lệ diện tích bị chiếm giữ bởi mỗi lớp theo công thức (4) và (5). Ngoài ra, điểm F1 của từng lớp, độ chính xác tổng thể và avgF1 đã được tính toán.
Trong đó, là sai số chuẩn của tỷ lệ diện tích ước tính cho lớp k, Wi là là tỷ lệ diện tích của bản đồ loại i, niklà viết tắt của số mẫu tại ảnh (i,k) trong ma trận hợp nhất, ni là tổng hàng của lớp i. Ngoài ra, 95% CI là viết tắt của khoảng tin cậy 95%. là diện tích ước tính của lớp k, là tổng diện tích bản đồ.
Kết quả và thảo luận
Đánh giá kết quả huấn luyện mạng học sâu UNET: Bảng 1 bên dưới trình bày kết quả các thông số đánh giá độ chính xác mà mạng UNET sau khi được huấn luyện trên bộ dữ liệu (3) đạt được.
Bảng 1. Ma trận hợp nhất đánh giá độ chính xác phân loại các lớp phủ của UNET
Hình ảnh kết quả phân loại: Hình ảnh bên dưới minh họa kết quả đạt được khi sử dụng mạng UNET tiến hành phân loại lớp phủ. Trong hình ảnh, cột (a) là ảnh trực quan hóa của dữ liệu đầu vào cho mạng UNET. Hình ảnh được trực quan hóa sử dụng tổ hợp màu tự nhiên gồm ba kênh đỏ-xanh lá-xanh dương (RGB) mục đích để có thể giải đoán bằng mắt các đối tượng trong ảnh đầu vào. Cột (b) là ảnh phân loại lớp phủ dùng để làm mẫu huấn luyện mạng UNET. Có thể thấy các lớp phủ được quan tâm trong nghiên cứu này được mã hóa trong các màu sắc, mỗi màu sắc là một nhãn tương ứng với một lớp phủ. Cột (c) là kết quả phân loại lớp phủ với mạng UNET.
Hình 4. Kết quả phân loại lớp phủ
So sánh với Random Forest: Khi so sánh kết quả nhận được giữa phương pháp phân loại lớp phủ với UNET và với phương pháp học máy Random Forest trên cùng bộ dữ liệu huấn luyện số (3), rõ ràng là UNET có điểm avg F1 và độ chính xác tổng thể cao hơn so với Random Forest, cụ thể độ chính xác tổng thể chênh nhau 0.06 và độ chính xác tổng thể của các avgF1 là 0.15 (so sánh Bảng 1 và 2).
Bảng 2. Ma trận hợp nhất đánh giá độ chính xác phân loại các lớp phủ của RF
Như vậy, đánh giá độ chính xác của việc phân loại khu vực nghiên cứu sử dụng mạng UNET cho thấy độ chính xác tổng thể là 0,76 và điểm avgF1 là 0,58, trong đó lớp phủ cho độ chính xác cao nhất là lớp nước mặt, sau đó là thực vật 1 và phủ đô thị, trong khi các lớp còn lại cho độ chính xác thấp hơn.
Kết luận
Trong nghiên cứu này, chúng tôi đã chỉ ra rằng các thuật toán học sâu UNET với dữ liệu Sentinel-1 và Sentinel-2 kết hợp có thể thu được phân loại chi tiết các lớp phủ và phân biệt giữa các nhóm có tính tương đồng cao với kết quả đầy hứa hẹn. Mặc dù điểm F1 thu được đối với lớp thực vật 2 không cao bằng điểm F1 của lớp thực vật 1, nhưng mạng học sâu U-Net thực sự đã tăng từ 0,08 đến 0,25 điểm so với các phương pháp Random Forest. Trong nghiên cứu này, chúng tôi nhận thấy rằng mặc dù đã đào tạo UNET với một tập dữ liệu nhỏ, nhưng nó hoạt động tốt hơn thuật toán rừng ngẫu nhiên. Chúng tôi kết luận rằng hiệu suất của UNET tốt hơn so với Random Forest, chủ yếu là do sự kết hợp các đặc điểm không gian và quang phổ trong phân loại lớp phủ. Ngoài ra, việc sử dụng kết hợp hình ảnh Sentinel-1 và Sentinel-2 giúp thu được bản đồ phân loại có tốt hơn đối với các lớp tương đồng. Nghiên cứu này chứng tỏ khả năng của UNET trong việc thu được các phân loại lớp phủ chi tiết với hình ảnh vệ tinh có độ phân giải không gian trung bình.
Lời cảm ơn
Nghiên cứu này là một phần trong đề tài nghiên cứu khoa học cấp cơ sở mã số T23-01 thực hiện tại trường Đại học Mỏ - Địa Chất. Mục đích của nghiên cứu là xác thực khả năng phân loại tốt lớp đối tượng sử dụng mạng học sâu UNET. Xin chân thành cảm ơn trường Đại học Mỏ - Địa Chất, phòng Khoa học Công nghệ, khoa CNTT đã tạo điều kiện về cơ sở vật chất và kinh phí thực hiện nghiên cứu. Xin cảm ơn các thành viên tham gia nghiên cứu này vì đã bỏ thời gian công sức thực hiện tạo dữ liệu huấn luyện rất kì công.
Tài liệu tham khảo
1. Aplin, P. Remote sensing: Land cover. Prog. Phys. Geogr. 2004, 28, 283–293;
2. Giri, C.P. Remote Sensing of Land Use and Land Cover. In Principles and Applications; CRC Press: Boca Raton, FL, USA, 2020; p. 477;
3. Congalton, R.G.; Gu, J.; Yadav, K.; Thenkabail, P.; Ozdogan, M. Global land cover mapping: A review and uncertainty analysis. Remote Sens. 2014, 6, 12070-12093;
4. Gómez, C.; White, J.C.; Wulder, M.A. Optical remotely sensed time series data for land cover classification: A review. ISPRS J. Photogramm. Remote Sens. 2018, 10, 55–72;
5. Rogan, J.; Chen, D.M. Remote sensing technology for mapping and monitoring land-cover and land-use change. Prog. Plan. 2004, 61, 301–325;
6. Pelletier, C.; Webb, G.I.; Petitjean, F. Temporal convolutional neural network for the classification of satellite image time series. Remote Sens. 2019, 11, 523;
7. Guo, L.B.; Gifford, R.M. Soil carbon stocks and land use change: A meta analysis. Glob. Chang. Biol. 2002, 8, 345–360;
8. Flood, N.; Watson, F.; Collett, L. Using a U-net convolutional neural network to map woody vegetation extent from high resolution satellite imagery across Queensland, Australia. Int. J. Appl. Earth Obs. Geoinf. 2019, 82, 101897;
9. Yi, Y.; Zhang, Z.; Zhang, W.; Zhang, C.; Li, W.; Zhao, T. Semantic Segmentation of Urban Buildings from VHR Remote Sensing Imagery Using a Deep Convolutional Neural Network.
10. Ulmas, P.; Liiv, I. Segmentation of satellite imagery using U-Net models for land cover classification. arXiv 2020, arXiv:2003.02899.
TRẦN TRƯỜNG GIANG, TRẦN MAI HƯƠNG,
TRẦN THỊ HÒA, NGUYỄN THỊ HẢI YẾN
Trường Đại học Mỏ - Địa Chất
Nguồn: Tạp chí Tài nguyên và Môi trường số 4 năm 2024