Xây dựng bản đồ nguy cơ lũ quét các xã phía Bắc tỉnh Tuyên Quang (tỉnh Hà Giang cũ) bằng phương pháp Trí tuệ nhân tạo Địa thông tin

Thứ tư, 5/11/2025, 10:12 (GMT+7)
logo Nghiên cứu ứng dụng GeoAI với các mô hình học máy (XGBoost, MLP, SVM) và dữ liệu viễn thám - GIS để xây dựng bản đồ nguy cơ lũ quét cho khu vực phía bắc tỉnh Tuyên Quang, nơi thường xuyên chịu thiệt hại nặng do lũ quét. Kết quả cho thấy mô hình XGBoost đạt độ chính xác cao nhất (Kappa = 0,87) và phân vùng nguy cơ lũ quét thành 5 cấp độ, hỗ trợ quy hoạch và giảm thiểu rủi ro thiên tai.

Tóm tắt:

Thuộc khu vực đồi núi phía Bắc, nơi địa đầu và cũng là vùng nghèo nhất cả nước, các xã phía bắc tỉnh Tuyên Quang (trước đây thuộc tỉnh Hà Giang) hằng năm phải hứng chịu thiệt hại nặng nề do lũ quét. Thiệt hại ngày càng tăng cả về phạm vi và mức độ, xuất phát từ gia tăng dân số, phát triển kinh tế địa phương và tính cực đoan của khí hậu. Bản đồ nguy cơ lũ quét là công cụ quan trọng hỗ trợ ra quyết định, giúp lồng ghép nội dung phòng ngừa, giảm thiểu thiên tai vào quy hoạch kinh tế - xã hội và quy hoạch ngành. Nghiên cứu này ứng dụng và triển khai GeoAI với các mô hình học máy tiên tiến (XGBoost - eXtreme Gradient Boosting, MLP - Multilayer Perceptron và SVM - Support Vector Machine) trong môi trường tính toán dữ liệu lớn Google Colab và hệ thống thông tin địa lý (GIS). Bộ dữ liệu sử dụng đồng bộ, cập nhật và đa nguồn, bao gồm ảnh viễn thám Landsat-8, bản đồ địa hình, sử dụng đất, thổ nhưỡng, địa chất cùng số liệu mưa theo ngày và giờ, nhằm xây dựng bản đồ nguy cơ lũ quét cho khu vực phía bắc tỉnh Tuyên Quang. Kết quả cho thấy khu vực nghiên cứu được phân thành 5 cấp độ nguy cơ lũ quét: rất thấp, thấp, trung bình, cao và rất cao, với tỷ lệ diện tích tương ứng là 48,8%, 33,9%, 9,5%, 4,8% và 3,0%. Một số xã có tỷ lệ diện tích thuộc nhóm nguy cơ cao đến rất cao vượt 10% gồm: Tân Quang, Ngọc Đường, Xuân Giang, Tiên Yên, Hùng An, Tiên Nguyên, Quang Bình, Đồng Yên, Linh Hồ, Vĩnh Tuy, Việt Lâm, Bằng Lang, Tân Trịnh, Bằng Hành, Vị Xuyên và Bắc Quang. Mô hình XGBoost cho kết quả tốt nhất với hệ số Kappa đạt 0,87, thể hiện độ phù hợp cao với dữ liệu thực địa, trong khi MLP và SVM đạt lần lượt 0,85 và 0,71.

Từ khóa: Rủi ro lũ quét, bắc Tuyên Quang, học máy, GIS, Google Colab

Đặt vấn đề

Việt Nam thuộc nhóm 10 quốc gia chịu tác động nghiêm trọng nhất của biến đổi khí hậu do thiên tai  [13, 24]. Trong 20 năm qua, thiên tai gây thiệt hại lớn về người, tài sản và hạ tầng, ước tính chiếm 1,0- 1,5% GDP mỗi năm [23]. Nhằm chủ động phòng ngừa, ứng phó và khắc phục hiệu quả, Quốc hội đã ban hành Luật Phòng, chống thiên tai năm 2013 (số 33/2013/QH13) [12]; trên cơ sở đó, Chính phủ phê duyệt Chiến lược quốc gia phòng, chống thiên tai đến năm 2030, tầm nhìn 2050 [16], đặt mục tiêu giảm 50% thiệt hại về người do lũ quét, sạt lở đất so với giai đoạn 2011-2020 và thiệt hại kinh tế không vượt quá 1,2% GDP. Để thực hiện đồng bộ, Bộ Nông nghiệp và Môi trường (NN&MT) đã dự thảo Thông tư quy định kỹ thuật thành lập bản đồ phân vùng nguy cơ, rủi ro do sạt lở đất, lũ quét ở tỷ lệ 1:10.000 và 1:2.000 [18]. Các cơ quan chuyên môn cũng đang khẩn trương xây dựng bản đồ rủi ro thiên tai sạt lở đất, lũ quét tỷ lệ lớn cho khu vực trung du và miền núi [1, 6].

Lũ quét là loại lũ xuất hiện đột ngột trên sườn dốc hoặc các sông, suối nhỏ miền núi, có dòng chảy xiết, mang theo nhiều bùn đá và gây tàn phá lớn [17, 18]. Hiện tượng này thường gây thiệt hại nghiêm trọng về người và tài sản, để lại hậu quả lâu dài [12, 28]. Theo báo cáo của Ban Chỉ huy phòng, chống thiên tai và tìm kiếm cứu nạn tỉnh Hà Giang (2019-2023) và Ủy ban nhân dân tỉnh Hà Giang (2020, 2021), tại các xã phía Bắc tỉnh Tuyên Quang (trước đây thuộc Hà Giang), lũ quét và sạt lở đất là hai loại hình thiên tai gây thiệt hại nặng nề nhất. Các hiện tượng này xảy ra hằng năm với phạm vi và cường độ ngày càng tăng, chủ yếu do mở rộng định cư, phát triển kinh tế lấn rừng và tác động của biến đổi khí hậu. Trong giai đoạn 1989–2018, khu vực ghi nhận 61 trận lũ quét và lũ ống, trung bình khoảng 2 trận mỗi năm, chủ yếu bắt nguồn từ các đợt mưa lớn do bão, áp thấp nhiệt đới hoặc rãnh hội tụ gió trên cao.

Nguy cơ lũ quét là khả năng có thể xảy ra lũ quét dựa trên những yếu tố tự nhiên hoặc nhân sinh tác động gây ra hiện tượng lũ quét ở một khu vực nhất định [18].

Bản đồ nguy cơ lũ quét có vai trò quan trọng trong việc cung cấp thông tin về phạm vi không gian và cấp độ rủi ro thiên tai; là cơ sở khoa học phục vụ lập kế hoạch, phân bổ nguồn lực và chỉ đạo công tác phòng ngừa, ứng phó và khắc phục hậu quả thiên tai một cách hiệu quả. Bản đồ là căn cứ để phát hành các bản tin cảnh báo sớm, hỗ trợ công tác sơ tán dân, bảo vệ tài sản, đồng thời phục vụ quy hoạch tổng thể, quy hoạch sử dụng đất, quy hoạch ngành và bố trí dân cư hợp lý nhằm giảm thiểu rủi ro thiên tai. Bên cạnh đó, bản đồ cũng hỗ trợ đáng kể cho việc đánh giá thiệt hại và lập kế hoạch khắc phục sau thiên tai [1, 17].

Các phương pháp nghiên cứu lũ quét phổ biến gồm: mô hình thủy văn – thủy lực số trị, phân tích đa tiêu chí (MCA – Multi-Criteria Analysis), thống kê/hồi quy và học máy/trí tuệ nhân tạo (ML – Machine Learning, AI – Artificial Intelligence). Trong đó, phương pháp MCA được sử dụng rộng rãi nhất [7, 11, 20], đặc biệt tại Việt Nam [5, 22], nhờ tính đơn giản và hiệu quả, nhưng độ chính xác còn hạn chế do tham số và trọng số chủ yếu xác định định tính theo ý kiến chuyên gia. Mô hình thủy văn – thủy lực [26, 27] phản ánh bản chất vật lý của lũ quét với độ tin cậy cao, song đòi hỏi nhiều dữ liệu và chi phí lớn, khó áp dụng ở vùng đồi núi. Phương pháp thống kê/hồi quy tập trung vào yếu tố mưa theo thời đoạn, chưa thể hiện đầy đủ tính phức tạp của các nhân tố gây lũ quét, nên chủ yếu được dùng trong cảnh báo sớm [21, 28].

Cho đến nay, nghiên cứu lũ quét vẫn gặp nhiều thách thức do tính phức tạp và cục bộ cao của các yếu tố như địa hình, địa chất, lớp phủ bề mặt và mưa. Trong bối cảnh đó, các phương pháp ML/AI ngày càng được quan tâm [4]. Đặc biệt, công nghệ GeoAI (Geospatial Artificial Intelligence – Trí tuệ nhân tạo Địa thông tin), kết hợp giữa AI và GIS, được khuyến nghị sử dụng để phân tích, dự báo nguy cơ lũ quét trong Dự thảo Thông tư Quy định kỹ thuật điều tra và thành lập bản đồ hiện trạng, phân vùng nguy cơ – rủi ro sạt lở đất, lũ quét tỷ lệ 1:10.000 và 1:2.000 [18].

Mặc dù mang lại kết quả chi tiết và độ chính xác cao, GeoAI đòi hỏi khối lượng dữ liệu lớn và năng lực tính toán cao, nên các nghiên cứu hiện chủ yếu mới dừng ở quy mô nhỏ (cấp huyện) [9, 10, 25], khiến việc tích hợp vào quy hoạch cấp tỉnh/thành phố còn hạn chế. Hơn nữa, theo Nghị quyết 1211/2016/UBTVQH13 về sáp nhập đơn vị hành chính (từ 63 xuống 34 tỉnh/thành phố, áp dụng từ 01/7/2025), quy mô địa giới mở rộng sẽ là thách thức cho việc áp dụng GeoAI ở phạm vi lớn hơn  [1, 6]. Đáng chú ý, đến nay vẫn chưa có công bố nào ứng dụng GeoAI để lập bản đồ nguy cơ lũ quét cho tỉnh Hà Giang cũ, và các nghiên cứu tương tự ở cấp tỉnh/thành phố khác trong nước cũng rất hạn chế.

Nghiên cứu này ứng dụng GeoAI trong môi trường tính toán dữ liệu lớn Google Colab, sử dụng bộ dữ liệu đồng bộ, cập nhật gồm ảnh viễn thám, địa hình, sử dụng đất, thổ nhưỡng, lớp phủ và mưa theo giờ, nhằm xây dựng bản đồ nguy cơ lũ quét cho khu vực phía Bắc tỉnh Tuyên Quang.

Bản đồ cung cấp thông tin tin cậy về phạm vi và mức độ nguy cơ lũ quét thiên tai, hỗ trợ địa phương chủ động ứng phó và tích hợp vào quy hoạch phát triển kinh tế – xã hội. Ngoài ra, nghiên cứu đề xuất giải pháp chi phí thấp, mạnh mẽ, định lượng, có thể mở rộng cho quy mô cấp tỉnh hoặc liên tỉnh khu vực miền núi Việt Nam.

Khu vực và phương pháp nghiên cứu

Khu vực nghiên cứu

picture1_1762308931.webp
Hình 1. Vị trí địa lý của tỉnh Tuyên Quang trong lãnh thổ Việt Nam 

picture2_1762309225.webp
Hình 1: Khu vực nghiên cứu thể hiện địa hình cùng các xã/phường đã từng xảy ra lũ quét

Khu vực nghiên cứu gồm các xã, phường phía Bắc tỉnh Tuyên Quang (trước đây thuộc địa giới tỉnh Hà Giang), có tổng diện tích tự nhiên 7.927,55 km². Đây là vùng núi ở cực Bắc Việt Nam, thuộc khu vực Đông Bắc, giáp tỉnh Vân Nam và Quảng Tây (Trung Quốc) ở phía Bắc, Cao Bằng ở phía Đông, Lào Cai ở phía Tây và các xã lân cận ở phía Nam (Hình 1).

Khu vực này có mật độ dân cư thưa thớt và mức phát triển kinh tế thấp so với mặt bằng chung của cả nước và vùng núi phía Bắc. Địa hình chủ yếu là đồi núi, cao từ 40 m đến trên 2.400 m, phổ biến trong khoảng 800–1.200 m. Về sử dụng đất, đất nông nghiệp chiếm 21,6%, đất rừng 51,7%, và đất phi nông nghiệp 5,0% [2].

Thu thập và phân tích dữ liệu

Thu thập dữ liệu

Dữ liệu địa hình: Gồm 24 bản đồ số địa hình tỷ lệ 1:50.000 (năm 2019, Bộ Tài nguyên và Môi trường - BTNMT) ở định dạng vector DGN (phần mềm MicroStation), bao phủ toàn tỉnh Hà Giang. Dữ liệu này được sử dụng để tạo mô hình số độ cao (DEM), cũng như các lớp chỉ số lũ quét như độ dốc, độ cao, hướng sườn, độ cong sườn dốc, hình dạng, kích thước lưu vực và ranh giới phường/xã.

Dữ liệu đất: Gồm 01 bản đồ số đất/thổ nhưỡng tỷ lệ 1:100.000 (năm 2004, Bộ Nông nghiệp và Phát triển Nông thôn - BNNPTNT) ở định dạng vector TAB (phần mềm MapInfo), bao phủ toàn tỉnh Hà Giang. Dữ liệu này được sử dụng để tạo lớp chỉ số đất.

Dữ liệu địa chất: Gồm 05 bản đồ giấy địa chất và khoáng sản Việt Nam tỷ lệ 1:200.000 (năm 2000, BTNMT) bao phủ toàn tỉnh Hà Giang. Dữ liệu này được sử dụng để tạo lớp chỉ số địa chất.

Dữ liệu sử dụng đất: Gồm 01 bản đồ số hiện trạng sử dụng đất tỷ lệ 1:100.000 (năm 2019, BTNMT) ở định dạng vector DGN, bao phủ toàn tỉnh Hà Giang. Dữ liệu này được sử dụng để tạo lớp chỉ số sử dụng đất.

Dữ liệu mưa: Gồm 34 chuỗi dữ liệu mưa giờ tương ứng với 34 trạm tự động giai đoạn 2020–2023 (bắt đầu vận hành từ năm 2020, BTNMT) bao phủ toàn bộ tỉnh Hà Giang. Dữ liệu được sử dụng để xây dựng các lớp chỉ số mưa theo từng thời đoạn.

Dữ liệu viễn thám: Gồm 03 cảnh ảnh Landsat-8 (P127R44, P127R45, và P128R44; các năm 2021 và 2023, Cục Khảo sát Địa chất Hoa Kỳ - USGS) bao phủ toàn tỉnh Hà Giang với tỷ lệ mây phủ dưới 5%. Các ảnh này được sử dụng để tính toán chỉ số thực vật NDVI (Normalized Difference Vegetation Index).

Dữ liệu kiểm kê lũ quét: Gồm 37 trận lũ quét xảy ra trong giai đoạn 2001–2022 được thu thập từ các báo cáo thiên tai của Ban Chỉ huy PCTT và TKCN tỉnh Hà Giang và UBND tỉnh Hà Giang. Dữ liệu này được sử dụng để xác định thời gian, loại hình, cường độ, vị trí lũ quét và lập kế hoạch khảo sát thực địa.

Dữ liệu khảo sát thực địa lũ quét: Khảo sát thực địa được thực hiện vào tháng 5 năm 2024 trên phạm vi toàn tỉnh Hà Giang nhằm đo đạc, xác định vị trí các điểm lũ quét và thu thập thông tin về các điều kiện tự nhiên cũng như các yếu tố hình thành lũ quét.

Phân tích dữ liệu

Đồng bộ dữ liệu: Các bản đồ giấy được số hóa và các bản đồ số được chuyển đổi sang định dạng vector GIS. Dữ liệu viễn thám và GIS được đồng bộ trong ESRI Geodatabase (VN2000–Hà Giang) để đảm bảo độ chính xác không gian, với ảnh Landsat lưu dạng raster và các dữ liệu khác dạng vector.

Xây dựng các lớp chỉ số nhân tố lũ quét: Tổng cộng 14 lớp chỉ số được xác định và xây dựng để phục vụ huấn luyện và mô phỏng nguy cơ lũ quét, bao gồm: địa hình, địa mạo (độ cao, độ dốc, hướng sườn, độ cong sườn dốc), địa chất, thổ nhưỡng, sử dụng đất, chỉ số thực vật - NDVI, thủy văn (diện tích lưu vực hứng nước - catchment, mật độ sông suối, chỉ số ẩm ướt địa hình – TWI), và mưa cực đại thời đoạn (24h, 72h, 120h).

Hai lớp dữ liệu độ cao (điểm cao và đường đồng mức) được chuyển đổi thành mạng tam giác không đều (TIN) để tạo mô hình số độ cao (DEM) có độ phân giải 20 m. Từ DEM này, các lớp địa hình, địa mạo và thủy văn được trích xuất. Các lớp thổ nhưỡng và sử dụng đất được gán trọng số theo đặc tính thủy văn (theo hướng dẫn của Cục Bảo tồn Tài nguyên Thiên nhiên Mỹ [29]) và chuyển sang dạng raster. Chỉ số NDVI được tính từ band 5 và 4 của ảnh Landsat [19]. Phân bố mưa cực đại thời đoạn được nội suy bằng thuật toán Kriging. Các giá trị tại mỗi ô lưới của từng chỉ số lũ quét được trung bình theo từng catchment. Toàn bộ quá trình được thực hiện trên phần mềm ArcMap, ArcGIS Spatial Analyst và ArcHydro.

Xây dựng lớp lũ quét: Một lớp dữ liệu gồm hơn 11 nghìn điểm, thể hiện hai trạng thái “có khả năng rất cao xảy ra lũ quét” và “không có khả năng xảy ra lũ quét”, được xây dựng để huấn luyện và kiểm chứng mô hình nguy cơ lũ quét. Lớp này được tổng hợp từ dữ liệu thống kê lũ quét, khảo sát thực địa và ảnh độ phân giải cao Google Map (các điểm xảy ra lũ quét phân bố dọc theo sông suối, trong khi các điểm không xảy ra nằm trên đỉnh hoặc sườn núi).

Kết quả, 14 lớp chỉ số nguy cơ lũ quét được đồng bộ trong cơ sở dữ liệu GIS với kích thước ô lưới 20 m×20 m, hệ tọa độ VN2000- Hà Giang, và xuất ra một file ở định dạng GeoTIFF tổng hợp. Lớp dữ liệu lũ quét cũng được chuẩn hóa và xuất ra một file riêng có cùng cấu hình.

picture3_1762309473.webp
Hình 2. Sơ đồ tổng quát phương pháp nghiên cứu

Mô hình nguy cơ lũ quét

Lựa chọn mô hình AI

Ba thuật toán trí tuệ nhân tạo (AI) hiện đại và phổ biến, đại diện cho ba hướng tiếp cận khác nhau, được lựa chọn để mô phỏng nguy cơ lũ quét tại khu vực nghiên cứu gồm: SVM (Support Vector Machine), XGBoost (eXtreme Gradient Boosting) và MLP (Multilayer Perceptron). Do khối lượng dữ liệu lớn (phạm vi nghiên cứu rộng, gồm 14 lớp chỉ số nguy cơ và hơn 11.000 điểm dữ liệu lũ quét), quá trình huấn luyện, kiểm chứng và mô phỏng được thực hiện trên nền tảng Google Colab kết hợp Google Drive. Trong đó, phần mềm mã nguồn mở OSGeo-GDAL được sử dụng để đọc/ghi dữ liệu GeoTIFF, còn ngôn ngữ Python được dùng để lập trình và thực thi mô hình.

Huấn luyện và kiểm chứng mô hình

Bộ dữ liệu gồm hơn 11 nghìn điểm, trong đó 60% được sử dụng để huấn luyện và 40% để kiểm chứng, được lựa chọn ngẫu nhiên. Ảnh hưởng của từng chỉ số được đánh giá thông qua các giá trị Permutation Importance và SHAP. Quá trình tối ưu siêu tham số mô hình được thực hiện bằng GridSearchCV. Các ranh giới vết lũ quét xác định từ khảo sát thực địa được sử dụng để kiểm chứng kết quả mô hình.

Thống kê nguy cơ lũ quét theo xã/phường

Thống kê nguy cơ lũ quét theo đơn vị hành chính xã/phường được thực hiện bằng phương pháp thống kê không gian theo vùng (Zonal Statistics) thông qua hàm Tabulate Area trong ArcGIS Spatial Analyst. Quá trình này được tiến hành giữa lớp dữ liệu nguy cơ lũ quét mô phỏng từ mô hình được trình bày tại Mục 2.3 và lớp ranh giới hành chính xã/phường được trích xuất từ bản đồ địa hình và cơ sở dữ liệu GIS tại Mục 2.2.3.

Kết quả và thảo luận

Huấn luyện và kiểm chứng mô hình nguy cơ lũ quét

Trong ba mô hình được thử nghiệm, XGBoost cho kết quả tốt nhất với Kappa = 0,87, tiếp theo là MLP (0,85) và SVM (0,71). Thứ bậc này phù hợp với các nghiên cứu trước ở miền núi phía Bắc Việt Nam và các khu vực tương tự trên thế giới [3, 10, 14, 25]. Vết lũ quét thực địa cũng khá trùng khớp với các vùng nguy cơ cao được mô phỏng.

Sự khác biệt rõ ràng về độ chính xác giữa XGBoost, MLP với SVM phản ánh năng lực mô hình hóa của từng thuật toán. Giá trị Kappa rất cao của hai mô hình đầu tiên, bằng và cao hơn so với các nghiên cứu khác tại các khu vực lân cận [10, 25] cũng như ở phạm vi quốc tế [3, 14]. Kết quả này cho thấy hiệu quả của việc áp dụng cách tiếp cận thủy văn lưu vực để tính toán các chỉ số theo từng tiểu lưu vực thượng nguồn (catchment) thay vì chỉ xét cục bộ như các nghiên cứu trước [10, 25], sử dụng bộ dữ liệu huấn luyện lớn (hơn 11 nghìn điểm) đến từ thực địa, và quy trình tối ưu tham số bằng GridSearchCV.

Ngược lại, dù đã được hiệu chỉnh bằng cùng quy trình tối ưu, SVM chỉ đạt Kappa = 0,71, cho thấy hạn chế cố hữu của thuật toán này khi xử lý dữ liệu quy mô lớn, đa chiều và phi tuyến tính phức tạp [8, 15] - đặc trưng cho địa hình vùng núi cao, bị chia cắt mạnh, nơi các trận lũ quét thường xảy ra nhưng lượng mưa lại thấp hơn so với các khu vực trũng có tâm mưa lớn.

Phân bố nguy cơ lũ quét của vùng nghiên cứu

Phân bố nguy cơ lũ quét của khu vực nghiên cứu được phân theo 5 cấp độ nguy cơ theo hướng dẫn của BNN&MT [18], bao gồm: rất thấp, thấp, trung bình, cao và rất cao, thể hiện sự chênh lệch rõ rệt theo đặc điểm địa hình (Hình 3).

Vùng có nguy cơ lũ quét rất thấp và thấp chiếm tỷ lệ lớn nhất, khoảng 82,7% diện tích toàn khu vực nghiên cứu. Các khu vực này chủ yếu phân bố tại đỉnh núi, sườn đồi và các gờ địa hình cao, nơi lượng nước mưa tích tụ ít, nên khả năng hình thành lũ quét thấp. Đây là những vùng có mức độ rủi ro thấp, tương đối an toàn cho hoạt động dân cư và phát triển kinh tế - xã hội. Tuy nhiên, các hiện tượng lũ bùn đá do sạt lở sườn dốc hoặc vỡ đập chắn tự nhiên vẫn có thể xảy ra cục bộ.

Vùng có nguy cơ lũ quét cao và rất cao chiếm khoảng 7,8% tổng diện tích khu vực nghiên cứu, trong đó mức rất cao chiếm khoảng 3,0%. Các khu vực này phân bố chủ yếu dọc lòng dẫn và bãi thấp ven sông, suối, đặc trưng bởi mặt cắt sông suối phổ biến dạng chữ V do địa hình chia cắt mạnh và cấu trúc địa chất đứt gãy phức tạp của khu vực Hà Giang. Đây là nơi tập trung dòng chảy mặt lớn, thường xuyên chịu tác động của các trận lũ trong mùa mưa. Mặc dù diện tích không lớn, song do tập quán cư trú của đồng bào miền núi, khu vực này vẫn tập trung nhiều hoạt động dân sinh và kinh tế - xã hội nhờ điều kiện thuận lợi về nước, đất đai và giao thông. Do đó, vùng này tiềm ẩn rủi ro cao đến rất cao, cần được đánh giá chi tiết hơn và sớm triển khai các giải pháp bảo vệ hoặc di dời dân cư phù hợp nhằm giảm thiểu thiệt hại.

picture4_1762309633.webp
Hình 3. Phân bố nguy cơ lũ quét theo mô hình xGBoost (a) toàn bộ khu vực nghiên cứu, (b) Chi tiết tại xã Vị Xuyên, (c) Chi tiết tại xã Quang Bình

Vùng có nguy cơ lũ quét trung bình chiếm khoảng 9,5% diện tích toàn khu vực nghiên cứu, phân bố xen kẽ giữa các vùng nguy cơ thấp và cao. Đây là khu vực tích tụ nước mặt ở mức trung bình, thường ít chịu ảnh hưởng bởi các trận mưa có tần suất hàng năm đến vài năm, nhưng vẫn có khả năng xảy ra lũ lớn trong các đợt mưa cực đoan hiếm gặp.

Dọc theo các thung lũng và triền sông suối, do có điều kiện thuận lợi cho sinh hoạt, sản xuất nông nghiệp và phát triển hạ tầng, khu vực này thường được các cộng đồng dân cư miền núi lựa chọn làm nơi định cư và phát triển kinh tế – xã hội. Vì vậy, vùng nguy cơ trung bình vẫn tiềm ẩn rủi ro đáng kể, cần được đánh giá chi tiết hơn, đồng thời xây dựng các giải pháp quản lý rủi ro khi quy hoạch dân cư.

Theo kết quả thống kê bằng công cụ GIS, hầu hết các xã/phường trong khu vực nghiên cứu đều tồn tại nguy cơ lũ quét ở cả 5 cấp độ, từ rất thấp đến rất cao. Tỷ lệ diện tích có nguy cơ cao đến rất cao dao động từ 1,4% đến 21,7%. Các xã Mèo Vạc, Lũng Cú, Lũng Phìn, Sà Phìn, Đường Thượng và Đồng Văn có nguy cơ lũ quét thấp nhất, với tỷ lệ khu vực nguy cơ cao đến rất cao đều dưới 3,0%. Đặc biệt, tại các xã Sà Phìn, Lũng Phìn, Mèo Vạc, Sủng Máng, Phố Bảng, Thắng Mố và Đồng Văn, tỷ lệ nguy cơ rất cao hầu như không đáng kể (dưới 0,5%). Đây là các xã thuộc Công viên Địa chất Toàn cầu Cao nguyên đá Đồng Văn – khu vực tuy có thảm rừng nghèo nhất khu vực nghiên cứu nhưng địa hình chủ yếu là núi đá vôi, khả năng thấm nước lớn, qua đó làm giảm đáng kể nguy cơ hình thành lũ quét.

Ngược lại, các xã Tân Quang, Ngọc Đường, Xuân Giang, Tiên Yên, Hùng An, Tiên Nguyên, Quang Bình, Đồng Yên, Linh Hồ, Vĩnh Tuy, Việt Lâm, Bằng Lang, Tân Trịnh, Bằng Hành, Vị Xuyên và Bắc Quang là những khu vực có nguy cơ lũ quét cao nhất, với tỷ lệ diện tích ở mức nguy cơ cao đến rất cao đều vượt 10% (chi tiết thể hiện tại Bảng 1). Các xã này chủ yếu phân bố dọc cánh cung từ Nam Tây Nam đến Đông Nam của vùng nghiên cứu, tương ứng với các huyện Quang Bình, Bắc Mê và Vị Xuyên của tỉnh Hà Giang cũ. Đây là khu vực tập trung đông dân cư và có hoạt động kinh tế – xã hội sôi động nhất trong vùng, nhờ đặc trưng địa hình tương đối bằng phẳng dọc theo sông Lô và sông Gâm, đồng thời là tâm mưa của khu vực nghiên cứu (Hình 3).

Bảng 1. Các xã/phường có nguy lũ quét ở mức cao và rất cao lớn nhất tại khu vực nghiên cứu

TT

Tên xã/Phường

Diện tích nguy cơ lũ quét phân theo cấp (ha)

Tỉ lệ nguy cơ cao (%)

Tỉ lệ nguy cơ rất cao (%)

1

2

3

4

5

1

Xã Bắc Quang

4.001

4.233

2.876

2.080

   993

       14.7

         7.0

2

Xã Vị Xuyên

2.781

2.205

1.138

1.079

   494

       14.0

         6.4

3

Xã Bằng Hành

5.459

4.432

2.228

1.837

1.202

       12.1

         7.9

4

Xã Tân Trịnh

3.775

3.590

1.845

1.377

   880

       12.0

         7.7

5

Xã Việt Lâm

2.937

3.819

1.451

   721

   673

         7.5

         7.0

6

Xã Bằng Lang

5.939

2.692

1.246

1.208

   471

       10.5

         4.1

7

Xã Vĩnh Tuy

5.378

3.187

1.369

1.345

   289

       11.6

         2.5

8

Xã Linh Hồ

5.805

6.674

3.091

1.724

   835

         9.5

         4.6

9

Xã Đồng Yên

3.080

2.319

1.432

   780

   285

         9.9

         3.6

10

Xã Quang Bình

5.198

4.698

1.381

   902

   825

         6.9

         6.3

11

Xã Tiên nguyên

3.264

3.715

   932

   495

   601

         5.5

         6.7

12

Xã Hùng An

5.049

3.630

1.739

1.105

   325

         9.3

         2.7

13

Xã Tiên Yên

4.818

2.541

1.206

   836

   307

         8.6

         3.2

14

Xã Xuân Giang

4.941

2.029

   652

   771

   199

         9.0

         2.3

15

Xã Ngọc Đường

3.860

4.072

1.511

   659

   488

         6.2

         4.6

16

Xã Tân Quang

6.720

6.743

2.157

   991

   789

         5.7

         4.5

17

Phường Hà Giang 2

1.913

2.517

1.142

   406

   181

         6.6

         2.9

Kết luận

Nghiên cứu này giới thiệu một cách tiếp cận mới, tiên tiến và chi phí thấp trong xây dựng bản đồ nguy cơ lũ quét, phù hợp với Dự thảo Hướng dẫn kỹ thuật của Bộ Nông nghiệp và Phát triển Nông thôn [18]. Cách tiếp cận này không chỉ áp dụng cho khu vực phía Bắc tỉnh Tuyên Quang (thuộc địa giới Hà Giang cũ) mà còn có thể mở rộng cho các vùng miền núi khác của Việt Nam.

Kết quả cho thấy, XGBoost và MLP đạt hiệu quả cao trong bài toán đa biến, phi tuyến tính như lũ quét, trong khi SVM thể hiện những hạn chế nhất định. Việc tính toán chỉ số lũ quét theo lưu vực hứng nước, kết hợp bộ dữ liệu huấn luyện lớn từ thực địa và ảnh Google Maps, cùng quy trình tối ưu tham số bằng GridSearchCV, đã giúp nâng cao đáng kể độ chính xác của mô hình.

Nhờ nền tảng Google Colab và Google Drive, các vấn đề về cài đặt phức tạp và giới hạn tài nguyên máy tính khi xử lý dữ liệu lớn bằng AI trên máy tính cá nhân đã được khắc phục hiệu quả.

Bản đồ nguy cơ lũ quét là công cụ khoa học quan trọng, giúp xác định phạm vi và mức độ rủi ro thiên tai, hỗ trợ lập kế hoạch, phân bổ nguồn lực, cảnh báo sớm, sơ tán dân và quy hoạch sử dụng đất hợp lý. Kết quả cho thấy 7,8% diện tích khu vực nghiên cứu thuộc nhóm nguy cơ cao- rất cao, tập trung chủ yếu dọc lòng dẫn và các bãi thấp ven sông suối, đặc biệt tại các xã Tân Quang, Ngọc Đường, Xuân Giang, Tiên Yên, Hùng An, Tiên Nguyên, Quang Bình, Đồng Yên, Linh Hồ, Vĩnh Tuy, Việt Lâm, Bằng Lang, Tân Trịnh, Bằng Hành, Vị Xuyên và Bắc Quang. Đây là những khu vực cần được ưu tiên đánh giá chi tiết và có biện pháp bảo vệ hoặc di dời phù hợp.

Tuy nhiên, nghiên cứu vẫn còn một số hạn chế, như độ chi tiết của dữ liệu địa hình chưa đủ phản ánh biến động phức tạp của khu vực và mức độ nguy cơ chưa được kiểm chứng thực địa đầy đủ. Trong tương lai, cần sử dụng dữ liệu địa hình chi tiết hơn (1:10.000–1:25.000), đồng thời tham vấn ý kiến chuyên gia và cán bộ địa phương để tăng độ tin cậy và giá trị ứng dụng của kết quả.

Lời cảm ơn: Các tác giả xin trân trọng cảm ơn Viện Hàn lâm Khoa học và Công nghệ Việt Nam (VAST) đã hỗ trợ kinh phí thực hiện nghiên cứu thông qua Đề tài “Áp dụng phương pháp học máy, dữ liệu viễn thám và công cụ GIS để nghiên cứu, đánh giá rủi ro lũ quét tỉnh Hà Giang”, mã số VAST05.05/24-25.

Tài liệu tham khảo

1. Cục Địa chất và Khoáng sản Việt Nam (13/11/2024). Tập trung xây dựng hệ thống bản đồ phân vùng rủi ro tỷ lệ lớn đồng bộhttps://dcks.mae.gov.vn/tin-tuc--su-kien/tap-trung-xay-dung-he-thong-ban-do-phan-vung-rui-ro-ty-le-lon-dong-bo-3740.htm.

2. Cục Thống kê tỉnh Hà Giang (2024), Niên giám thống kê tỉnh Hà Giang 2023.

3. Hemal Dey, Md Munjurul Haque, Wanyun Shao, Matthew VanDyke, và Feng Hao (2024), Simulating flood risk in Tampa Bay using a machine learning driven approach, npj Natural Hazards, số 1(1), tr. 40.

4. Le Duan, Chao Liu, Hui Xu, Pan Huali, Haizhi Liu, Xufeng Yan, Tiegang Liu, Zhengli Yang, Gang Liu, Xiaoai Dai, Donghui Zhang, Xiao Fu, Xuemei Liu, và Heng Lu (2022), Susceptibility Assessment of Flash Floods: A Bibliometrics Analysis and Review, Remote Sensing, 14,  DOI: 10.3390/rs14215432.

5. Trần Văn Hưng và Bùi Văn Chanh (2023), Xây dựng bản đồ chi tiết cấp độ rủi ro do ngập lụt hạ lưu sông Ba, Tạp chí Khoa học Biến đổi khí hậu, số 25, tr. 54-65.

6. IMHEN (2025). Dự án Phân vùng rủi ro thiên tai và lập bản đồ cảnh báo lũ quét, sạt lở đất và sụt lún đất do mưa tại khu vực Trung du và miền núihttps://imh.ac.vn/du-an-phan-vung-rui-ro-thien-tai-va-lap-ban-do-canh-bao-lu-quet-sat-lo-dat-va-sut-lun-dat-do-mua-tai-khu-vuc-trung-du-va-mien-nui/.

7. István Kocsis, Ștefan Bilașco, Ioan-Aurel Irimuș, Vasile Dohotar, Raularian Rusu, và Sanda Roșca (2022), Flash Flood Vulnerability Mapping Based on FFPI Using GIS Spatial Analysis Case Study: Valea Rea Catchment Area, Romania, Sensors, 22,  DOI: 10.3390/s22093573.

8. Nattapoj Apichardsilkij (2024). Basic Comparison Between RandomForest, SVM, and XGBoosthttps://medium.com/%40ap.nattapoj_st/basic-comparison-between-randomforest-svm-and-xgboost-0e5862871175.

9. Phuong-Thao Thi Ngo, Tien Dat Pham, Nhat-Duc Hoang, Dang An Tran, Mahdis Amiri, Thu Trang Le, Pham Viet Hoa, Phong Van Bui, Viet-Ha Nhu, và Dieu Tien Bui (2021), A new hybrid equilibrium optimized SysFor based geospatial data mining for tropical storm-induced flash flood susceptible mapping, Journal of Environmental Management, số 280, tr. 111858.

10.     Viet-Ha Nhu, Phuong-Thao Thi Ngo, Tien D. Pham, Jie Dou, Xuan Song, Nhat-Duc Hoang, Dang A. Tran, Duong P. Cao, İbrahim B. Aydilek, Mahdis Amiri, Romulus Costache, Pham V. Hoa, và Dieu Tien Bui (2020), A New Hybrid Firefly–PSO Optimized Random Subspace Tree Intelligence for Torrential Rainfall-Induced Flash Flood Susceptible Mapping, Remote Sensing, 12,  DOI: 10.3390/rs12172688.

11.     Nicolae-Cristian Popescu và Alina Bărbulescu (2023), Flood Hazard Evaluation Using a Flood Potential Index, Water, 15,  DOI: 10.3390/w15203533.

12.     Quốc Hội (2013). Luật phòng, chống thiên tai, số 33/2013/QH13https://vbpl.vn/FileData/TW/Lists/vbpq/Attachments/32516/VanBanGoc_33.2013.QH13.pdf.

13.     Quốc Hội (2020). Luật sửa đối, bổ sung một số điều của luật phòng, chóng thiên tai và luật đê điều, số: 60/2020/QH14https://datafiles.chinhphu.vn/cpp/files/vbpq/2020/07/60.signed.pdf.

14.     Hancheng Ren, Bo Pang, Ping Bai, Gang Zhao, Shu Liu, Yuanyuan Liu, và Min Li (2024), Flood Susceptibility Assessment with Random Sampling Strategy in Ensemble Learning (RF and XGBoost), Remote Sensing, 16,  DOI: 10.3390/rs16020320.

15.     Stack Exchange (2017), Can support vector machine be used in large data?

16.     Thủ tướng Chính phủ (2021). Quyết định phê duyệt Chiến lược quốc gia phòng, chống thiên tai đến năm 2030, tầm nhìn đến năm 2050, số 379/QĐ-TTghttps://datafiles.chinhphu.vn/cpp/files/vbpq/2021/03/379.signed.pdf.

17.     Thủ tướng Chính phủ (2021). Quyết định Quy định về dự báo, cảnh báo, truyền tin thiên tai và cấp độ rủi ro thiên tai, số 18/2021/QĐ-TTghttps://datafiles.chinhphu.vn/cpp/files/vbpq/2021/04/18.signed.pdf.

18.     BNN&MT (Bộ Nông nghiệp và Môi trường) (2025). Dự thảo Thông tư Quy định kỹ thuật điều tra, thành lập bản đồ hiện trạng, bản đồ phân vùng nguy cơ, phân vùng rủi ro do sạt lở đất, lũ quét tỷ lệ 1:10.000 và 1:2.000https://mae.gov.vn/noidung/Lists/DuThaoVanBan/Attachments/1905/2025.05.29_Thong%20tu%20sat%20lo%20dat_TIEP%20THU%20Y%20KIEN.pdf.

19.     USGS. Landsat Normalized Difference Vegetation Indexhttps://www.usgs.gov/landsat-missions/landsat-normalized-difference-vegetation-index.

20.     N.  Zulhisham và E.  Md Sadek (2023), Employing the Flash Flood Potential Index (FFPI) with Physical Environmental Factors in Baling, Kedah through GIS Analysis, International Journal of Geoinformatics, số 19 (5), tr. 19–29.

21.     Cao Đăng Dư và Phùng Đức Chính (2006), Mưa gây lũ quét ở vùng núi Bắc Bộ, Tạp chí Khí tượng Thủy văn, tr. 1-6.

22.     Phạm Thị Hương Lan và Vũ Minh Cát (2008), Một số kết quả nghiên cứu, xây dựng bản đồ tiềm năng lũ quét phục vụ công tác cảnh báo lũ quét vùng núi Đông bắc Việt Nam, Tạp chí Khí tượng Thủy văn, tr. 11-16.

23.     Tổng cục Khí tượng Thủy văn (2023). Thiên tai năm 2022 diễn biến phức tạp, khốc liệthttp://vnmha.gov.vn/kttv-voi-san-xuat-va-doi-song-106/thien-tai-nam-2022-dien-bien-phuc-tap-khoc-liet-13921.html.

24.     David  Eckstein, Vera Künzel, Laura Schäfer, và Maik Winges (2020), Global climate risk index 2020 - Who Suffers Most from Extreme Weather Events? Weather-Related Loss Events in 2018 and 1999 to 2018. tr. 9.

25.     Phuong-Thao Thi Ngo, Tien Dat Pham, Viet-Ha Nhu, Thu Trang Le, Dang An Tran, Duong Cao Phan, Pham Viet Hoa, José Lázaro Amaro-Mellado, và Dieu Tien Bui (2021), A novel hybrid quantum-PSO and credal decision tree ensemble for tropical cyclone induced flash flood susceptibility mapping with geospatial data, Journal of Hydrology, số 596, tr. 125682.

26.     Lã Thanh Hà, An Tuấn Anh, và Trần Anh Phương (2007), Mô phỏng diễn biến trận lũ quét lịch sử ngày 27/9/2005 tại lưu vực suối Phà, xã Cát Thịnh Cát huyện Văn Chấn tỉnh Yên Bái Tuyển tập báo cáo hội thảo khoa học lần thứ 10 - Viện KHKTTV&MT, tr. 177-185.

27.     V. Estupina-Borrell, D. Dartus, và R. Ababou (2006), Flash flood modeling with the MARINE hydrological distributed model, Hydrology and Earth System Sciences, tr. 3397-3439.

28.     University Corporation for Atmospheric Research (2010), Flash flood early warning system reference guide, University Corporation for Atmospheric Research.

29.     Natural Resources Conservation Service (1997), Hydrology National Engineering Handbook, Natural Resources Conservation Service, United States Department of Agriculture.

Lê Như Ngà*, Lê Thị Hồng Vân, Trịnh Thị Thu Thủy - Viện Cơ học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam * Email: lnnga@imech.vast.vn