Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Thứ tư, 3/1/2024, 16:15 (GMT+7)

Cỡ chữ

Giải pháp thu thập, quản lý logs tập trung ngành Tài nguyên và Môi trường được đề xuất sử dụng công nghệ mã nguồn mở ELK (Elasticsearch, Logstash, Kibana) để xây dựng các thành phần chính của hệ thống. Giải pháp mã nguồn mở ELK sẽ cung cấp các tính năng thu thập logs từ nhiều nguồn khác nhau, chuẩn hóa và lưu trữ trong Elasticsearch với khả năng lập chỉ mục để tối ưu hoá truy xuất và tìm kiếm. Tuy nhiên, các tính năng nâng cao như phát hiện bất thường ứng dụng học máy chỉ có trong bản trả phí. Do đó, để giám sát và cảnh báo sự cố kịp thời, cần xây dựng thêm các phần phân tích logs ứng dụng học máy để bổ sung tính năng bị thiếu trong phiên bản ELK mã nguồn mở.

Trong tài liệu này, nhóm thực hiện đề xuất và thử nghiệm bài toán phát hiện bất thường dựa trên tần suất log, áp dụng mô hình học máy chuỗi thời gian (timeseries) để học được quy luật log của từng thiết bị, từ đó phát hiện ra bất thường nếu thiết bị có số lượng log vượt quá ngưỡng an toàn dự đoán.

Bài toán phát hiện bất thường dựa trên chuỗi thời gian

Phát hiện bất thường sử dụng chuỗi thời gian là quá trình theo dõi và phân tích dữ liệu thời gian để xác định sự xuất hiện của các biểu hiện không bình thường trong chuỗi thời gian bằng cách so sánh dữ liệu thực tế với các mô hình dự đoán hoặc các mẫu thông thường đã biết.

Theo dõi và phát hiện tần suất log thiết bị tăng đột biến so với bình thường hoặc so với dự đoán vào một khoảng thời gian cụ thể có thể hỗ trợ phát hiện các hoạt động xâm nhập mạng hoặc sự lây nhiễm mã độc trong hệ thống.

Quy trình triển khai bài toán phát hiện bất thường dựa trên mô hình chuỗi thời gian bao gồm:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Thu thập dữ liệu: Các dữ liệu logs như sự kiện hệ thống, lưu lượng mạng, các chỉ số về hiệu suất,...

Tiền xử lý dữ liệu: Làm sạch và chuẩn hóa bằng cách loại bỏ dữ liệu nhiễu, xử lý dữ liệu thiếu, chuyển đổi dữ liệu thành định dạng thích hợp cho việc phân tích chuỗi thời gian.

Xây dựng mô hình thời gian: Sử dụng mô hình thống kê như ARIMA (AutoRegressive Integrated Moving Average), hoặc một mô hình học máy như LSTM (Long Short-Term Memory) để dự đoán giá trị tiêu biểu trong chuỗi thời gian dựa trên dữ liệu lịch sử.

Xây dựng dự đoán: Mô hình thời gian được sử dụng để dự đoán chuỗi thời gian dự kiến.

Phát hiện bất thường: Bất kỳ sự khác biệt lớn nào giữa dự đoán và dữ liệu thực tế có thể cho thấy sự xuất hiện của bất thường.

Báo cáo và hành động: Cảnh báo bất thường cho người quản trị hệ thống để thực hiện các biện pháp ngăn chặn kịp thời.

Dữ liệu giám sát hệ thống của Bộ Tài nguyên và Môi trường

Bộ TN&MT triển khai thu thập dữ liệu giám sát thiết bị về ElasticSearch. Hiện tại, có 11 nhóm dữ liệu từ 41 thiết bị đang được thu thập. Các nhóm dữ liệu có số lượng logs nhiều nhất gồm:

Với bài toán phát hiện bất thường dựa trên chuỗi thời gian, dữ liệu cần sử dụng là số lượng log của từng thiết bị theo thời gian, bao gồm log bảo mật, log ứng dụng, log dung lượng mạng,… Với tính chất này, nhóm dữ liệu phù hợp là nhóm dữ liệu system.

Nhóm dữ liệu system được lập chỉ mục trong ElasticSearch có dạng “.ds-*-system.*-*-YYYY. MM.DD-00000*” chia thành các nhóm chính sau:

Logs/metrics: Logs về hoạt động đăng nhập, tiến trình, hoặc về chỉ số cpu, ram,… của thiết bị.

Security/core/…: Logs về loại hoạt động gì, ví dụ security là log về an ninh của thiết bị như đăng nhập, đăng xuất,…

Ngày tháng, số: Thể hiện ngày tháng, số thứ tự của index đó.

Sau khi xử lý dữ liệu logs system được kết quả sau:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Từ bảng thống kê trên, có thể thấy dữ liệu log system đổ về là rất lớn, cần nhiều nguồn lực để tiến hành phân tích. Trong phạm vi của nghiên cứu này, nhóm thực hiện lựa chọn loại log có nhiều bản ghi nhất - log security để tiến hành phân tích, triển khai thử nghiệm bài toán phát hiện bất thường sử dụng chuỗi thời gian.

Dữ liệu system.security được thu thập từ ngày 26/06/2023 trên 23 thiết bị. Biểu đồ số lượng log từng thiết bị theo thời gian: Dữ liệu system.security được thu thập từ ngày 26/06/2023 trên 23 thiết bị. Biểu đồ số lượng log từng thiết bị theo thời gian cho thấy tần suất log system.security của các thiết bị có sự khác biệt lớn, chu kỳ tần suất của từng thiết bị cũng khác biệt. Những bất thường này cần được phát hiện sớm để tìm nguyên nhân và giải pháp khắc phục kịp thời.

Từ thống kê trên có thể thấy, tần suất log system.security của các thiết bị có sự khác biệt lớn, chu kỳ tần suất của từng thiết bị cũng khác biệt. Những bất thường này cần được phát hiện sớm để tìm nguyên nhân và giải pháp khắc phục kịp thời.

Luồng tổng hợp và tiền xử lý dữ liệu

Nhóm thực hiện xây dựng luồng tổng hợp dữ liệu gồm 2 node như sau:

Wait_for_data: Đợi 10 giây để đảm bảo dữ liệu đã tồn tại ở ElasticSearch.

ETL_so_luong_log_thiet_bi_1: Tạo câu truy vấn và lấy dữ liệu từ ElasticSearch gồm thời gian tạo ra log, thiết bị log tạo ra, loại log, số lượng log. Sau đó chuyển dữ liệu về dạng bảng, thêm thông tin IP của thiết bị bằng cách truy vấn bảng du_lieu_chuan.danh_muc_thiet_bi. Lưu dữ liệu đã xử lý vào bảng du_lieu_goc.so_luong_log_thiet_bi.

Cấu trúc bảng dữ liệu đầu ra:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Xử lý dữ liệu trước khi đưa vào mô hình huấn luyện

Với bài toán chuỗi thời gian, dữ liệu cần được chuẩn hóa thành dạng bảng với 2 trường dữ liệu là:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Mô hình

Một số mô hình chuỗi thời gian được sử dụng phổ biến hiện nay gồm tự hồi quy tích hợp trung bình trượt (ARIMA), tự hồi quy tích hợp trung bình trượt với biến ngoại sinh (ARIMAX), Prophet.

Với bài toán chuỗi thời gian, một số độ đo có thể sử dụng bao gồm:

Độ đo RMSE (Root Mean Square Error) là một thước đo độ chính xác của một mô hình dự báo. RMSE được tính bằng cách lấy căn bậc hai của trung bình bình phương sai số giữa các giá trị dự đoán và giá trị thực tế.

Độ đo MAPE (Mean Absolute Percentage Error) là một thước đo độ chính xác của một mô hình dự báo. MAPE được tính bằng cách lấy trung bình tuyệt đối của tỷ lệ phần trăm sai số giữa các giá trị dự đoán và giá trị thực tế.

Thực nghiệm

Nhóm thực hiện chọn lựa thiết bị DR-EX2019-MB2 với IP 10.151.128.32 là máy chủ dự phòng thư điện tử sử dụng hệ điều hành Windows. Loại log được theo dõi là log system.security.

Tổng hợp dữ liệu

Để tiến hành tổng hợp dữ liệu, đầu tiên, nhóm thực hiện kiểm tra tần suất dữ liệu theo hai chu kỳ là 1 giờ và 1 ngày.

Hình dưới biểu diễn tần suất log thiết bị theo chu kỳ 1 giờ:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Biểu diễn tần suất log theo chu kỳ ngày:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Đặc tính của dữ liệu tần suất là càng chia nhỏ chu kỳ dữ liệu thì mức độ biến động sẽ càng tăng cao. Nhóm thực hiện sử dụng chu kỳ giờ để giúp mô hình học được chu kỳ làm việc của thiết bị trong ngày, đồng thời cho phép phát hiện các bất thường nhanh hơn. Dữ liệu sau khi tổng hợp theo chu kỳ giờ như sau:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Chia tập dữ liệu

Nhóm thực hiện sử dụng 80% dữ liệu huấn luyện và 20% dữ liệu kiểm thử.

Lựa chọn mô hình

Nhóm thực hiện sử dụng 2 mô hình là ARIMAX và Prophet, tự động tối ưu tham số. Độ đo là RMSE và MAPE (nhỏ hơn là tốt hơn).

Kết quả

Tiến hành huấn luyện mô hình sử dụng 2 thuật toán trên, sau đó sử dụng mô hình dự đoán số lượng log theo khoảng thời gian và dùng độ đo RMSE và MAPE để đánh giá.

Kết quả dự đoán của mô hình có dạng như sau:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Từ bảng dự đoán trên, thực hiện tính toán kết quả từng mô hình trên tập huấn luyện và kiểm thử:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Từ bảng kết quả trên cho thấy, Prophet cho kết quả tốt hơn khi độ lệch dự đoán nhỏ hơn so với ARIMAX. Nhóm thực hiện khuyến nghị nên sử dụng Prophet cho bài toán phát hiện bất thường sử dụng chuỗi thời gian.

Hình dưới là biểu đồ dữ liệu log thực tế và dự đoán của mô hình Prophet:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Danh sách một số điểm bất thường:

Phân tích logs ứng dụng học máy hỗ trợ giám sát an toàn thông tin ngành Tài nguyên và Môi trường

Kết quả trên chỉ ra các bất thường về tần suất log trên thiết bị DR-EX2019-MB2. Các cảnh báo bất thường sẽ cung cấp những thông tin cụ thể về tên thiết bị, khoảng thời gian cho người quản trị hệ thống phục vụ điều tra chuyên sâu hơn.

Như vậy, ứng dụng học máy trong phân tích logs có thể nhanh chóng tìm ra các thời điểm bất thường trong hệ thống, từ đó giúp người quản trị thu hẹp được phạm vi điều tra để tìm nguyên nhân và cách khắc phục. Sự kết hợp giữa giải pháp mã mở ELK và thành phần phân tích logs ứng dụng học máy đã giúp nâng cao công tác giám sát và cảnh báo an toàn thông tin cho ngành TN&MTvới chi phí triển khai thấp, khả năng mở rộng linh hoạt, đáp ứng được các yêu cầu về giám sát an toàn thông tin theo cấp độ.

BÙI CÔNG THỊNH, NGUYỄN VĂN HIỆU, LÊ HUY TOÀN

Cục Chuyển đổi số và Thông tin dữ liệu tài nguyên môi trường

Nguồn: Tạp chí Tài nguyên và Môi trường số 21 (Kỳ 1 tháng 10) năm 2021

Tin tức liên quan

Thông tin về nạn nhân chất độc da cam trên báo mạng điện tử ở Việt Nam hiện nay
Phục hồi rừng ngập mặn ĐBSCL: Từ nhận diện vòng lặp suy thoái đến thiết kế bảo vệ bờ theo cân bằng bùn cát

Trong bối cảnh xói lở bờ biển và suy thoái rừng ngập mặn ở Đồng bằng sông Cửu Long diễn ra ngày càng nghiêm trọng, công trình nghiên cứu của GS, TS. Thiều Quang Tuấn, Khoa Công trình, Đại học Thủy lợi, đã tiếp cận vấn đề từ gốc rễ thủy động lực - hình thái bờ biển. Thay vì chỉ nhìn nhận xói lở như một hiện tượng mất đất ven biển, nghiên cứu chỉ ra “vòng lặp suy thoái” giữa thiếu hụt bùn cát, hiệu ứng bóp nghẹt ven biển và sự suy giảm môi trường sống của cây ngập mặn; từ đó đề xuất nguyên lý bảo vệ bờ đa cấp độ, lấy khôi phục cân bằng động lực bùn hạt mịn làm trọng tâm.
Thách thức pháp lý của AI trong khung luật Việt Nam hiện đại

Trí tuệ nhân tạo (AI) đang phát triển mạnh mẽ tại Việt Nam, mang lại nhiều tiềm năng đổi mới trong các lĩnh vực quản lý nhà nước, sản xuất công nghiệp, giáo dục và đời sống thường nhật. Song song với các cơ hội, sự lan rộng của AI cũng đặt ra những thách thức pháp lý mới mẻ, vượt ngoài phạm vi điều chỉnh của các quy định pháp luật hiện có. Bài viết này tập trung phân tích một số nguy cơ pháp lý chủ yếu nảy sinh từ việc triển khai AI trong bối cảnh hệ thống pháp luật Việt Nam, từ đó làm rõ các điểm còn thiếu hụt và đề xuất hướng điều chỉnh.
GS, TS. Bùi Chí Bửu: Đưa Tạp chí Nông nghiệp và Môi trường vào Scopus cần lộ trình thực tế và sự đầu tư bài bản

Đóng góp ý kiến về Đề án phát triển Tạp chí Nông nghiệp và Môi trường theo định hướng hội nhập quốc tế, GS, TS. Bùi Chí Bửu, Viện Nghiên cứu Nông nghiệp Công nghệ cao đồng bằng sông Cửu Long nhận định, mục tiêu đưa Tạp chí vào các cơ sở dữ liệu khoa học uy tín như Scopus là một hướng đi đúng đắn, thể hiện quyết tâm nâng tầm vị thế khoa học của ngành Nông nghiệp và Môi trường Việt Nam. Tuy nhiên, để hiện thực hóa mục tiêu này cần một lộ trình phù hợp cùng sự đầu tư đồng bộ về nhân lực, học thuật và cơ chế vận hành.
Bảo vệ lợi ích công trong quản lý tài nguyên và môi trường: Từ chính sách đến thực tiễn

Tóm tắt: Việc Quốc hội ban hành Nghị quyết số 205/2025/QH15 về thí điểm Viện kiểm sát nhân dân khởi kiện vụ án dân sự nhằm bảo vệ nhóm dễ bị tổn thương và lợi ích công được xem là bước tiến quan trọng trong tiến trình hoàn thiện Nhà nước pháp quyền xã hội chủ nghĩa tại Việt Nam. Trong bối cảnh các tranh chấp liên quan đến môi trường, đất đai, tài nguyên, hệ sinh thái và lợi ích cộng đồng ngày càng phức tạp, cơ chế tố tụng công ích không chỉ mang ý nghĩa đổi mới tư pháp mà còn mở ra công cụ quản trị hiện đại nhằm tăng cường bảo vệ lợi ích công cộng, thúc đẩy phát triển bền vững và nâng cao trách nhiệm giải trình trong quản lý nhà nước. Bài viết phân tích cơ sở lý luận, thực tiễn và yêu cầu đặt ra đối với tố tụng công ích trong lĩnh vực tài nguyên và môi trường; đồng thời đánh giá những khó khăn bước đầu trong quá trình triển khai Nghị quyết số 205/2025/QH15, từ đó đề xuất các giải pháp hoàn thiện cơ chế pháp lý theo hướng hiện đại, đồng bộ và phù hợp với yêu cầu quản trị quốc gia trong giai đoạn mới.