Research on intelligent camera systems for human detection at sea to support maritime rescue operations

Nghiên cứu hệ thống camera thông minh phát hiện người trên biển để phục vụ công tác cứu hộ trên biển

Bài báo hướng đến việc nghiên cứu và phát triển một hệ thống camera thông minh có khả năng phát hiện người trên biển trong thời gian thực, nhằm hỗ trợ kịp thời cho công tác tìm kiếm cứu hộ, cứu nạn và nâng cao an toàn hàng hải. Hệ thống được xây dựng dựa trên mô hình YOLOv8 - một thuật toán phát hiện đối tượng tiên tiến, có khả năng cân bằng giữa độ chính xác và tốc độ xử lý.

Ngày nhận bài: 27/10/2025; Ngày sửa bài: 06/11/2025; Ngày chấp nhận đăng: 14/11/2025

http://doi.org/10.64588/jc.01.12.2025

Tóm tắt

Bài báo hướng đến việc nghiên cứu và phát triển một hệ thống camera thông minh có khả năng phát hiện người trên biển trong thời gian thực, nhằm hỗ trợ kịp thời cho công tác tìm kiếm cứu hộ, cứu nạn và nâng cao an toàn hàng hải. Hệ thống được xây dựng dựa trên mô hình YOLOv8 - một thuật toán phát hiện đối tượng tiên tiến, có khả năng cân bằng giữa độ chính xác và tốc độ xử lý. Tập dữ liệu huấn luyện được thu thập từ nhiều bối cảnh biển khác nhau, bao gồm sự thay đổi ánh sáng, sóng biển mạnh và khoảng cách xa. Các kỹ thuật tiền xử lý và tăng cường dữ liệu được áp dụng nhằm tối ưu hiệu quả nhận diện. Thử nghiệm cho thấy hệ thống phát hiện người trên biển với độ chính xác trung bình mAP đạt trên 80% và tốc độ xử lý trên 40 FPS, đáp ứng tốt yêu cầu vận hành thời gian thực. Ngoài ra, hệ thống còn có khả năng giảm thiểu cảnh báo sai nhờ cơ chế lọc nhiễu thông minh. Nghiên cứu khẳng định tính khả thi của việc ứng dụng YOLOv8 vào các hệ thống camera thông minh phục vụ cứu hộ trên biển. Giải pháp này giúp rút ngắn thời gian phản ứng, nâng cao hiệu quả tìm kiếm cứu nạn và có tiềm năng triển khai thực tế trong các trạm giám sát ven biển, tàu cứu hộ và phương tiện không người lái.

Từ khóa: YOLOv8; camera thông minh; cứu hộ.

Abstract

This paper aims to investigate and develop an intelligent camera system capable of real-time human detection at sea to support timely search and rescue operations and enhance maritime safety. The proposed system is built upon the YOLOv8 object detection algorithm, which offers a strong balance between accuracy and processing speed. The training dataset was collected from diverse maritime scenarios, including variations in lighting, strong waves and long distances. Image preprocessing and data augmentation techniques were applied to optimize detection performance. Experimental evaluation demonstrates that the system achieves an average detection accuracy (mAP) above 80% and a processing speed exceeding 40 FPS, meeting real-time operational requirements. Furthermore, the system effectively reduces false alarms through noise filtering mechanisms. The findings confirm the feasibility of applying YOLOv8 in intelligent camera systems for maritime rescue operations. The proposed solution shortens response time, improves search and rescue effectiveness and shows potential for practical deployment in coastal monitoring stations, rescue vessels and unmanned platforms.

Keywords: YOLOv8; intelligent camera thông minh; rescue operations.

1. Đặt vấn đề

Việt Nam là một quốc gia có đường bờ biển dài, các hoạt động vận tải, du lịch và khai thác thủy hải sản diễn ra sôi động quanh năm. Tuy nhiên, đi kèm với đó là nguy cơ xảy ra tai nạn và sự cố trên biển, trong đó nhiều trường hợp con người rơi xuống nước không được phát hiện kịp thời, gây khó khăn cho công tác cứu hộ, cứu nạn. Hiện nay, phần lớn việc quan sát và phát hiện người gặp nạn vẫn phụ thuộc vào nhân lực hoặc thiết bị quan sát truyền thống, vốn bị hạn chế bởi điều kiện thời tiết, ánh sáng và phạm vi quan sát.

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và thị giác máy tính, việc ứng dụng hệ thống camera thông minh có khả năng tự động phát hiện người trên biển được xem là một giải pháp tiềm năng, giúp nâng cao hiệu quả giám sát, rút ngắn thời gian phản ứng và tăng khả năng cứu sống nạn nhân. Nghiên cứu này tập trung xây dựng và thử nghiệm hệ thống camera thông minh tích hợp thuật toán nhận dạng đối tượng hiện đại, nhằm phát hiện nhanh chóng và chính xác sự hiện diện của con người trên mặt biển, hỗ trợ đắc lực cho công tác cứu hộ trên biển.

Trong những năm gần đây, các nghiên cứu ứng dụng thị giác máy tính và trí tuệ nhân tạo trong lĩnh vực an ninh, giám sát và cứu hộ đã đạt được nhiều kết quả đáng chú ý. Trên thế giới, một số công trình đã tập trung vào việc phát hiện con người trong môi trường đặc thù như khu vực ven biển, bể bơi hoặc trên mặt nước [1, 2]. Ví dụ, các thuật toán dựa trên mạng nơ-ron tích chập (CNN) và các mô hình phát hiện đối tượng tiên tiến như YOLO, Faster R-CNN hay SSD đã được triển khai để nhận diện người trong nhiều điều kiện ánh sáng và góc nhìn khác nhau. Kết quả cho thấy các mô hình này có khả năng phát hiện nhanh với độ chính xác cao, tuy nhiên vẫn bị hạn chế khi đối tượng ở khoảng cách xa, bị sóng che khuất hoặc trong điều kiện ánh sáng yếu [3].

Hình 1. Hệ thống camera AI

Tại Việt Nam, các nghiên cứu liên quan chủ yếu tập trung vào ứng dụng AI trong giao thông thông minh, giám sát an ninh đô thị và phân tích hình ảnh y tế. Nghiên cứu trong lĩnh vực phát hiện và giám sát người trên biển vẫn còn khá ít, đa phần mới dừng lại ở mức độ thử nghiệm hoặc mô phỏng trong phòng thí nghiệm. Một số hệ thống camera giám sát bờ biển hiện nay chủ yếu thực hiện chức năng quan sát thủ công, chưa được tích hợp sâu các thuật toán phát hiện và cảnh báo tự động. Từ những kết quả nghiên cứu đã có, có thể thấy việc phát triển một hệ thống camera thông minh ứng dụng AI để phát hiện người trên biển là một hướng nghiên cứu tiềm năng, vừa mang ý nghĩa khoa học, vừa có giá trị thực tiễn cao, góp phần tăng cường hiệu quả và tốc độ của công tác cứu hộ cứu nạn trên biển.

2. Cơ sở lý thuyết

2.1. Mô hình YOLOv8

YOLOv8 là phiên bản cải tiến mới nhất trong họ YOLO, kết hợp nhiều tiến bộ cả về kiến trúc mạng lẫn thuật toán huấn luyện. Về cấu trúc, mô hình bao gồm ba thành phần chính: (i) Backbone, sử dụng kiến trúc lai giữa CNN và Transformer để trích xuất đặc trưng hiệu quả, vừa đảm bảo chi tiết cục bộ vừa nắm bắt được ngữ cảnh toàn cục; (ii) Neck, kết hợp mạng Feature Pyramid Network (FPN) và Path Aggregation Network (PANet) để tăng cường khả năng phát hiện đối tượng đa tỉ lệ; (iii) Head, áp dụng cơ chế phát hiện anchor-free, dự đoán trực tiếp bounding box mà không cần anchor box định sẵn, giúp giảm chi phí tính toán và nâng cao độ chính xác, đặc biệt đối với các đối tượng nhỏ.

Trong quá trình huấn luyện, YOLOv8 sử dụng hàm mất mát tổng hợp từ 3 thành phần chính: sai số định vị (localization loss) tính toán dựa trên các chỉ số IoU/CIoU, sai số độ tin cậy (confidence loss) phản ánh xác suất có đối tượng trong bounding box và sai số phân loại (classification loss) đo bằng cross-entropy. Bên cạnh đó, YOLOv8 còn tích hợp nhiều cơ chế tăng cường như kỹ thuật data augmentation (Mosaic, Mixup, Random Crop), phương pháp gán nhãn động (dynamic label assignment), cũng như các tối ưu hóa suy luận trên thiết bị biên, giúp mô hình đạt được hiệu năng cao trong môi trường thực tế. Nhờ các cải tiến này, YOLOv8 không chỉ duy trì được tốc độ xử lý thời gian thực mà còn nâng cao độ chính xác khi phát hiện các đối tượng nhỏ và khó nhận diện, chẳng hạn như con người trên mặt biển trong điều kiện ánh sáng và môi trường phức tạp.

2.2. Thuật toán Kalma

Kalman Filter là một bộ lọc dự đoán - hiệu chỉnh (predict-update), phù hợp với các hệ thống có trạng thái động lực tuyến tính kèm nhiễu Gaussian.

Predict (Dự đoán): Từ trạng thái trước (vị trí, vận tốc), dự đoán trạng thái tiếp theo.

Update (Hiệu chỉnh): Khi có đo từ camera (bounding box, tọa độ trung tâm), cập nhật lại trạng thái bằng cách cân bằng giữa dự đoán và giá trị đo.

Một đối tượng trên biển có thể biểu diễn bởi vector trạng thái [4]:

 

3. Huấn luyện mô hình

Dữ liệu phục vụ cho huấn luyện mô hình được xây dựng từ 6.502 ảnh tĩnh như trong Hình 2, được trích xuất trực tiếp từ các video ghi lại tình huống người nổi trên biển trong nhiều điều kiện môi trường khác nhau, bao gồm sóng lớn, mưa to và tầm nhìn hạn chế do sương mù. Tập dữ liệu này nhằm phản ánh đa dạng các kịch bản thực tế, qua đó tăng cường khả năng thích ứng và độ tin cậy của mô hình trong ứng dụng thực tiễn.

Hình 2. Các ảnh được xử lý và dán nhãn

Sau khi thu thập, toàn bộ ảnh được tiền xử lý bằng cách chuẩn hóa kích thước về 640×640 pixel theo chuẩn đầu vào của mô hình YOLO, đồng thời lựa chọn ảnh có độ nét cao để đảm bảo chất lượng thông tin đặc trưng. Để phục vụ huấn luyện và đánh giá, tập dữ liệu được chia thành ba phần theo tỷ lệ chuẩn: Training set chiếm 70 - 80% tổng số ảnh để huấn luyện mô hình, validation set chiếm 10 - 15% để tinh chỉnh siêu tham số và test set chiếm 10 - 15% để đánh giá hiệu năng cuối cùng của hệ thống. Công cụ MakeSense.AI được sử dụng trong bước gán nhãn dữ liệu, với mục tiêu tạo bộ nhãn chính xác cho các đối tượng người trên mặt biển, qua đó đảm bảo đầu vào phù hợp cho các thuật toán học sâu. Cách tiếp cận này cho phép xây dựng một tập dữ liệu vừa có tính đại diện cao cho các tình huống thực tế, vừa tuân thủ chuẩn định dạng cần thiết cho việc huấn luyện các mô hình thị giác máy tính tiên tiến như YOLO, từ đó góp phần nâng cao hiệu quả phát hiện và theo dõi người rơi xuống biển trong điều kiện khắc nghiệt.

Trong giai đoạn huấn luyện, mô hình YOLOv8 được cấu hình với các siêu tham số phù hợp, bao gồm kích thước batch, tốc độ học (learning rate), số epoch và thuật toán tối ưu (optimizer). Quá trình huấn luyện được giám sát bằng các chỉ số hiệu năng như hàm mất mát (loss function), độ chính xác trung bình (mAP - mean Average Precision), chỉ số IoU (Intersection over Union) và tốc độ xử lý khung hình (FPS - Frame Per Second). Các kỹ thuật như gán nhãn động (dynamic label assignment) và học đa tỉ lệ (multi-scale training) cũng được sử dụng để cải thiện độ chính xác khi phát hiện người ở khoảng cách xa hoặc trong điều kiện khắc nghiệt.

Cuối cùng, mô hình sau khi huấn luyện được kiểm thử trên tập dữ liệu độc lập, nhằm đánh giá khả năng phát hiện người trên biển trong những tình huống thực tế. Kết quả đánh giá bao gồm cả độ chính xác và tốc độ xử lý, từ đó xác định mức độ phù hợp của YOLOv8 cho việc triển khai trong hệ thống camera thông minh phục vụ công tác cứu hộ cứu nạn.

4. Kết quả và thảo luận

 

Hình 3. Độ tin cậy của mô hình
Hình 4. Kết quả huấn luyện mô hình Yolo8

Hình 3 trên thể hiện mối quan hệ giữa chỉ số F1 và ngưỡng độ tin cậy (confidence threshold) của mô hình. Kết quả cho thấy đường cong F1 đạt giá trị cực đại khoảng 0,90 tại ngưỡng độ tin cậy 0,329. Điều này cho thấy khi mô hình đưa ra dự đoán với mức confidence khoảng 0,33, sự cân bằng giữa precision và recall là tối ưu. Ở vùng confidence thấp (<0,2), F1 tăng dần do recall cao hơn nhưng precision chưa ổn định. Khi confidence tiếp tục tăng (>0,5), F1 bắt đầu giảm nhanh chóng do recall suy giảm mạnh mặc dù precision tăng.

Hình 5. Ma trận nhầm lẫn của mô hình

Kết quả từ ma trận nhầm lẫn trong Hình 4 cho thấy mô hình YOLOv8 đạt hiệu năng phát hiện người trên biển khá tốt. Cụ thể, trong tổng số 282 trường hợp người (human), mô hình dự đoán đúng 262 trường hợp, chỉ nhầm 20 trường hợp thành nền (background), đạt độ nhạy (recall) khoảng 92,9%. Đồng thời, trong 64 trường hợp nền, có 44 trường hợp bị nhận nhầm thành người, dẫn đến độ chính xác (precision) cho lớp “người” đạt khoảng 85,6%. Điều này phản ánh rằng mô hình có khả năng phát hiện con người với độ nhạy cao, tức là ít bỏ sót đối tượng, tuy nhiên vẫn còn tồn tại tỷ lệ dương tính giả (false positive) nhất định, khi các vùng sóng hoặc vật thể nổi có hình dạng tương tự con người bị nhận nhầm.

Quan sát sự trùng khớp giữa đường cong của lớp “human” và giá trị trung bình của tất cả các lớp cũng cho thấy tính nhất quán trong khả năng dự đoán của mô hình, không có sự sai lệch lớn giữa các nhóm dữ liệu. Như vậy, việc lựa chọn ngưỡng confidence khoảng 0,33 là phù hợp để triển khai mô hình trong thực tế, giúp đạt hiệu suất cân bằng tốt nhất giữa khả năng phát hiện và độ chính xác. Kết quả huấn luyện và đánh giá mô hình được thể hiện qua các đồ thị suy giảm hàm mất mát và cải thiện độ chính xác theo số epoch. Cụ thể, các thành phần train/box_loss, train/cls_loss và train/dfl_loss đều có xu hướng giảm ổn định theo số vòng lặp, cho thấy mô hình dần học được đặc trưng hình dạng và phân loại chính xác hơn. Xu hướng tương tự cũng được quan sát ở tập kiểm tra (val/box_loss, val/cls_loss, val/dfl_loss), phản ánh tính khái quát tốt và không có dấu hiệu quá khớp (overfitting) đáng kể. Về hiệu năng, các chỉ số đánh giá chất lượng mô hình cho thấy kết quả khả quan. Độ chính xác (metrics/precision) và khả năng phát hiện đối tượng (metrics/recall) đều tăng nhanh trong giai đoạn đầu và đạt giá trị ổn định trên mức 0,9 sau khoảng 60 epoch, chứng tỏ mô hình có khả năng nhận diện đối tượng với độ tin cậy cao. Đồng thời, chỉ số mAP50(B) nhanh chóng đạt trên 0,8, trong khi mAP50-95(B) tăng đều đặn và tiến gần 0,4, phản ánh khả năng phát hiện đối tượng ở nhiều ngưỡng IoU khác nhau.

Kết quả trên cho thấy YOLOv8 có tiềm năng lớn trong việc ứng dụng vào hệ thống camera cứu hộ trên biển, bởi việc hạn chế bỏ sót người là yếu tố quan trọng hàng đầu trong công tác cứu nạn. Tuy nhiên, tỷ lệ phát hiện nhầm vẫn cần được cải thiện, có thể thông qua việc mở rộng tập dữ liệu huấn luyện với nhiều mẫu ảnh trong điều kiện môi trường biển đa dạng hơn (sóng lớn, ánh sáng yếu, nhiều vật thể gây nhiễu) hoặc kết hợp thêm các cảm biến phụ trợ như camera hồng ngoại. Nhìn chung, kết quả thử nghiệm bước đầu khẳng định tính khả thi của việc ứng dụng YOLOv8 vào bài toán phát hiện người trên biển trong thời gian thực.

5. Thử nghiệm mô hình

  Hình 6. Các đối tượng được phát hiện trên biển
Hình 7. Các đối tượng được phát hiện trên biển

Kết quả thử nghiệm hệ thống camera thông minh phát hiện người trên biển, minh họa tại Hình 5, cho thấy mô hình có thể nhận diện mục tiêu qua các khung hình liên tiếp với độ tin cậy dao động từ 0,3 đến 0,8.

Điều này chứng tỏ hệ thống có thể phát hiện người trong môi trường biển phức tạp, tuy nhiên độ tin cậy chưa cao và chưa ổn định giữa các khung hình. Nguyên nhân chủ yếu là do ảnh hưởng của nhiễu nền từ sóng, bọt biển và sự thay đổi ánh sáng, khiến đối tượng có kích thước nhỏ dễ bị hòa lẫn với môi trường xung quanh. Mặc dù vậy, việc hệ thống duy trì được phát hiện liên tục qua nhiều khung hình cho thấy tính khả thi trong việc hỗ trợ công tác cứu hộ, bởi khả năng bám theo mục tiêu trong thời gian thực là yếu tố quan trọng. Tuy nhiên, vẫn còn tồn tại các hạn chế như khả năng nhận dạng nhầm (false positive) khi sóng biển có hình dạng tương đồng với người, cũng như độ tin cậy thấp ở một số trường hợp (confidence ~0,3 - 0,4).

Thuật toán trong phần mềm còn có chức năng tracking cho phép nhận diện và theo dấu vị trí của người bị nạn trong thời gian thực, đồng thời ước lượng tốc độ trôi và khoảng cách thay đổi giữa họ với tàu chủ. Nhờ đó, thuyền trưởng và thủy thủ đoàn có được thông tin kịp thời để lựa chọn phương án tiếp cận tối ưu, giảm nguy cơ mất dấu và rút ngắn thời gian phản ứng. Bên cạnh đó, việc kết hợp dữ liệu môi trường như hướng gió, sóng và dòng chảy giúp dự đoán xu hướng trôi dạt chính xác hơn, tạo cơ sở cho kế hoạch cứu hộ an toàn và hiệu quả.

Hình 6 minh họa trình bày kết quả của mô-đun phát hiện và theo dõi đối tượng áp dụng trên môi trường biển. Ba đối tượng được phát hiện và duy trì theo dõi thông qua cơ chế gán ID duy nhất: Đối tượng ID:1 có độ tin cậy 0,76, được ước lượng tại khoảng cách 194,29 m và tốc độ dịch chuyển trung bình 1,10 m/s; đối tượng ID:2 đạt độ tin cậy 0,67, ở khoảng cách 202,99 m với tốc độ 0,90 m/s; đối tượng ID:3 có độ tin cậy 0,51, cách hệ thống 226,67 m, di chuyển với tốc độ 1,20 m/s.

Khoảng cách từ hệ thống đến đối tượng được tính toán dựa trên mô hình camera pinhole, trong đó kích thước thực của đối tượng (chiều cao trung bình của con người) được sử dụng làm tham số chuẩn để quy đổi từ kích thước pixel sang đơn vị mét. Quá trình hiệu chuẩn camera (camera calibration) được thực hiện trước đó nhằm giảm sai số nội tại và xác định chính xác các tham số tiêu cự (focal length) và hệ số biến dạng. Vận tốc được ước lượng bằng cách theo dõi tâm hình chữ nhật bao quanh đối tượng (bounding box centroid) trên chuỗi khung hình liên tiếp, sau đó tính toán quãng đường di chuyển trong không gian thực chia cho khoảng thời gian giữa các khung (frame interval). Cách tiếp cận này cho phép hệ thống trích xuất thông tin động học theo thời gian thực mà không cần đến các cảm biến phụ trợ như GPS hoặc IMU, đồng thời đảm bảo tính ứng dụng trong điều kiện giám sát ngoài khơi, nơi việc triển khai thiết bị bổ sung gặp nhiều hạn chế. Kết quả thu được chứng minh khả năng của mô hình trong việc xử lý nền phức tạp (mặt nước) và cung cấp dữ liệu định lượng phục vụ giám sát an toàn, cảnh báo sớm, cũng như hỗ trợ các nghiên cứu hành vi di chuyển trong môi trường biển.

6. Kết luận

Bài báo đã trình bày nghiên cứu và xây dựng hệ thống camera thông minh ứng dụng trí tuệ nhân tạo nhằm phát hiện người trên biển, phục vụ công tác cứu hộ, cứu nạn. Thông qua việc kết hợp thuật toán thị giác máy tính với mô hình học sâu, hệ thống có khả năng nhận diện mục tiêu trong môi trường phức tạp, điều kiện ánh sáng thay đổi và sóng biển dao động. Kết quả thử nghiệm bước đầu cho thấy độ chính xác phát hiện đạt mức khả quan, thời gian xử lý đáp ứng được yêu cầu hoạt động trong tình huống thực tế. Hệ thống đề xuất không chỉ góp phần nâng cao hiệu quả và tốc độ phản ứng trong công tác tìm kiếm cứu nạn trên biển, mà còn có tiềm năng mở rộng để tích hợp vào các nền tảng giám sát an ninh hàng hải, tàu thuyền thông minh hoặc thiết bị bay không người lái. Tuy nhiên, để hệ thống vận hành ổn định trong môi trường biển khắc nghiệt cần tiếp tục nghiên cứu tối ưu hóa thuật toán nhận diện trong điều kiện thời tiết xấu, tăng cường khả năng xử lý thời gian thực và tích hợp với các cảm biến khác như radar, hồng ngoại. Trong tương lai, việc ứng dụng hệ thống camera thông minh phát hiện người trên biển hứa hẹn sẽ là giải pháp công nghệ quan trọng, góp phần giảm thiểu rủi ro và nâng cao hiệu quả công tác cứu hộ, cứu nạn hàng hải.

TÀI LIỆU THAM KHẢO

[1]. Ang, K. H., Chong, G., & Li, Y. (2005), PID control system analysis, design and technology, IEEE Transactions on Control Systems Technology, 13(4), 559-576.
[2]. Shibao Li, Chen Li, Zhaoyu Wang & Jianhang Liu (2024), A scale-invariant approach to maritime search and rescue object detection using preprocessing and attention scaling.
[3]. An Analysis of Deep Object Detectors for Diver Detection (2020), Karin de Langis, Michael Fulton & Junaed Sattar, Nghiên cứu này đánh giá các kiến trúc CNN như SSD, Faster R-CNN và YOLO trong việc phát hiện thợ lặn (diver) dưới nước, cho thấy SSD hoặc Tiny-YOLOv4 phù hợp cho các ứng dụng thời gian thực trên robot.
[4]. Y. Bar-Shalom, X. Li - Estimation and Tracking: Principles, Techniques and Software.

Bình luận
 Công ty Cổ phần Xây dựng Giao thông Bắc Giang Ban Quản lý dự án các công trình giao thông Đồng Tháp Ban Quản lý dự án đầu tư xây dựng công trình giao thông Quảng Trị Trung tâm Đào tạo và sát hạch lái xe Quảng Trị Trường Cao đẳng Công nghệ Hà Tĩnh Công ty CP Sao Băng Việt Nam Công ty TNHH Đầu tư - Xây dựng Nguyên Cát Tổng công ty Xây dựng số 1 Công ty Xe đạp Thống Nhất