CÁC BỘ DỮ LIỆU HÌNH ẢNH NHA KHOA CÔNG KHAI PHỤC VỤ TRÍ TUỆ NHÂN TẠO
Sự phát triển của trí tuệ nhân tạo (NTC AI) trong nha khoa phụ thuộc mạnh mẽ vào việc tiếp cận các bộ dữ liệu hình ảnh nha khoa công khai với kích thước lớn và chú thích chính xác. Tuy nhiên, mức độ sẵn có của các dữ liệu hình ảnh nha khoa công khai vẫn còn hạn chế và thiếu nhất quán. Nghiên cứu tổng hợp 16 bộ dữ liệu hình ảnh nha khoa công khai từ 2020–2023, phân tích tuân thủ FAIR và tiềm năng ứng dụng AI trong chẩn đoán răng hàm mặt.
Nghiên cứu này cung cấp tổng quan toàn diện về các bộ dữ liệu hình ảnh nha khoa công khai từ năm 2020 đến 2023, đồng thời mở rộng tìm kiếm đến năm 2011 thông qua cơ sở dữ liệu PubMed. Các nguồn dữ liệu được truy xuất bao gồm: Kaggle, GitHub, Google Datasets, Mendeley, PubMed, Zenodo, Grand-Challenge, OSF, và arXiv. Tổng cộng, 131.028 bản ghi đã được sàng lọc, với 16 bộ dữ liệu duy nhất đủ điều kiện được phân tích.
Trong số đó:
- 62,5% tập trung vào phân đoạn răng
- 56,2% gán nhãn dữ liệu
- 58,8% sử dụng phim toàn cảnh
Trung Quốc là quốc gia đóng góp nhiều hình ảnh nhất với 2.413 ảnh. Tuy nhiên, chỉ có 31,2% dữ liệu có phê duyệt đạo đức và 56,25% không cung cấp giấy phép sử dụng rõ ràng. 75% bộ dữ liệu có chứa chú thích, nhưng phương pháp thiết lập kiểm định thường không minh bạch.
Đánh giá theo nguyên tắc FAIR cho thấy:
- Ảnh X-quang trong miệng có khả năng tìm kiếm cao nhất
- Dữ liệu CBCT có điểm số thấp nhất ở tất cả tiêu chí
Việc công bố và chuẩn hóa dữ liệu hình ảnh nha khoa cho AI hiện còn hạn chế, với nhiều bất cập về siêu dữ liệu (metadata) và giấy phép. Để hỗ trợ phát triển AI nha khoa hiệu quả, cần khẩn trương:
- Tăng cường tính đa dạng dữ liệu
- Bắt buộc cung cấp siêu dữ liệu đầy đủ
- Tuân thủ nghiêm ngặt nguyên tắc FAIR
- Khuyến khích chia sẻ dữ liệu công khai
Từ khóa: NTC AI, dữ liệu hình ảnh nha khoa, trí tuệ nhân tạo trong nha khoa, dữ liệu lớn y tế, học sâu, siêu dữ liệu y học, chẩn đoán hình ảnh kỹ thuật số, FAIR data trong AI
Giới thiệu
Trí tuệ nhân tạo trong nha khoa (NTC AI) đang nổi lên như một công nghệ đột phá với tiềm năng chuyển đổi toàn diện trong chẩn đoán và điều trị răng hàm mặt . Tuy nhiên, hiệu quả thực sự của AI trong lâm sàng phụ thuộc chặt chẽ vào các bộ dữ liệu hình ảnh nha khoa chất lượng cao, có chú thích đầy đủ và quy mô lớn.
Dữ liệu là nền tảng của trí tuệ nhân tạo nha khoa
- Kích thước, chất lượng và tính đa dạng của dữ liệu là các yếu tố then chốt giúp AI hoạt động chính xác và đáng tin cậy trong các nhiệm vụ như học máy, kiểm định và đánh giá hiệu suất (benchmarking) (Mongan & Halabi, 2023).
- Tuy nhiên, việc xây dựng và quản lý các bộ dữ liệu AI nha khoa hiện nay vẫn còn nhiều thách thức, bao gồm yêu cầu chuyên môn cao, bảo mật thông tin bệnh nhân và quản lý dữ liệu y tế nhạy cảm.
So sánh với các lĩnh vực y học khác: Nha khoa vẫn đang bị bỏ ngỏ
Trong khi các chuyên ngành như nhãn khoa đã có hàng triệu hình ảnh y khoa công khai sẵn sàng phục vụ nghiên cứu AI (Khan và cộng sự, 2021), thì ngành nha khoa vẫn chưa có hệ thống dữ liệu đồng bộ và vẫn thiếu các bộ dữ liệu công khai chuyên biệt cho chẩn đoán hình ảnh nha khoa (Mongan & Halabi, 2023).
Các nghiên cứu đã cho thấy:
- Sự chênh lệch về đại diện địa lý trong dữ liệu y khoa công khai (Celi và cộng sự, 2022)
- Thiên lệch thuật toán AI làm trầm trọng thêm bất bình đẳng y tế, do mất cân bằng trong quy trình xây dựng và lựa chọn dữ liệu (Arora và cộng sự, 2023)
Giới hạn trong nghiên cứu hiện tại và cơ hội cải tiến
- Các nghiên cứu meta trong nha khoa chủ yếu tập trung vào đánh giá hiệu suất AI trên các bộ dữ liệu được chọn lọc, thay vì khảo sát và đánh giá chất lượng của chính dữ liệu huấn luyện (Sengupta và cộng sự, 2022).
- Phần lớn các nghiên cứu chỉ khai thác cơ sở dữ liệu học thuật, chưa đáp ứng được yêu cầu về dữ liệu AI hiện đại:
- Khả năng tìm kiếm
- Khả năng truy cập
- Khả năng tương tác
- Khả năng tái sử dụng theo chuẩn FAIR (Wilkinson và cộng sự, 2016).
Hiện nay, chỉ có chưa đến 2% các nghiên cứu nha khoa chia sẻ bộ dữ liệu ở định dạng có thể xử lý bằng máy (Uribe et al., 2022). Điều này gây ra rào cản lớn trong việc phát triển các mô hình AI nha khoa có độ chính xác cao. Do đó, việc khai thác các nguồn dữ liệu hình ảnh nha khoa công khai và thay thế, đảm bảo tính sẵn có, độ tin cậy và sẵn sàng cho AI, là vô cùng cấp thiết.
Việc triển khai trí tuệ nhân tạo trong nha khoa hiện vẫn bị hạn chế bởi khó khăn trong tiếp cận các dữ liệu hình ảnh lâm sàng quy mô lớn, vốn phần lớn được lưu trữ nội bộ tại các cơ sở y tế (Schwendicke & Krois, 2022). Trong khi đó, việc đánh giá đặc điểm và chất lượng của các bộ dữ liệu hình ảnh nha khoa là bước quan trọng để đảm bảo hiệu quả huấn luyện, kiểm định và chuẩn hóa mô hình trí tuệ nhân tạo.
Mặc dù chẩn đoán hình ảnh đã là trọng tâm phát triển AI trong nhiều chuyên ngành y học nhờ dữ liệu phong phú, thì trong lĩnh vực nha khoa, vẫn còn thiếu thông tin toàn diện về mức độ sẵn có, chất lượng và tính khả dụng của bộ dữ liệu công khai.
Mục tiêu chính của nghiên cứu là:
- Xác định và mô tả các bộ dữ liệu hình ảnh nha khoa được sử dụng trong phát triển và huấn luyện AI;
- Đánh giá chất lượng dữ liệu từ góc nhìn kỹ thuật và máy học;
- Xây dựng thư mục trung tâm tổng hợp thông tin về nguồn dữ liệu, khả năng truy cập, đặc điểm dân số, bệnh lý và loại hình ảnh.
Nghiên cứu này không chỉ góp phần thúc đẩy ứng dụng AI trong nha khoa, mà còn hướng đến cải thiện kết quả điều trị lâm sàng và nâng cao năng lực nghiên cứu trong ngành răng hàm mặt.
Phương Pháp Nghiên Cứu
Thiết kế và đăng ký nghiên cứu
Đây là một nghiên cứu quan sát tuân thủ theo hướng dẫn STROBE (Strengthening the Reporting of Observational Studies in Epidemiology). Nghiên cứu đã được đăng ký trên nền tảng Open Science Framework (OSF) vào ngày 6 tháng 9 năm 2022 (DOI: 10.17605/OSF.IO/HUZ72) và được thực hiện như một phần của Sáng kiến Toàn cầu về AI trong Y tế (AI for Health) do WHO/ITU/WIPO tổ chức.
Trong bối cảnh trí tuệ nhân tạo (NTC AI) ngày càng đóng vai trò quan trọng trong chẩn đoán và điều trị nha khoa, việc xây dựng và đặc trưng hóa các bộ dữ liệu hình ảnh nha khoa công khai trở nên thiết yếu. Mục tiêu của nghiên cứu này là xác định và phân tích các bộ dữ liệu đến từ nhiều khu vực địa lý khác nhau, nhằm hỗ trợ phát triển và ứng dụng AI nha khoa một cách toàn cầu.
Nghiên cứu không giới hạn về ngôn ngữ, dân số bệnh nhân hay loại hình chẩn đoán hình ảnh, bao gồm cả hình ảnh lâm sàng và X-quang liên quan đến răng hàm mặt.
Nguồn Dữ Liệu Dành Cho Ứng Dụng Trí Tuệ Nhân Tạo Trong Nha Khoa
Các nguồn dữ liệu AI nha khoa được lựa chọn từ nhiều hệ thống uy tín và nền tảng cộng tác học thuật, bao gồm:
- Google Datasets
- OpenDataLab CN
- Zenodo
- Mendeley
- figshare
- OSF
- arXiv
- IEEE
- medRxiv
- GitHub
- Kaggle
- Grand Challenge
Nghiên cứu tập trung vào các bộ dữ liệu và bài báo được công bố từ năm 2020 đến 2023. Bên cạnh đó, cũng tiến hành tìm kiếm có mục tiêu trên PubMed với các nghiên cứu AI nha khoa từ năm 2011 đến tháng 1 năm 2024 — nhằm mở rộng phạm vi truy xuất dữ liệu tiềm năng (chi tiết tại Phụ lục Bảng 1).
Chiến Lược Tìm Kiếm Bộ Dữ Liệu Hình Ảnh Nha Khoa
Để đảm bảo toàn diện, nhóm nghiên cứu đã triển khai chiến lược tìm kiếm bộ dữ liệu trên nhiều nền tảng khác nhau, tập trung vào:
- Ảnh nội soi trong miệng
- Phim X-quang cận chóp
- Phim retroalveolar
- Phim cánh cắn
- Ảnh CBCT
- Phim sọ nghiêng
- Hình ảnh ngoài miệng
Các từ khóa và thuật ngữ MeSH liên quan đến nha khoa, NTC AI được sử dụng để mở rộng phạm vi truy xuất dữ liệu phù hợp.
Chiến lược này được thiết kế và thực hiện bởi một nhóm gồm 4 nhà nghiên cứu, trong đó có tác giả chính. Sáu nhà nghiên cứu đã thực hiện tìm kiếm trùng lặp độc lập, trước khi được tổng rà soát bởi tác giả chính. Chi tiết cụ thể được trình bày trong Phụ lục Bảng 2.
Tiêu Chí Lựa Chọn Và Loại Trừ Bộ Dữ Liệu AI Nha Khoa
✅ Tiêu chí đưa vào nghiên cứu:
- Có thể truy cập công khai hoặc thông qua đăng ký.
- Chứa tối thiểu 50 hình ảnh nha khoa hoặc hàm mặt, bao gồm ảnh lâm sàng hoặc X-quang.
- Có hoặc không có chú thích.
- Không giới hạn ngôn ngữ, khu vực địa lý, loại ảnh hay nhân khẩu học của bệnh nhân.
❌ Tiêu chí loại trừ:
- Dưới 50 hình ảnh.
- Không liên quan đến nha khoa hoặc vùng hàm mặt.
- Chỉ chứa dữ liệu dạng văn bản hoặc số liệu.
- Chỉ truy cập được “khi có yêu cầu” — vì các nghiên cứu cho thấy tỷ lệ phản hồi từ tác giả trong trường hợp này là rất thấp (Gabelica và cộng sự, 2022).
Hai nhà nghiên cứu đã đánh giá độc lập từng bộ dữ liệu tiềm năng. Những bộ dữ liệu có sự đồng thuận sẽ được đưa vào, trong khi các trường hợp bất đồng sẽ do nhà nghiên cứu thứ ba (S.E.U.) giải quyết.
Cỡ mẫu nghiên cứu
Trong nghiên cứu này, chúng tôi dự kiến sử dụng toàn bộ hồ sơ thu thập được từ quá trình tìm kiếm dữ liệu, với điều kiện các hồ sơ đáp ứng đầy đủ tiêu chí lựa chọn đã xác định trước. Việc sử dụng toàn diện các bộ dữ liệu có liên quan giúp tăng độ bao phủ và tính đại diện cho phân tích tổng hợp.
Quy trình trích xuất dữ liệu chuẩn hóa
Đào tạo đánh giá viên
Ba buổi đào tạo trực tuyến đã được tổ chức nhằm đảm bảo tính nhất quán trong trích xuất dữ liệu giữa các nhà nghiên cứu. Nội dung đào tạo tập trung vào:
- Cách sử dụng biểu mẫu trích xuất dữ liệu,
- Định nghĩa các yếu tố cần thu thập,
- Xử lý sai khác tiềm ẩn giữa các đánh giá viên.
Trước khi tiến hành trích xuất chính thức, các nhà đánh giá đã thực hành trên bộ dữ liệu mẫu.
Các biến được trích xuất
Sáu nhà nghiên cứu tiến hành trích xuất dữ liệu, mỗi bộ được đánh giá độc lập bởi hai người, đảm bảo tính khách quan. Dữ liệu được thu thập qua biểu mẫu Zoho Survey tùy chỉnh, bao gồm:
- Đặc điểm bộ dữ liệu: năm công bố, chủ đề nghiên cứu, quốc gia, thời gian thu thập, và các ấn phẩm liên quan (DOI).
- Nguồn hình ảnh: mục đích thu thập, loại hình ảnh, thiết bị chụp.
- Thông tin bản quyền và xử lý ảnh: giấy phép sử dụng, quyền sở hữu trí tuệ, khả năng chia sẻ hợp pháp.
- Yếu tố đạo đức: sự phê duyệt của hội đồng đạo đức, tiêu chí chọn/loại trừ bệnh nhân, quy trình xin chấp thuận.
- Thông tin bệnh nhân: số lượng hình ảnh và bệnh nhân liên quan.
- Chú thích ảnh: gồm phân đoạn và nhãn , đóng vai trò quan trọng trong phát triển thuật toán AI chẩn đoán nha khoa.
- Thông tin người chú thích: kinh nghiệm chuyên môn, phương pháp hiệu chỉnh, và xử lý bất đồng giữa các chú thích viên.
- Dữ liệu nhân khẩu học: tỷ lệ giới tính và sắc tộc (nếu có).
- Lĩnh vực quan tâm: như bệnh lý miệng, sâu răng v.v., theo định nghĩa tại giao thức nghiên cứu OSF (10.17605/OSF.IO/HUZ72).
Trong các trường hợp có sự mâu thuẫn về dữ liệu, chúng tôi coi kho lưu trữ dữ liệu là nguồn thông tin chính xác và ưu tiên. Bộ tiêu chí trích xuất dữ liệu chi tiết được trình bày tại Phụ lục – Bảng 3.
Đánh giá chất lượng dữ liệu theo nguyên tắc FAIR
Mỗi bộ dữ liệu được đánh giá theo nguyên tắc FAIR (Wilkinson et al., 2016), đảm bảo dữ liệu:
- Có thể tìm kiếm : có định danh duy nhất và bền vững (ví dụ: DOI).
- Có thể truy cập : sử dụng giao thức truy xuất chuẩn.
- Có thể tương tác : dùng ngôn ngữ, định dạng và từ vựng chuẩn hóa.
- Có thể tái sử dụng : cung cấp siêu dữ liệu đầy đủ cho nhiều mục đích.
Chúng tôi áp dụng 41 tiêu chí đánh giá FAIRsFAIR v0.5 (Devaraju & Huber, 2021) dựa trên phương pháp luận của Uribe et al. (2022).
Giảm thiểu thiên lệch trong nghiên cứu
Nhằm hạn chế thiên lệch tiềm ẩn:
- Mỗi bộ dữ liệu được đánh giá độc lập lặp lại.
- Một nhà đánh giá thứ ba sẽ tham gia giải quyết các bất đồng.
- Việc trích xuất được thực hiện từ nhiều vị trí địa lý khác nhau (Latvia, Ấn Độ, Chile, Iran, Ba Lan, Trung Quốc, Ai Cập, Canada và Úc), hạn chế ảnh hưởng của các rào cản về quyền sở hữu trí tuệ và truy cập dữ liệu.
Bảng 1. Đặc điểm các bộ dữ liệu hình ảnh nha khoa cho ứng dụng trí tuệ nhân tạo
Tên bộ dữ liệu | Cơ sở dữ liệu | Đường dẫn bộ dữ liệu | Năm | Lĩnh vực chính của bộ dữ liệu / nghiên cứu | Quốc gia | DOI bài báo liên quan | Nguồn thu thập hình ảnh | Mục đích thu thập hình ảnh |
DENTEX Panoramic | Zenodo | zenodo.org/records/7812323 | 2023 | Phẫu thuật miệng | Thụy Sĩ | 10.48550/arXiv.2305.19112; 10.48550/arXiv.2303.06500 | Phòng khám nha khoa | Chẩn đoán nha khoa |
CTooth dataset | arXiv / Kaggle | kaggle.com/datasets/weiweicui/ctooth-dataset | 2022 | Phân đoạn và gán nhãn răng | Trung Quốc | 10.1007/978-3-031-17027-0_7 | Phòng khám nha khoa | Chẩn đoán, nghiên cứu |
Panoramic Dental X-rays With Segmented Mandibles | Mendeley | data.mendeley.com/datasets/hxt48yk462/2 | 2020 | Phân đoạn và gán nhãn răng | Iran | 10.1117/1.JMI.2.4.044003 | Phòng khám nha khoa | Chẩn đoán, nghiên cứu |
Dental radiography | Kaggle | kaggle.com/datasets/imtkaggleteam/dentalradiography | 2023 | Phân đoạn và gán nhãn răng | Iran | — | Phòng khám nha khoa | Chẩn đoán, nghiên cứu |
Panoramic-Caries-Segmentation | GitHub | github.com/Zzz512/MLUA | 2023 | Sâu răng | Trung Quốc | 10.1016/j.neucom.2023.03.069 | Không mô tả | Không mô tả |
TK_Tooth_Number_Code | GitHub | github.com/tanjidakabir/TK_Tooth_Number_Code | 2022 | Phân đoạn và gán nhãn răng | Không mô tả | — | Không mô tả | Không mô tả |
CL Detection | Grand Challenge | cl-detection2023.grand-challenge.org | 2023 | Mốc sọ (Cephalometric) | Đài Loan | — | Phòng khám nha khoa | Đánh giá hiệu suất |
Tufts Panoramic Dataset | PubMed | tdd.ece.tufts.edu | 2021 | Sâu răng, bệnh lý miệng, nội nha, phân đoạn răng | Hoa Kỳ | 10.1109/JBHI.2021.3117575 | Phòng khám nha khoa đại học | Khảo sát chẩn đoán |
3DTeethSeg22_challenge / ToothFairy / Teeth3DS | OSF | osf.io/xctdy/ | 2022 | Phân đoạn và gán nhãn răng | Pháp, Bỉ | 10.48550/arXiv.2210.06094 | Phòng khám nha khoa | Chẩn đoán |
v7labs | Google Datasets | v7labs.com/open-datasets/panoramic-dental | 2023 | Phân đoạn và gán nhãn răng | Hoa Kỳ | — | Phòng khám nha khoa | Chẩn đoán, nghiên cứu |
tooth-marked-tongue | Kaggle | kaggle.com/datasets/clearhanhui/biyesheji | 2022 | Bệnh lý miệng | Trung Quốc | 10.3390/diagnostics12102451 | Trường học | Chẩn đoán |
Oral Cancer (Lips and Tongue) images | Kaggle | kaggle.com/datasets/shivam17299/oral-cancer-lips-and-tongue-images | 2022 | Bệnh lý miệng | Ấn Độ | — | Bệnh viện | Chẩn đoán bệnh lý miệng |
Pulp Exposure | PubMed | figshare.23930368.v1 | 2023 | Sâu răng, nội nha | Ả Rập Xê Út, Tây Ban Nha, Hàn Quốc | 10.1186/s12903-023-03251-0 | Phòng khám nha khoa, trường nha khoa | Không mô tả |
Panoramic-Paraguay | Zenodo | zenodo.org/records/4457648 | 2021 | Phân đoạn và gán nhãn răng | Paraguay | 10.3390/s21093110 | Trường nha khoa | Không mô tả |
Panoramic Dental X-ray Dataset | Mendeley | data.mendeley.com/datasets/73n3kz2k4k/2 | 2023 | Phân đoạn và gán nhãn răng | Tunisia | 10.1007/s11042-023-17568-z | Phòng khám nha khoa | Chẩn đoán, nghiên cứu |
PhysioNet Multimodal | Google Datasets | physionet.org/content/multimodal-dental-dataset/1.0.0/ | 2022 | Phân đoạn và gán nhãn răng | Trung Quốc | 10.13026/s5z3-2766 | Phòng khám nha khoa | Chẩn đoán, nghiên cứu |
Phân tích Tổng hợp Bộ Dữ liệu Hình ảnh Nha khoa: Phân bố, Đặc điểm và Tuân thủ Chuẩn FAIR
Trong thời đại dữ liệu lớn và trí tuệ nhân tạo NTC AI, việc khai thác hiệu quả các bộ dữ liệu hình ảnh nha khoa đóng vai trò then chốt trong phát triển chẩn đoán và điều trị kỹ thuật số. Nghiên cứu này sử dụng phần mềm R phiên bản 4.1.2 để phân tích toàn diện 16 bộ dữ liệu hình ảnh nha khoa công khai, với mục tiêu xác định phân bố, đặc điểm mô tả, chất lượng chú thích và mức độ tuân thủ các nguyên tắc FAIR (Findable, Accessible, Interoperable, Reusable).
Tóm tắt Kết quả Chính
- 131.028 hồ sơ được rà soát từ nhiều nguồn, sau sàng lọc còn 121 hồ sơ, và cuối cùng chọn lọc 16 bộ dữ liệu duy nhất.
- Nguồn phổ biến nhất: Kaggle (18,8%), tiếp theo là GitHub, Google Datasets, Mendeley, PubMed và Zenodo (mỗi nguồn 12,5%).
- Tăng trưởng theo năm: Bộ dữ liệu tăng dần qua các năm (2020–2023), cho thấy xu hướng mở rộng kho dữ liệu nha khoa.
Đặc điểm Bộ Dữ liệu
- Mối liên hệ với nghiên cứu khoa học: 68,8% bộ dữ liệu có liên kết với công bố khoa học.
- Lĩnh vực chính:
- Phân đoạn răng/tổn thương: 62,5%
- Gán nhãn dữ liệu: 56,2%
- Phương thức hình ảnh phổ biến:
- Phim toàn cảnh: 58,8%
- CBCT và ảnh nội soi: 11,8%
- Cephalometric, quét 3D, phim cận chóp: 5,9%
- Số lượng hình ảnh trung bình:
- Toàn cảnh: 595 ± 790
- Nội soi: 252 ± 241
- CBCT: 278 ± 156
- Quét 3D & nội soi: 945 ± 731
Đóng góp Dữ liệu Theo Quốc Gia
Các quốc gia có số lượng ảnh đóng góp lớn nhất gồm:
- Trung Quốc: 2.413 ảnh
- Thụy Sĩ: 2.332
- Bỉ, Pháp: 1.800 mỗi nước
- Iran: 1.504
- Hoa Kỳ: 1.117
- Và các nước khác như Đài Loan, Tunisia, Paraguay, Ấn Độ, Ả Rập Xê Út, Hàn Quốc, Tây Ban Nha.
Chất Lượng Báo Cáo & Chú Thích Dữ Liệu
- 75% có chú thích ảnh
- 68,8% có công bố mô tả quy trình xử lý ảnh
- 62,5% báo cáo thông tin phân đoạn giải phẫu
- Tuy nhiên, nhiều bộ dữ liệu thiếu thông tin đạo đức và nhân khẩu học:
- 31,2% có phê duyệt đạo đức
- 18,8% nêu rõ giới tính bệnh nhân
- 43,8% có chiến lược ẩn danh hóa
- 31,2% công bố tiêu chí chọn mẫu
Siêu Dữ Liệu và Tính Tuân Thủ FAIR
- Thông tin người chú thích:
- Có ở 53,8% bộ dữ liệu
- 18,8% có hiệu chỉnh giữa các người chú thích
- 16,7% mô tả cách xử lý bất đồng
- 5,9% xác nhận sự đồng thuận từ bệnh nhân
- Giấy phép sử dụng dữ liệu:
- 56,3% không nêu rõ
- Loại phổ biến: CC BY-NC 4.0, CC BY-SA 4.0, CC BY 4.0
- 1 bộ theo giấy phép hạn chế từ PhysioNet
Xác Định KIỂM ĐỊNH
- Chuyên gia quyết định: 3 bộ
- Bỏ phiếu đa số: 2 bộ
- Không xác định rõ: 3 bộ
- Không mô tả: 8 bộ
=> Khoảng trống lớn trong việc chuẩn hóa phương pháp gán nhãn dữ liệu và tiêu chuẩn đánh giá.
Kết Luận
Việc phân tích tổng hợp này cho thấy tiềm năng lớn trong khai thác dữ liệu hình ảnh nha khoa công khai, đồng thời nhấn mạnh những thiếu sót quan trọng về chất lượng siêu dữ liệu, tính minh bạch đạo đức và giấy phép sử dụng. Để nâng cao giá trị tái sử dụng, các bộ dữ liệu trong tương lai cần tuân thủ tốt hơn các nguyên tắc FAIR, đặc biệt trong chú thích và công bố thông tin minh bạch.
Tổng Quan Về Các Bộ Dữ Liệu Hình Ảnh Nha Khoa: Đa Dạng Chú Thích và Tuân Thủ FAIR
1. Loại Chú Thích Trong Các Bộ Dữ Liệu Nha Khoa
Hiện tại có nhiều bộ dữ liệu hình ảnh nha khoa công khai với các loại chú thích khác nhau:
- Chú thích cấp điểm ảnh : 6 bộ
- Chú thích nhãn : 6 bộ
- Chú thích dạng hộp : 2 bộ
Các chú thích này hỗ trợ hiệu quả cho các ứng dụng trí tuệ nhân tạo (NTC AI) như nhận diện cấu trúc, phân đoạn và gán nhãn hình ảnh nha khoa.
2. Đặc Điểm Và Mục Tiêu Các Bộ Dữ Liệu
Các bộ dữ liệu được thiết kế với mục tiêu cụ thể:
- Grand Challenge: Tăng độ chính xác trong xác định mốc sọ
- Tongue Dataset: Tập trung vào cấu trúc lưỡi
- DENTEX: Gồm 23.999 răng được chú thích, phục vụ cuộc thi 3DTeethSeg 2022
Ngoài ra, có một bộ dữ liệu bổ sung đáng chú ý là Panoramic Dental X-rays With Segmented Mandibles với 232 ảnh toàn cảnh có phân đoạn xương hàm dưới ở mức điểm ảnh.
3. Bộ Dữ Liệu Đa Phương Thức Trong Nha Khoa
Một bộ dữ liệu đa phương thức toàn diện nhất hiện nay bao gồm:
- 389 ảnh CBCT
- 12 ảnh toàn cảnh
- 240 ảnh nội soi trong miệng (tái tạo từ CBCT)
Tổng cộng 389 bệnh nhân, phản ánh sự đa dạng về nguồn và phương thức chẩn đoán.
4. Nguồn Gốc Và Mục Đích Dữ Liệu
Nguồn dữ liệu:
- Phòng khám nha khoa: 62,5%
- Trường đại học: 18,75%
- Bệnh viện: 6,25%
- Trường học: 6,25%
- Không rõ nguồn: 12,5%
Mục đích thu thập:
- Chẩn đoán nha khoa: 50%
- Nghiên cứu: 31,25%
- Đánh giá chuẩn (benchmarking): 6,25%
- Khảo sát chẩn đoán và bệnh lý miệng: 12,5%
5. Đánh Giá Theo Nguyên Tắc FAIR
Chất lượng dữ liệu được đánh giá dựa trên FAIR (Findability, Accessibility, Interoperability, Reusability):
Loại ảnh | Điểm FAIR | Mức độ |
Ảnh toàn cảnh | 75 | Nâng cao |
CBCT | 64 | Nâng cao |
Ảnh nội soi trong miệng | 75 | Trung bình |
Ảnh chụp nội soi | 60 | Trung bình |
Phim sọ nghiêng | 27 | Thấp |
Quét 3D trong miệng | 41 | Thấp |
6. Thảo Luận: Thách Thức Và Tiềm Năng
Nghiên cứu đã xác định 16 bộ dữ liệu công khai với tổng cộng 10.450 hình ảnh, đến từ 13 quốc gia (44,6% dân số toàn cầu). Tuy nhiên, châu Phi và châu Đại Dương vẫn là hai khu vực thiếu vắng dữ liệu.
So sánh với ngành y học, số lượng dữ liệu nha khoa còn hạn chế (10.450 ảnh so với 62 triệu ảnh y khoa từ 11 triệu bệnh nhân).
Lĩnh vực y học miệng đặc biệt thiếu dữ liệu, ví dụ chỉ có 1 bộ dữ liệu liên quan đến ung thư miệng được ghi nhận gần đây.
7. Nhận Định Và Khuyến Nghị
- Ảnh toàn cảnh vẫn là phương thức phổ biến nhất nhờ khả năng chẩn đoán rộng và dễ tiếp cận.
- Phân đoạn giải phẫu là trọng tâm trong các loại chú thích hiện có.
- Cần mở rộng chú thích liên kết với dữ liệu lâm sàng và dữ liệu omic, để nâng cao năng lực AI trong:
- Phát hiện bệnh
- Gán nhãn hình ảnh
- Phân đoạn tự động
Tương lai của NTC AI trong chẩn đoán nha khoa: Vai trò của dữ liệu hình ảnh và đa phương thức
1. Vấn đề hiện tại: Hạn chế của dữ liệu hình ảnh trong AI y tế
Trong nhiều nghiên cứu hiện tại, ảnh chẩn đoán nha khoa thường được sử dụng đồng thời cho mục đích huấn luyện và kiểm định. Tuy nhiên, trong thực hành lâm sàng, hình ảnh chẩn đoán thường đi kèm với thông tin lâm sàng và được xác thực bằng các xét nghiệm tham chiếu, ví dụ như xét nghiệm cận lâm sàng.
Điều này tạo nên khoảng cách giữa dữ liệu huấn luyện AI và thực tế lâm sàng. Để khắc phục, cần tích hợp nhãn chéo giữa dữ liệu hình ảnh và dữ liệu lâm sàng/xét nghiệm. Nhờ đó, AI có thể học được các đặc điểm bệnh lý mà con người khó nhận biết, từ đó cải thiện độ chính xác chẩn đoán và lập kế hoạch điều trị nha khoa.
2. Xu hướng tương lai: Học máy đa phương thức
Để nâng cao hiệu quả của AI trong lĩnh vực nha khoa, các nghiên cứu nên hướng đến xây dựng bộ dữ liệu đa phương thức — kết hợp ảnh nội soi, ảnh CBCT và quét 3D từ cùng một bệnh nhân. Theo nghiên cứu mới đây (Liu et al., 2023), học máy đa phương thức giúp mô hình hóa chính xác hơn bằng cách khai thác đồng thời nhiều loại dữ liệu.
3. Đánh giá dữ liệu công khai hiện tại trong nha khoa AI
a. Phân tích theo nguyên tắc FAIR
- Ảnh X-quang trong miệng là dữ liệu dễ truy cập nhất.
- Dữ liệu CBCT có điểm thấp nhất về khả năng tìm kiếm, truy cập, và tái sử dụng.
- Khoảng 62,5% bộ dữ liệu có mức độ tuân thủ FAIR từ trung bình đến cao, tốt hơn so với các nghiên cứu trước.
b. Hạn chế chính
- Thiếu giấy phép rõ ràng gây mơ hồ về quyền sử dụng.
- Thiếu nhất quán trong xác định ground truth, ảnh hưởng đến tính minh bạch và độ tin cậy của mô hình.
- Vấn đề truy cập dữ liệu quy mô lớn: do rào cản pháp lý, chi phí, độ trễ và chất lượng.
4. Kiến nghị cải thiện chất lượng dữ liệu AI nha khoa
- Xây dựng kho dữ liệu tập trung, chuẩn FAIR.
- Đa dạng hóa dữ liệu (về nguồn gốc, thiết bị, đối tượng).
- Chuẩn hóa siêu dữ liệu qua mô hình như Data Cards (Pushkarna et al., 2022).
- Khuyến khích chia sẻ dữ liệu qua chính sách tạp chí.
- Tự động bổ sung siêu dữ liệu bằng các định dạng như Croissant Format (Benjelloun et al., 2024).
5. Các sáng kiến nổi bật toàn cầu
- Medical AI Data for All (MAIDA) – 2024
- Sáng kiến toàn cầu về AI trong y tế (GI-AI4H) – Tổ chức Y tế Thế giới, 2023
Những chương trình này nhấn mạnh việc chia sẻ, chuẩn hóa và sử dụng dữ liệu có trách nhiệm để thúc đẩy sức khỏe răng miệng toàn cầu thông qua công nghệ AI.
6. Hạn chế của nghiên cứu
- Chỉ khảo sát dữ liệu công khai, có thể bỏ sót dữ liệu giới hạn quyền truy cập.
- Không đánh giá chất lượng nội tại của bộ dữ liệu.
- Cần cập nhật định kỳ để đảm bảo độ chính xác.
7. Kết luận
Đây là nghiên cứu đầu tiên đánh giá toàn diện bộ dữ liệu hình ảnh nha khoa phục vụ cho phát triển AI. Các phát hiện cho thấy sự thiếu hụt dữ liệu công khai và thiếu nhất quán trong báo cáo siêu dữ liệu. Để phát triển công cụ AI đáng tin cậy, cần:
- Tăng cường đa dạng dữ liệu
- Bổ sung đầy đủ siêu dữ liệu
- Đảm bảo tuân thủ nguyên tắc FAIR
Tài liệu tham khảo
- Arora A, Alderman JE, Palmer J, Ganapathi S, Laws E, McCradden MD, Oakden-Rayner L, Pfohl SR, Ghassemi M, McKay F, và cộng sự. 2023. Giá trị của các tiêu chuẩn dành cho bộ dữ liệu y tế trong các ứng dụng dựa trên trí tuệ nhân tạo. Nature Medicine, 29(11):2929–2938.
- Benjelloun O, Simperl E, Marcenac P, Ruyssen P, Conforti C, Kuchnik M, van der Velde J, Oala L, Vogler S, Akthar M, và cộng sự. 2024. Đặc tả định dạng Croissant. Trang Croissant; [truy cập ngày 7 tháng 3 năm 2024]. https://mlcommons.github.io/croissant/docs/croissant-spec.html
- Celi LA, Cellini J, Charpignon M-L, Dee EC, Dernoncourt F, Eber R, Mitchell WG, Moukheiber L, Schirmer J, Situ J, và cộng sự. 2022. Nguồn gốc của thiên lệch trong trí tuệ nhân tạo duy trì bất bình đẳng y tế – một tổng quan toàn cầu. PLOS Digital Health, 1(3):e0000022.
- Chrimes D, Kim C. 2022. Tổng quan các bộ dữ liệu lớn y tế công khai hiện có. Trong: Hội nghị Quốc tế IEEE về Dữ liệu Lớn 2022 (Big Data). IEEE, tr. 6625–6627.
- Devaraju A, Huber R. 2021. Giải pháp tự động đo lường tiến độ hướng đến dữ liệu nghiên cứu FAIR. Patterns (New York), 2(11):100370.
- Dumitrache A, Inel O, Timmermans B, Ortiz C, Sips R-J, Aroyo L, Welty C. 2021. Phương pháp thực nghiệm cho việc huy động đám đông trong xác định ground truth. Semantic Web, 12(3):403–421.
- Gabelica M, Bojčić R, Puljak L. 2022. Nhiều nhà nghiên cứu không tuân thủ tuyên bố chia sẻ dữ liệu đã công bố: một nghiên cứu phương pháp hỗn hợp. Journal of Clinical Epidemiology, 150:33–41. doi:10.1016/j.jclinepi.2022.05.019
- Khan SM, Liu X, Nath S, Korot E, Faes L, Wagner SK, Keane PA, Sebire NJ, Burton MJ, Denniston AK. 2021. Tổng quan toàn cầu về các bộ dữ liệu hình ảnh nhãn khoa công khai: các rào cản về truy cập, khả năng sử dụng và tổng quát hóa. Lancet Digital Health, 3(1):e51–e66.
- Liu J, Hao J, Lin H, Pan W, Yang J, Feng Y, Wang G, Li J, Jin Z, Zhao Z, và cộng sự. 2023. Hợp nhất 3D đa phương thức với deep learning từ CBCT và quét lưới nội soi để tái tạo răng–xương ứng dụng lâm sàng. Patterns (New York), 4(9):100825.
- Ma J, Schneider L, Lapuschkin S, Achtibat R, Duchrau M, Krois J, Schwendicke F, Samek W. 2022. Hướng đến trí tuệ nhân tạo đáng tin cậy trong nha khoa. Journal of Dental Research, 101(11):1263–1268.
- Mongan J, Halabi SS. 2023. Về vai trò trung tâm của dữ liệu: các nguồn dữ liệu trong trí tuệ nhân tạo ngành chẩn đoán hình ảnh. Radiology: Artificial Intelligence, 5(5):e230231.
- Pushkarna M, Zaldivar A, Kjartansson O. 2022. Data Cards: Tài liệu hóa bộ dữ liệu một cách có mục đích và minh bạch cho AI có trách nhiệm. Trong: Hội nghị ACM về Công bằng, Trách nhiệm và Minh bạch (FAccT ‘22); 21–24 tháng 6, 2022; Seoul, Hàn Quốc. New York (NY): ACM. tr. 1776–1826.
- R Core Team. 2021. R: ngôn ngữ và môi trường tính toán thống kê. Vienna (Áo): Quỹ Tính toán Thống kê R [truy cập ngày 26 tháng 2 năm 2024]. http://www.R-project.org/
- Saenz A, Chen E, Marklund H, Rajpurkar P. 2024. Sáng kiến MAIDA: Thiết lập khung chia sẻ dữ liệu hình ảnh y tế toàn cầu. Lancet Digital Health, 6(1):e6–e8.
- Schwendicke F, Krois J. 2022. Nha khoa dữ liệu: cách dữ liệu đang thay đổi chăm sóc lâm sàng và nghiên cứu. Journal of Dental Research, 101(1):21–29.
- Schwendicke F, Marazita ML, Jakubovics NS, Krois J. 2022. Dữ liệu lớn và phân tích dữ liệu phức tạp: làm lung lay quy trình phản biện khoa học? Journal of Dental Research, 101(4):369–370.
- Schwendicke F, Samek W, Krois J. 2020. Trí tuệ nhân tạo trong nha khoa: cơ hội và thách thức. Journal of Dental Research, 99(7):769–774.
- Sengupta N, Sarode SC, Sarode GS, Ghone U. 2022. Sự khan hiếm bộ dữ liệu hình ảnh ung thư miệng công khai phục vụ nghiên cứu học máy. Oral Oncology, 126:105737.
- Sylolypavan A, Sleeman D, Wu H, Sim M. 2023. Tác động của chú thích không nhất quán từ con người đối với ra quyết định lâm sàng dựa trên AI. NPJ Digital Medicine, 6(1):26.
- Uribe SE, Sofi-Mahmudi A, Raittio E, Maldupa I, Vilne B. 2022. Tính sẵn có và chất lượng dữ liệu nghiên cứu nha khoa theo nguyên tắc FAIR. Journal of Dental Research, 101(11):1307–1313.
- Venkatesh K, Santomartino SM, Sulam J, Yi PH. 2022. Thực hành chia sẻ mã nguồn và dữ liệu trong tài liệu nghiên cứu trí tuệ nhân tạo ngành chẩn đoán hình ảnh: một nghiên cứu meta. Radiology: Artificial Intelligence, 4(5):e220081.
- Wilkinson MD, Dumontier M, Aalbersberg IJJ, Appleton G, Axton M, Baak A, Blomberg N, Boiten J-W, da Silva Santos LB, Bourne PE, và cộng sự. 2016. Nguyên tắc FAIR hướng dẫn quản lý và lưu trữ dữ liệu khoa học. Scientific Data, 3:160018.
- World Health Organization. 2023. Sáng kiến toàn cầu về AI trong y tế [truy cập ngày 27 tháng 2 năm 2024]. https://www.who.int/initiatives/global-initiative-on-ai-for-health
Ekip Bs Nam NTC