CÁC BỘ DỮ LIỆU HÌNH ẢNH NHA KHOA CÔNG KHAI PHỤC VỤ TRÍ TUỆ NHÂN TẠO

Sự phát triển của trí tuệ nhân tạo (NTC AI) trong nha khoa phụ thuộc mạnh mẽ vào việc tiếp cận các bộ dữ liệu hình ảnh nha khoa công khai với kích thước lớn và chú thích chính xác. Tuy nhiên, mức độ sẵn có của các dữ liệu hình ảnh nha khoa công khai vẫn còn hạn chế và thiếu nhất quán. Nghiên cứu tổng hợp 16 bộ dữ liệu hình ảnh nha khoa công khai từ 2020–2023, phân tích tuân thủ FAIR và tiềm năng ứng dụng AI trong chẩn đoán răng hàm mặt.

Nghiên cứu này cung cấp tổng quan toàn diện về các bộ dữ liệu hình ảnh nha khoa công khai từ năm 2020 đến 2023, đồng thời mở rộng tìm kiếm đến năm 2011 thông qua cơ sở dữ liệu PubMed. Các nguồn dữ liệu được truy xuất bao gồm: Kaggle, GitHub, Google Datasets, Mendeley, PubMed, Zenodo, Grand-Challenge, OSF, và arXiv. Tổng cộng, 131.028 bản ghi đã được sàng lọc, với 16 bộ dữ liệu duy nhất đủ điều kiện được phân tích.

Trong số đó:

  • 62,5% tập trung vào phân đoạn răng
  • 56,2% gán nhãn dữ liệu
  • 58,8% sử dụng phim toàn cảnh 

Trung Quốc là quốc gia đóng góp nhiều hình ảnh nhất với 2.413 ảnh. Tuy nhiên, chỉ có 31,2% dữ liệu có phê duyệt đạo đức và 56,25% không cung cấp giấy phép sử dụng rõ ràng. 75% bộ dữ liệu có chứa chú thích, nhưng phương pháp thiết lập kiểm định thường không minh bạch.

Đánh giá theo nguyên tắc FAIR cho thấy:

  • Ảnh X-quang trong miệng có khả năng tìm kiếm cao nhất
  • Dữ liệu CBCT có điểm số thấp nhất ở tất cả tiêu chí 

Việc công bố và chuẩn hóa dữ liệu hình ảnh nha khoa cho AI hiện còn hạn chế, với nhiều bất cập về siêu dữ liệu (metadata) và giấy phép. Để hỗ trợ phát triển AI nha khoa hiệu quả, cần khẩn trương:

  • Tăng cường tính đa dạng dữ liệu
  • Bắt buộc cung cấp siêu dữ liệu đầy đủ
  • Tuân thủ nghiêm ngặt nguyên tắc FAIR
  • Khuyến khích chia sẻ dữ liệu công khai

Từ khóa: NTC AI, dữ liệu hình ảnh nha khoa, trí tuệ nhân tạo trong nha khoa, dữ liệu lớn y tế, học sâu, siêu dữ liệu y học, chẩn đoán hình ảnh kỹ thuật số, FAIR data trong AI

Giới thiệu

Trí tuệ nhân tạo trong nha khoa (NTC AI) đang nổi lên như một công nghệ đột phá với tiềm năng chuyển đổi toàn diện trong chẩn đoán và điều trị răng hàm mặt . Tuy nhiên, hiệu quả thực sự của AI trong lâm sàng phụ thuộc chặt chẽ vào các bộ dữ liệu hình ảnh nha khoa chất lượng cao, có chú thích đầy đủ và quy mô lớn.

Dữ liệu là nền tảng của trí tuệ nhân tạo nha khoa

  • Kích thước, chất lượng và tính đa dạng của dữ liệu là các yếu tố then chốt giúp AI hoạt động chính xác và đáng tin cậy trong các nhiệm vụ như học máy, kiểm định và đánh giá hiệu suất (benchmarking) (Mongan & Halabi, 2023).
  • Tuy nhiên, việc xây dựng và quản lý các bộ dữ liệu AI nha khoa hiện nay vẫn còn nhiều thách thức, bao gồm yêu cầu chuyên môn cao, bảo mật thông tin bệnh nhân và quản lý dữ liệu y tế nhạy cảm.

So sánh với các lĩnh vực y học khác: Nha khoa vẫn đang bị bỏ ngỏ

Trong khi các chuyên ngành như nhãn khoa đã có hàng triệu hình ảnh y khoa công khai sẵn sàng phục vụ nghiên cứu AI (Khan và cộng sự, 2021), thì ngành nha khoa vẫn chưa có hệ thống dữ liệu đồng bộ và vẫn thiếu các bộ dữ liệu công khai chuyên biệt cho chẩn đoán hình ảnh nha khoa (Mongan & Halabi, 2023).

Các nghiên cứu đã cho thấy:

  • Sự chênh lệch về đại diện địa lý trong dữ liệu y khoa công khai (Celi và cộng sự, 2022)
  • Thiên lệch thuật toán AI làm trầm trọng thêm bất bình đẳng y tế, do mất cân bằng trong quy trình xây dựng và lựa chọn dữ liệu (Arora và cộng sự, 2023)

Giới hạn trong nghiên cứu hiện tại và cơ hội cải tiến

  • Các nghiên cứu meta trong nha khoa chủ yếu tập trung vào đánh giá hiệu suất AI trên các bộ dữ liệu được chọn lọc, thay vì khảo sát và đánh giá chất lượng của chính dữ liệu huấn luyện (Sengupta và cộng sự, 2022).
  • Phần lớn các nghiên cứu chỉ khai thác cơ sở dữ liệu học thuật, chưa đáp ứng được yêu cầu về dữ liệu AI hiện đại:
    • Khả năng tìm kiếm 
    • Khả năng truy cập 
    • Khả năng tương tác 
    • Khả năng tái sử dụng theo chuẩn FAIR (Wilkinson và cộng sự, 2016).

Hiện nay, chỉ có chưa đến 2% các nghiên cứu nha khoa chia sẻ bộ dữ liệu ở định dạng có thể xử lý bằng máy (Uribe et al., 2022). Điều này gây ra rào cản lớn trong việc phát triển các mô hình AI nha khoa có độ chính xác cao. Do đó, việc khai thác các nguồn dữ liệu hình ảnh nha khoa công khai và thay thế, đảm bảo tính sẵn có, độ tin cậy và sẵn sàng cho AI, là vô cùng cấp thiết.

Việc triển khai trí tuệ nhân tạo trong nha khoa hiện vẫn bị hạn chế bởi khó khăn trong tiếp cận các dữ liệu hình ảnh lâm sàng quy mô lớn, vốn phần lớn được lưu trữ nội bộ tại các cơ sở y tế (Schwendicke & Krois, 2022). Trong khi đó, việc đánh giá đặc điểm và chất lượng của các bộ dữ liệu hình ảnh nha khoa là bước quan trọng để đảm bảo hiệu quả huấn luyện, kiểm định và chuẩn hóa mô hình trí tuệ nhân tạo.

Mặc dù chẩn đoán hình ảnh đã là trọng tâm phát triển AI trong nhiều chuyên ngành y học nhờ dữ liệu phong phú, thì trong lĩnh vực nha khoa, vẫn còn thiếu thông tin toàn diện về mức độ sẵn có, chất lượng và tính khả dụng của bộ dữ liệu công khai.

Mục tiêu chính của nghiên cứu là:

  • Xác định và mô tả các bộ dữ liệu hình ảnh nha khoa được sử dụng trong phát triển và huấn luyện AI;
  • Đánh giá chất lượng dữ liệu từ góc nhìn kỹ thuật và máy học;
  • Xây dựng thư mục trung tâm tổng hợp thông tin về nguồn dữ liệu, khả năng truy cập, đặc điểm dân số, bệnh lý và loại hình ảnh.

Nghiên cứu này không chỉ góp phần thúc đẩy ứng dụng AI trong nha khoa, mà còn hướng đến cải thiện kết quả điều trị lâm sàng và nâng cao năng lực nghiên cứu trong ngành răng hàm mặt.

Phương Pháp Nghiên Cứu

Thiết kế và đăng ký nghiên cứu

Đây là một nghiên cứu quan sát tuân thủ theo hướng dẫn STROBE (Strengthening the Reporting of Observational Studies in Epidemiology). Nghiên cứu đã được đăng ký trên nền tảng Open Science Framework (OSF) vào ngày 6 tháng 9 năm 2022 (DOI: 10.17605/OSF.IO/HUZ72) và được thực hiện như một phần của Sáng kiến Toàn cầu về AI trong Y tế (AI for Health) do WHO/ITU/WIPO tổ chức.

Trong bối cảnh trí tuệ nhân tạo (NTC AI) ngày càng đóng vai trò quan trọng trong chẩn đoán và điều trị nha khoa, việc xây dựng và đặc trưng hóa các bộ dữ liệu hình ảnh nha khoa công khai trở nên thiết yếu. Mục tiêu của nghiên cứu này là xác định và phân tích các bộ dữ liệu đến từ nhiều khu vực địa lý khác nhau, nhằm hỗ trợ phát triển và ứng dụng AI nha khoa một cách toàn cầu.

Nghiên cứu không giới hạn về ngôn ngữ, dân số bệnh nhân hay loại hình chẩn đoán hình ảnh, bao gồm cả hình ảnh lâm sàng và X-quang liên quan đến răng hàm mặt.

Nguồn Dữ Liệu Dành Cho Ứng Dụng Trí Tuệ Nhân Tạo Trong Nha Khoa

Các nguồn dữ liệu AI nha khoa được lựa chọn từ nhiều hệ thống uy tín và nền tảng cộng tác học thuật, bao gồm:

  • Google Datasets
  • OpenDataLab CN
  • Zenodo
  • Mendeley
  • figshare
  • OSF
  • arXiv
  • IEEE
  • medRxiv
  • GitHub
  • Kaggle
  • Grand Challenge

Nghiên cứu tập trung vào các bộ dữ liệu và bài báo được công bố từ năm 2020 đến 2023. Bên cạnh đó, cũng tiến hành tìm kiếm có mục tiêu trên PubMed với các nghiên cứu AI nha khoa từ năm 2011 đến tháng 1 năm 2024 — nhằm mở rộng phạm vi truy xuất dữ liệu tiềm năng (chi tiết tại Phụ lục Bảng 1).

Chiến Lược Tìm Kiếm Bộ Dữ Liệu Hình Ảnh Nha Khoa

Để đảm bảo toàn diện, nhóm nghiên cứu đã triển khai chiến lược tìm kiếm bộ dữ liệu trên nhiều nền tảng khác nhau, tập trung vào:

  • Ảnh nội soi trong miệng
  • Phim X-quang cận chóp
  • Phim retroalveolar
  • Phim cánh cắn
  • Ảnh CBCT
  • Phim sọ nghiêng 
  • Hình ảnh ngoài miệng

Các từ khóa và thuật ngữ MeSH liên quan đến nha khoa, NTC AI được sử dụng để mở rộng phạm vi truy xuất dữ liệu phù hợp.

Chiến lược này được thiết kế và thực hiện bởi một nhóm gồm 4 nhà nghiên cứu, trong đó có tác giả chính. Sáu nhà nghiên cứu đã thực hiện tìm kiếm trùng lặp độc lập, trước khi được tổng rà soát bởi tác giả chính. Chi tiết cụ thể được trình bày trong Phụ lục Bảng 2.

Tiêu Chí Lựa Chọn Và Loại Trừ Bộ Dữ Liệu AI Nha Khoa

✅ Tiêu chí đưa vào nghiên cứu:

  • Có thể truy cập công khai hoặc thông qua đăng ký.
  • Chứa tối thiểu 50 hình ảnh nha khoa hoặc hàm mặt, bao gồm ảnh lâm sàng hoặc X-quang.
  • Có hoặc không có chú thích.
  • Không giới hạn ngôn ngữ, khu vực địa lý, loại ảnh hay nhân khẩu học của bệnh nhân.

❌ Tiêu chí loại trừ:

  • Dưới 50 hình ảnh.
  • Không liên quan đến nha khoa hoặc vùng hàm mặt.
  • Chỉ chứa dữ liệu dạng văn bản hoặc số liệu.
  • Chỉ truy cập được “khi có yêu cầu” — vì các nghiên cứu cho thấy tỷ lệ phản hồi từ tác giả trong trường hợp này là rất thấp (Gabelica và cộng sự, 2022).

Hai nhà nghiên cứu đã đánh giá độc lập từng bộ dữ liệu tiềm năng. Những bộ dữ liệu có sự đồng thuận sẽ được đưa vào, trong khi các trường hợp bất đồng sẽ do nhà nghiên cứu thứ ba (S.E.U.) giải quyết.

Cỡ mẫu nghiên cứu

Trong nghiên cứu này, chúng tôi dự kiến sử dụng toàn bộ hồ sơ thu thập được từ quá trình tìm kiếm dữ liệu, với điều kiện các hồ sơ đáp ứng đầy đủ tiêu chí lựa chọn đã xác định trước. Việc sử dụng toàn diện các bộ dữ liệu có liên quan giúp tăng độ bao phủ và tính đại diện cho phân tích tổng hợp.

Quy trình trích xuất dữ liệu chuẩn hóa

Đào tạo đánh giá viên

Ba buổi đào tạo trực tuyến đã được tổ chức nhằm đảm bảo tính nhất quán trong trích xuất dữ liệu giữa các nhà nghiên cứu. Nội dung đào tạo tập trung vào:

  • Cách sử dụng biểu mẫu trích xuất dữ liệu,
  • Định nghĩa các yếu tố cần thu thập,
  • Xử lý sai khác tiềm ẩn giữa các đánh giá viên.

Trước khi tiến hành trích xuất chính thức, các nhà đánh giá đã thực hành trên bộ dữ liệu mẫu.

Các biến được trích xuất

Sáu nhà nghiên cứu tiến hành trích xuất dữ liệu, mỗi bộ được đánh giá độc lập bởi hai người, đảm bảo tính khách quan. Dữ liệu được thu thập qua biểu mẫu Zoho Survey tùy chỉnh, bao gồm:

  • Đặc điểm bộ dữ liệu: năm công bố, chủ đề nghiên cứu, quốc gia, thời gian thu thập, và các ấn phẩm liên quan (DOI).
  • Nguồn hình ảnh: mục đích thu thập, loại hình ảnh, thiết bị chụp.
  • Thông tin bản quyền và xử lý ảnh: giấy phép sử dụng, quyền sở hữu trí tuệ, khả năng chia sẻ hợp pháp.
  • Yếu tố đạo đức: sự phê duyệt của hội đồng đạo đức, tiêu chí chọn/loại trừ bệnh nhân, quy trình xin chấp thuận.
  • Thông tin bệnh nhân: số lượng hình ảnh và bệnh nhân liên quan.
  • Chú thích ảnh: gồm phân đoạn  và nhãn , đóng vai trò quan trọng trong phát triển thuật toán AI chẩn đoán nha khoa.
  • Thông tin người chú thích: kinh nghiệm chuyên môn, phương pháp hiệu chỉnh, và xử lý bất đồng giữa các chú thích viên.
  • Dữ liệu nhân khẩu học: tỷ lệ giới tính và sắc tộc (nếu có).
  • Lĩnh vực quan tâm: như bệnh lý miệng, sâu răng v.v., theo định nghĩa tại giao thức nghiên cứu OSF (10.17605/OSF.IO/HUZ72).

Trong các trường hợp có sự mâu thuẫn về dữ liệu, chúng tôi coi kho lưu trữ dữ liệu là nguồn thông tin chính xác và ưu tiên. Bộ tiêu chí trích xuất dữ liệu chi tiết được trình bày tại Phụ lục – Bảng 3.

Đánh giá chất lượng dữ liệu theo nguyên tắc FAIR

Mỗi bộ dữ liệu được đánh giá theo nguyên tắc FAIR (Wilkinson et al., 2016), đảm bảo dữ liệu:

  • Có thể tìm kiếm : có định danh duy nhất và bền vững (ví dụ: DOI).
  • Có thể truy cập : sử dụng giao thức truy xuất chuẩn.
  • Có thể tương tác : dùng ngôn ngữ, định dạng và từ vựng chuẩn hóa.
  • Có thể tái sử dụng : cung cấp siêu dữ liệu đầy đủ cho nhiều mục đích.

Chúng tôi áp dụng 41 tiêu chí đánh giá FAIRsFAIR v0.5 (Devaraju & Huber, 2021) dựa trên phương pháp luận của Uribe et al. (2022).

Giảm thiểu thiên lệch trong nghiên cứu

Nhằm hạn chế thiên lệch tiềm ẩn:

  • Mỗi bộ dữ liệu được đánh giá độc lập lặp lại.
  • Một nhà đánh giá thứ ba sẽ tham gia giải quyết các bất đồng.
  • Việc trích xuất được thực hiện từ nhiều vị trí địa lý khác nhau (Latvia, Ấn Độ, Chile, Iran, Ba Lan, Trung Quốc, Ai Cập, Canada và Úc), hạn chế ảnh hưởng của các rào cản về quyền sở hữu trí tuệ và truy cập dữ liệu.

Bảng 1. Đặc điểm các bộ dữ liệu hình ảnh nha khoa cho ứng dụng trí tuệ nhân tạo

Tên bộ dữ liệuCơ sở dữ liệuĐường dẫn bộ dữ liệuNămLĩnh vực chính của bộ dữ liệu / nghiên cứuQuốc giaDOI bài báo liên quanNguồn thu thập hình ảnhMục đích thu thập hình ảnh
DENTEX PanoramicZenodozenodo.org/records/78123232023Phẫu thuật miệngThụy Sĩ10.48550/arXiv.2305.19112; 10.48550/arXiv.2303.06500Phòng khám nha khoaChẩn đoán nha khoa
CTooth datasetarXiv / Kagglekaggle.com/datasets/weiweicui/ctooth-dataset2022Phân đoạn và gán nhãn răngTrung Quốc10.1007/978-3-031-17027-0_7Phòng khám nha khoaChẩn đoán, nghiên cứu
Panoramic Dental X-rays With Segmented MandiblesMendeleydata.mendeley.com/datasets/hxt48yk462/22020Phân đoạn và gán nhãn răngIran10.1117/1.JMI.2.4.044003Phòng khám nha khoaChẩn đoán, nghiên cứu
Dental radiographyKagglekaggle.com/datasets/imtkaggleteam/dentalradiography2023Phân đoạn và gán nhãn răngIranPhòng khám nha khoaChẩn đoán, nghiên cứu
Panoramic-Caries-SegmentationGitHubgithub.com/Zzz512/MLUA2023Sâu răngTrung Quốc10.1016/j.neucom.2023.03.069Không mô tảKhông mô tả
TK_Tooth_Number_CodeGitHubgithub.com/tanjidakabir/TK_Tooth_Number_Code2022Phân đoạn và gán nhãn răngKhông mô tảKhông mô tảKhông mô tả
CL DetectionGrand Challengecl-detection2023.grand-challenge.org2023Mốc sọ (Cephalometric)Đài LoanPhòng khám nha khoaĐánh giá hiệu suất
Tufts Panoramic DatasetPubMedtdd.ece.tufts.edu2021Sâu răng, bệnh lý miệng, nội nha, phân đoạn răngHoa Kỳ10.1109/JBHI.2021.3117575Phòng khám nha khoa đại họcKhảo sát chẩn đoán
3DTeethSeg22_challenge / ToothFairy / Teeth3DSOSFosf.io/xctdy/2022Phân đoạn và gán nhãn răngPháp, Bỉ10.48550/arXiv.2210.06094Phòng khám nha khoaChẩn đoán
v7labsGoogle Datasetsv7labs.com/open-datasets/panoramic-dental2023Phân đoạn và gán nhãn răngHoa KỳPhòng khám nha khoaChẩn đoán, nghiên cứu
tooth-marked-tongueKagglekaggle.com/datasets/clearhanhui/biyesheji2022Bệnh lý miệngTrung Quốc10.3390/diagnostics12102451Trường họcChẩn đoán
Oral Cancer (Lips and Tongue) imagesKagglekaggle.com/datasets/shivam17299/oral-cancer-lips-and-tongue-images2022Bệnh lý miệngẤn ĐộBệnh việnChẩn đoán bệnh lý miệng
Pulp ExposurePubMedfigshare.23930368.v12023Sâu răng, nội nhaẢ Rập Xê Út, Tây Ban Nha, Hàn Quốc10.1186/s12903-023-03251-0Phòng khám nha khoa, trường nha khoaKhông mô tả
Panoramic-ParaguayZenodozenodo.org/records/44576482021Phân đoạn và gán nhãn răngParaguay10.3390/s21093110Trường nha khoaKhông mô tả
Panoramic Dental X-ray DatasetMendeleydata.mendeley.com/datasets/73n3kz2k4k/22023Phân đoạn và gán nhãn răngTunisia10.1007/s11042-023-17568-zPhòng khám nha khoaChẩn đoán, nghiên cứu
PhysioNet MultimodalGoogle Datasetsphysionet.org/content/multimodal-dental-dataset/1.0.0/2022Phân đoạn và gán nhãn răngTrung Quốc10.13026/s5z3-2766Phòng khám nha khoaChẩn đoán, nghiên cứu

Phân tích Tổng hợp Bộ Dữ liệu Hình ảnh Nha khoa: Phân bố, Đặc điểm và Tuân thủ Chuẩn FAIR

Trong thời đại dữ liệu lớn và trí tuệ nhân tạo NTC AI, việc khai thác hiệu quả các bộ dữ liệu hình ảnh nha khoa đóng vai trò then chốt trong phát triển chẩn đoán và điều trị kỹ thuật số. Nghiên cứu này sử dụng phần mềm R phiên bản 4.1.2 để phân tích toàn diện 16 bộ dữ liệu hình ảnh nha khoa công khai, với mục tiêu xác định phân bố, đặc điểm mô tả, chất lượng chú thích và mức độ tuân thủ các nguyên tắc FAIR (Findable, Accessible, Interoperable, Reusable).

Tóm tắt Kết quả Chính

  • 131.028 hồ sơ được rà soát từ nhiều nguồn, sau sàng lọc còn 121 hồ sơ, và cuối cùng chọn lọc 16 bộ dữ liệu duy nhất.
  • Nguồn phổ biến nhất: Kaggle (18,8%), tiếp theo là GitHub, Google Datasets, Mendeley, PubMed và Zenodo (mỗi nguồn 12,5%).
  • Tăng trưởng theo năm: Bộ dữ liệu tăng dần qua các năm (2020–2023), cho thấy xu hướng mở rộng kho dữ liệu nha khoa.

Đặc điểm Bộ Dữ liệu

  • Mối liên hệ với nghiên cứu khoa học: 68,8% bộ dữ liệu có liên kết với công bố khoa học.
  • Lĩnh vực chính:
    • Phân đoạn răng/tổn thương: 62,5%
    • Gán nhãn dữ liệu: 56,2%
  • Phương thức hình ảnh phổ biến:
    • Phim toàn cảnh: 58,8%
    • CBCT và ảnh nội soi: 11,8%
    • Cephalometric, quét 3D, phim cận chóp: 5,9%
  • Số lượng hình ảnh trung bình:
    • Toàn cảnh: 595 ± 790
    • Nội soi: 252 ± 241
    • CBCT: 278 ± 156
    • Quét 3D & nội soi: 945 ± 731

Đóng góp Dữ liệu Theo Quốc Gia

Các quốc gia có số lượng ảnh đóng góp lớn nhất gồm:

  • Trung Quốc: 2.413 ảnh
  • Thụy Sĩ: 2.332
  • Bỉ, Pháp: 1.800 mỗi nước
  • Iran: 1.504
  • Hoa Kỳ: 1.117
  • Và các nước khác như Đài Loan, Tunisia, Paraguay, Ấn Độ, Ả Rập Xê Út, Hàn Quốc, Tây Ban Nha.

Chất Lượng Báo Cáo & Chú Thích Dữ Liệu

  • 75% có chú thích ảnh
  • 68,8% có công bố mô tả quy trình xử lý ảnh
  • 62,5% báo cáo thông tin phân đoạn giải phẫu
  • Tuy nhiên, nhiều bộ dữ liệu thiếu thông tin đạo đức và nhân khẩu học:
    • 31,2% có phê duyệt đạo đức
    • 18,8% nêu rõ giới tính bệnh nhân
    • 43,8% có chiến lược ẩn danh hóa
    • 31,2% công bố tiêu chí chọn mẫu

Siêu Dữ Liệu và Tính Tuân Thủ FAIR

  • Thông tin người chú thích:
    • Có ở 53,8% bộ dữ liệu
    • 18,8% có hiệu chỉnh giữa các người chú thích
    • 16,7% mô tả cách xử lý bất đồng
    • 5,9% xác nhận sự đồng thuận từ bệnh nhân
  • Giấy phép sử dụng dữ liệu:
    • 56,3% không nêu rõ
    • Loại phổ biến: CC BY-NC 4.0, CC BY-SA 4.0, CC BY 4.0
    • 1 bộ theo giấy phép hạn chế từ PhysioNet

Xác Định KIỂM ĐỊNH

  • Chuyên gia quyết định: 3 bộ
  • Bỏ phiếu đa số: 2 bộ
  • Không xác định rõ: 3 bộ
  • Không mô tả: 8 bộ

=> Khoảng trống lớn trong việc chuẩn hóa phương pháp gán nhãn dữ liệu và tiêu chuẩn đánh giá.

Kết Luận

Việc phân tích tổng hợp này cho thấy tiềm năng lớn trong khai thác dữ liệu hình ảnh nha khoa công khai, đồng thời nhấn mạnh những thiếu sót quan trọng về chất lượng siêu dữ liệu, tính minh bạch đạo đức và giấy phép sử dụng. Để nâng cao giá trị tái sử dụng, các bộ dữ liệu trong tương lai cần tuân thủ tốt hơn các nguyên tắc FAIR, đặc biệt trong chú thích và công bố thông tin minh bạch.

Tổng Quan Về Các Bộ Dữ Liệu Hình Ảnh Nha Khoa: Đa Dạng Chú Thích và Tuân Thủ FAIR

1. Loại Chú Thích Trong Các Bộ Dữ Liệu Nha Khoa

Hiện tại có nhiều bộ dữ liệu hình ảnh nha khoa công khai với các loại chú thích khác nhau:

  • Chú thích cấp điểm ảnh : 6 bộ
  • Chú thích nhãn : 6 bộ
  • Chú thích dạng hộp : 2 bộ

Các chú thích này hỗ trợ hiệu quả cho các ứng dụng trí tuệ nhân tạo (NTC AI) như nhận diện cấu trúc, phân đoạn và gán nhãn hình ảnh nha khoa.

2. Đặc Điểm Và Mục Tiêu Các Bộ Dữ Liệu

Các bộ dữ liệu được thiết kế với mục tiêu cụ thể:

  • Grand Challenge: Tăng độ chính xác trong xác định mốc sọ 
  • Tongue Dataset: Tập trung vào cấu trúc lưỡi
  • DENTEX: Gồm 23.999 răng được chú thích, phục vụ cuộc thi 3DTeethSeg 2022

Ngoài ra, có một bộ dữ liệu bổ sung đáng chú ý là Panoramic Dental X-rays With Segmented Mandibles với 232 ảnh toàn cảnh có phân đoạn xương hàm dưới ở mức điểm ảnh.

3. Bộ Dữ Liệu Đa Phương Thức Trong Nha Khoa

Một bộ dữ liệu đa phương thức toàn diện nhất hiện nay bao gồm:

  • 389 ảnh CBCT
  • 12 ảnh toàn cảnh
  • 240 ảnh nội soi trong miệng (tái tạo từ CBCT)

Tổng cộng 389 bệnh nhân, phản ánh sự đa dạng về nguồn và phương thức chẩn đoán.

4. Nguồn Gốc Và Mục Đích Dữ Liệu

Nguồn dữ liệu:

  • Phòng khám nha khoa: 62,5%
  • Trường đại học: 18,75%
  • Bệnh viện: 6,25%
  • Trường học: 6,25%
  • Không rõ nguồn: 12,5%

Mục đích thu thập:

  • Chẩn đoán nha khoa: 50%
  • Nghiên cứu: 31,25%
  • Đánh giá chuẩn (benchmarking): 6,25%
  • Khảo sát chẩn đoán và bệnh lý miệng: 12,5%

5. Đánh Giá Theo Nguyên Tắc FAIR

Chất lượng dữ liệu được đánh giá dựa trên FAIR (Findability, Accessibility, Interoperability, Reusability):

Loại ảnhĐiểm FAIRMức độ
Ảnh toàn cảnh75Nâng cao
CBCT64Nâng cao
Ảnh nội soi trong miệng75Trung bình
Ảnh chụp nội soi60Trung bình
Phim sọ nghiêng27Thấp
Quét 3D trong miệng41Thấp

6. Thảo Luận: Thách Thức Và Tiềm Năng

Nghiên cứu đã xác định 16 bộ dữ liệu công khai với tổng cộng 10.450 hình ảnh, đến từ 13 quốc gia (44,6% dân số toàn cầu). Tuy nhiên, châu Phi và châu Đại Dương vẫn là hai khu vực thiếu vắng dữ liệu.

So sánh với ngành y học, số lượng dữ liệu nha khoa còn hạn chế (10.450 ảnh so với 62 triệu ảnh y khoa từ 11 triệu bệnh nhân).

Lĩnh vực y học miệng đặc biệt thiếu dữ liệu, ví dụ chỉ có 1 bộ dữ liệu liên quan đến ung thư miệng được ghi nhận gần đây.

7. Nhận Định Và Khuyến Nghị

  • Ảnh toàn cảnh vẫn là phương thức phổ biến nhất nhờ khả năng chẩn đoán rộng và dễ tiếp cận.
  • Phân đoạn giải phẫu là trọng tâm trong các loại chú thích hiện có.
  • Cần mở rộng chú thích liên kết với dữ liệu lâm sàng và dữ liệu omic, để nâng cao năng lực AI trong:
    • Phát hiện bệnh
    • Gán nhãn hình ảnh
    • Phân đoạn tự động

Tương lai của NTC AI trong chẩn đoán nha khoa: Vai trò của dữ liệu hình ảnh và đa phương thức

1. Vấn đề hiện tại: Hạn chế của dữ liệu hình ảnh trong AI y tế

Trong nhiều nghiên cứu hiện tại, ảnh chẩn đoán nha khoa thường được sử dụng đồng thời cho mục đích huấn luyện và kiểm định. Tuy nhiên, trong thực hành lâm sàng, hình ảnh chẩn đoán thường đi kèm với thông tin lâm sàng và được xác thực bằng các xét nghiệm tham chiếu, ví dụ như xét nghiệm cận lâm sàng.

Điều này tạo nên khoảng cách giữa dữ liệu huấn luyện AI và thực tế lâm sàng. Để khắc phục, cần tích hợp nhãn chéo giữa dữ liệu hình ảnh và dữ liệu lâm sàng/xét nghiệm. Nhờ đó, AI có thể học được các đặc điểm bệnh lý mà con người khó nhận biết, từ đó cải thiện độ chính xác chẩn đoán và lập kế hoạch điều trị nha khoa.

2. Xu hướng tương lai: Học máy đa phương thức 

Để nâng cao hiệu quả của AI trong lĩnh vực nha khoa, các nghiên cứu nên hướng đến xây dựng bộ dữ liệu đa phương thức — kết hợp ảnh nội soi, ảnh CBCT và quét 3D từ cùng một bệnh nhân. Theo nghiên cứu mới đây (Liu et al., 2023), học máy đa phương thức giúp mô hình hóa chính xác hơn bằng cách khai thác đồng thời nhiều loại dữ liệu.

3. Đánh giá dữ liệu công khai hiện tại trong nha khoa AI

a. Phân tích theo nguyên tắc FAIR

  • Ảnh X-quang trong miệng là dữ liệu dễ truy cập nhất.
  • Dữ liệu CBCT có điểm thấp nhất về khả năng tìm kiếm, truy cập, và tái sử dụng.
  • Khoảng 62,5% bộ dữ liệu có mức độ tuân thủ FAIR từ trung bình đến cao, tốt hơn so với các nghiên cứu trước.

b. Hạn chế chính

  • Thiếu giấy phép rõ ràng gây mơ hồ về quyền sử dụng.
  • Thiếu nhất quán trong xác định ground truth, ảnh hưởng đến tính minh bạch và độ tin cậy của mô hình.
  • Vấn đề truy cập dữ liệu quy mô lớn: do rào cản pháp lý, chi phí, độ trễ và chất lượng.

4. Kiến nghị cải thiện chất lượng dữ liệu AI nha khoa

  • Xây dựng kho dữ liệu tập trung, chuẩn FAIR.
  • Đa dạng hóa dữ liệu (về nguồn gốc, thiết bị, đối tượng).
  • Chuẩn hóa siêu dữ liệu qua mô hình như Data Cards (Pushkarna et al., 2022).
  • Khuyến khích chia sẻ dữ liệu qua chính sách tạp chí.
  • Tự động bổ sung siêu dữ liệu bằng các định dạng như Croissant Format (Benjelloun et al., 2024).

5. Các sáng kiến nổi bật toàn cầu

  • Medical AI Data for All (MAIDA) – 2024
  • Sáng kiến toàn cầu về AI trong y tế (GI-AI4H) – Tổ chức Y tế Thế giới, 2023

Những chương trình này nhấn mạnh việc chia sẻ, chuẩn hóa và sử dụng dữ liệu có trách nhiệm để thúc đẩy sức khỏe răng miệng toàn cầu thông qua công nghệ AI.

6. Hạn chế của nghiên cứu

  • Chỉ khảo sát dữ liệu công khai, có thể bỏ sót dữ liệu giới hạn quyền truy cập.
  • Không đánh giá chất lượng nội tại của bộ dữ liệu.
  • Cần cập nhật định kỳ để đảm bảo độ chính xác.

7. Kết luận

Đây là nghiên cứu đầu tiên đánh giá toàn diện bộ dữ liệu hình ảnh nha khoa phục vụ cho phát triển AI. Các phát hiện cho thấy sự thiếu hụt dữ liệu công khai và thiếu nhất quán trong báo cáo siêu dữ liệu. Để phát triển công cụ AI đáng tin cậy, cần:

  • Tăng cường đa dạng dữ liệu
  • Bổ sung đầy đủ siêu dữ liệu
  • Đảm bảo tuân thủ nguyên tắc FAIR

Tài liệu tham khảo

  1. Arora A, Alderman JE, Palmer J, Ganapathi S, Laws E, McCradden MD, Oakden-Rayner L, Pfohl SR, Ghassemi M, McKay F, và cộng sự. 2023. Giá trị của các tiêu chuẩn dành cho bộ dữ liệu y tế trong các ứng dụng dựa trên trí tuệ nhân tạo. Nature Medicine, 29(11):2929–2938.
  2. Benjelloun O, Simperl E, Marcenac P, Ruyssen P, Conforti C, Kuchnik M, van der Velde J, Oala L, Vogler S, Akthar M, và cộng sự. 2024. Đặc tả định dạng Croissant. Trang Croissant; [truy cập ngày 7 tháng 3 năm 2024]. https://mlcommons.github.io/croissant/docs/croissant-spec.html
  3. Celi LA, Cellini J, Charpignon M-L, Dee EC, Dernoncourt F, Eber R, Mitchell WG, Moukheiber L, Schirmer J, Situ J, và cộng sự. 2022. Nguồn gốc của thiên lệch trong trí tuệ nhân tạo duy trì bất bình đẳng y tế – một tổng quan toàn cầu. PLOS Digital Health, 1(3):e0000022.
  4. Chrimes D, Kim C. 2022. Tổng quan các bộ dữ liệu lớn y tế công khai hiện có. Trong: Hội nghị Quốc tế IEEE về Dữ liệu Lớn 2022 (Big Data). IEEE, tr. 6625–6627.
  5. Devaraju A, Huber R. 2021. Giải pháp tự động đo lường tiến độ hướng đến dữ liệu nghiên cứu FAIR. Patterns (New York), 2(11):100370.
  6. Dumitrache A, Inel O, Timmermans B, Ortiz C, Sips R-J, Aroyo L, Welty C. 2021. Phương pháp thực nghiệm cho việc huy động đám đông trong xác định ground truth. Semantic Web, 12(3):403–421.
  7. Gabelica M, Bojčić R, Puljak L. 2022. Nhiều nhà nghiên cứu không tuân thủ tuyên bố chia sẻ dữ liệu đã công bố: một nghiên cứu phương pháp hỗn hợp. Journal of Clinical Epidemiology, 150:33–41. doi:10.1016/j.jclinepi.2022.05.019
  8. Khan SM, Liu X, Nath S, Korot E, Faes L, Wagner SK, Keane PA, Sebire NJ, Burton MJ, Denniston AK. 2021. Tổng quan toàn cầu về các bộ dữ liệu hình ảnh nhãn khoa công khai: các rào cản về truy cập, khả năng sử dụng và tổng quát hóa. Lancet Digital Health, 3(1):e51–e66.
  9. Liu J, Hao J, Lin H, Pan W, Yang J, Feng Y, Wang G, Li J, Jin Z, Zhao Z, và cộng sự. 2023. Hợp nhất 3D đa phương thức với deep learning từ CBCT và quét lưới nội soi để tái tạo răng–xương ứng dụng lâm sàng. Patterns (New York), 4(9):100825.
  10. Ma J, Schneider L, Lapuschkin S, Achtibat R, Duchrau M, Krois J, Schwendicke F, Samek W. 2022. Hướng đến trí tuệ nhân tạo đáng tin cậy trong nha khoa. Journal of Dental Research, 101(11):1263–1268.
  11. Mongan J, Halabi SS. 2023. Về vai trò trung tâm của dữ liệu: các nguồn dữ liệu trong trí tuệ nhân tạo ngành chẩn đoán hình ảnh. Radiology: Artificial Intelligence, 5(5):e230231.
  12. Pushkarna M, Zaldivar A, Kjartansson O. 2022. Data Cards: Tài liệu hóa bộ dữ liệu một cách có mục đích và minh bạch cho AI có trách nhiệm. Trong: Hội nghị ACM về Công bằng, Trách nhiệm và Minh bạch (FAccT ‘22); 21–24 tháng 6, 2022; Seoul, Hàn Quốc. New York (NY): ACM. tr. 1776–1826.
  13. R Core Team. 2021. R: ngôn ngữ và môi trường tính toán thống kê. Vienna (Áo): Quỹ Tính toán Thống kê R [truy cập ngày 26 tháng 2 năm 2024]. http://www.R-project.org/
  14. Saenz A, Chen E, Marklund H, Rajpurkar P. 2024. Sáng kiến MAIDA: Thiết lập khung chia sẻ dữ liệu hình ảnh y tế toàn cầu. Lancet Digital Health, 6(1):e6–e8.
  15. Schwendicke F, Krois J. 2022. Nha khoa dữ liệu: cách dữ liệu đang thay đổi chăm sóc lâm sàng và nghiên cứu. Journal of Dental Research, 101(1):21–29.
  16. Schwendicke F, Marazita ML, Jakubovics NS, Krois J. 2022. Dữ liệu lớn và phân tích dữ liệu phức tạp: làm lung lay quy trình phản biện khoa học? Journal of Dental Research, 101(4):369–370.
  17. Schwendicke F, Samek W, Krois J. 2020. Trí tuệ nhân tạo trong nha khoa: cơ hội và thách thức. Journal of Dental Research, 99(7):769–774.
  18. Sengupta N, Sarode SC, Sarode GS, Ghone U. 2022. Sự khan hiếm bộ dữ liệu hình ảnh ung thư miệng công khai phục vụ nghiên cứu học máy. Oral Oncology, 126:105737.
  19. Sylolypavan A, Sleeman D, Wu H, Sim M. 2023. Tác động của chú thích không nhất quán từ con người đối với ra quyết định lâm sàng dựa trên AI. NPJ Digital Medicine, 6(1):26.
  20. Uribe SE, Sofi-Mahmudi A, Raittio E, Maldupa I, Vilne B. 2022. Tính sẵn có và chất lượng dữ liệu nghiên cứu nha khoa theo nguyên tắc FAIR. Journal of Dental Research, 101(11):1307–1313.
  21. Venkatesh K, Santomartino SM, Sulam J, Yi PH. 2022. Thực hành chia sẻ mã nguồn và dữ liệu trong tài liệu nghiên cứu trí tuệ nhân tạo ngành chẩn đoán hình ảnh: một nghiên cứu meta. Radiology: Artificial Intelligence, 4(5):e220081.
  22. Wilkinson MD, Dumontier M, Aalbersberg IJJ, Appleton G, Axton M, Baak A, Blomberg N, Boiten J-W, da Silva Santos LB, Bourne PE, và cộng sự. 2016. Nguyên tắc FAIR hướng dẫn quản lý và lưu trữ dữ liệu khoa học. Scientific Data, 3:160018.
  23. World Health Organization. 2023. Sáng kiến toàn cầu về AI trong y tế [truy cập ngày 27 tháng 2 năm 2024]. https://www.who.int/initiatives/global-initiative-on-ai-for-health

Ekip Bs Nam NTC