아무도 메디컬 코딩 관련 프로젝트를 안했나보다...
맨 땅에 헤딩 GABOZAGO
✅ 내가 수행할 Medical Coding(메디컬 코딩)
📍개요
임상시험에서 Medical coding은 임상데이터를 표준화된 용어로 변환하는 과정이다. 즉, 환자의 진료 기록, 진단, 치료 절차 등을 ICD, CPT, HCPCS, MedDRA 등등 특정 코드로 변환하는 것을 뜻한다. 원래는 DM이나 임상시험 기관이 직접 Medical coding을 수행한다고 하는데...! 그래서 Medical coder라는 직업도 있다고한다. 근데 사람이 다 하기는 한계가 있으니까 Medical coding AI를 만드는 추세이다.
나는 Medical History, Adverse Events는 MedDRA 데이터로! Concomitant Medication는 WHO Drug Dictionary로 Medical Coding을 진행해보려고 한다.
📍벤치마킹
내가 제일 참고 많이 하고 있는 애들을 추리고 추린건 아래와 같다.
- JNPMEDI의 Maven Coder: AWS의 생성형 AI 기술을 활용하여 개발된 메디컬 코딩 솔루션이다. 임상시험 데이터, 특히 구어체로 기록된 증상과 의학적 관찰을 표준화된 의학 용어로 자동 변환해준다고 한다.
- Medidata Medical Coding

- Cluepoints

- JohnSnowLabs
결과물이 Cluepoints처럼 나오게 하면 성공적일 것 같다.
✅ 구상 프로세스
일단 프로세스는 Cluepoints의 Medical coding Process를 벤치마킹해서 아래와 같이 진행해보려 한다.

- Verbatim Text : Adverse event name이나 Medical History 등 입력
- NER 모델을 사용하여 임상 엔티티(질병, 증상 등)를 추출 : 나는 구어체가 아니라서 지금 데이터 상으로는 이 과정이 필요할지 고민 중이다.
- 동의어 코딩 (Current Synonym Coding)
- 동의어 코딩 성공 시 : MedDRA 및 WHODrug와 같은 표준 사전을 기반으로 용어 매칭
- 동의어 코딩 실패 시 :딥러닝 기반의 Intelligent Medical Coding 시스템으로 전달
- Intelligent Medical Coding: 딥러닝 모델이 MedDRA 및 WHODrug와 같은 표준 사전을 기반으로 추천 용어를 제시
✅ 실험할 모델 등 기타
📍실험 모델
의료 도메인에 특화된 여러 NLP 모델들을 Git, Huggingface 등에서 찾았다. 뭘 실험 중인지는 비밀이다. 흐흐

📍기타 고민사항
내가 써야하는 MedDRA 데이터는 유료이다. 그래서 지금 UMLS 데이터 사용을 신청하였고, UMLS 데이터 안에서 MedDRA 관련 데이터를 추출해서 써 볼 예정이다.
(위에 사진처럼 MedDRA 데이터가 없어서 ICD-10이나 MIMIC 데이터 등을 사용해서 테스트 해봤다)
또한, JohnSnowLabs는 health care 관련 좋은 모델들을 많이 만들어놨던데..라이센스가 필요하다고 한다. Entity Resolution이 딱 내가 필요한거던데..이것도 지금 발급 신청해뒀다. 될지는 모르겠다ㅜ
UMLS 데이터가 오는대로 훈련용 데이터셋을 만들어 여러 모델에 훈련시켜봐야겠다.
화이팅!
관련된 오픈소스나 Pretrained Models 등등 좋은 정보 있으면 많은 공유 부탁드립니다..
'Project > Medical coding' 카테고리의 다른 글
2. Domain BERT - ClinicalBERT, BioBERT, BlueBERT (1) | 2024.10.02 |
---|
아무도 메디컬 코딩 관련 프로젝트를 안했나보다...
맨 땅에 헤딩 GABOZAGO
✅ 내가 수행할 Medical Coding(메디컬 코딩)
📍개요
임상시험에서 Medical coding은 임상데이터를 표준화된 용어로 변환하는 과정이다. 즉, 환자의 진료 기록, 진단, 치료 절차 등을 ICD, CPT, HCPCS, MedDRA 등등 특정 코드로 변환하는 것을 뜻한다. 원래는 DM이나 임상시험 기관이 직접 Medical coding을 수행한다고 하는데...! 그래서 Medical coder라는 직업도 있다고한다. 근데 사람이 다 하기는 한계가 있으니까 Medical coding AI를 만드는 추세이다.
나는 Medical History, Adverse Events는 MedDRA 데이터로! Concomitant Medication는 WHO Drug Dictionary로 Medical Coding을 진행해보려고 한다.
📍벤치마킹
내가 제일 참고 많이 하고 있는 애들을 추리고 추린건 아래와 같다.
- JNPMEDI의 Maven Coder: AWS의 생성형 AI 기술을 활용하여 개발된 메디컬 코딩 솔루션이다. 임상시험 데이터, 특히 구어체로 기록된 증상과 의학적 관찰을 표준화된 의학 용어로 자동 변환해준다고 한다.
- Medidata Medical Coding

- Cluepoints

- JohnSnowLabs
결과물이 Cluepoints처럼 나오게 하면 성공적일 것 같다.
✅ 구상 프로세스
일단 프로세스는 Cluepoints의 Medical coding Process를 벤치마킹해서 아래와 같이 진행해보려 한다.

- Verbatim Text : Adverse event name이나 Medical History 등 입력
- NER 모델을 사용하여 임상 엔티티(질병, 증상 등)를 추출 : 나는 구어체가 아니라서 지금 데이터 상으로는 이 과정이 필요할지 고민 중이다.
- 동의어 코딩 (Current Synonym Coding)
- 동의어 코딩 성공 시 : MedDRA 및 WHODrug와 같은 표준 사전을 기반으로 용어 매칭
- 동의어 코딩 실패 시 :딥러닝 기반의 Intelligent Medical Coding 시스템으로 전달
- Intelligent Medical Coding: 딥러닝 모델이 MedDRA 및 WHODrug와 같은 표준 사전을 기반으로 추천 용어를 제시
✅ 실험할 모델 등 기타
📍실험 모델
의료 도메인에 특화된 여러 NLP 모델들을 Git, Huggingface 등에서 찾았다. 뭘 실험 중인지는 비밀이다. 흐흐

📍기타 고민사항
내가 써야하는 MedDRA 데이터는 유료이다. 그래서 지금 UMLS 데이터 사용을 신청하였고, UMLS 데이터 안에서 MedDRA 관련 데이터를 추출해서 써 볼 예정이다.
(위에 사진처럼 MedDRA 데이터가 없어서 ICD-10이나 MIMIC 데이터 등을 사용해서 테스트 해봤다)
또한, JohnSnowLabs는 health care 관련 좋은 모델들을 많이 만들어놨던데..라이센스가 필요하다고 한다. Entity Resolution이 딱 내가 필요한거던데..이것도 지금 발급 신청해뒀다. 될지는 모르겠다ㅜ
UMLS 데이터가 오는대로 훈련용 데이터셋을 만들어 여러 모델에 훈련시켜봐야겠다.
화이팅!
관련된 오픈소스나 Pretrained Models 등등 좋은 정보 있으면 많은 공유 부탁드립니다..
'Project > Medical coding' 카테고리의 다른 글
2. Domain BERT - ClinicalBERT, BioBERT, BlueBERT (1) | 2024.10.02 |
---|