• Home
  • Sammensatt CDE: modellering av sammensatte relasjoner mellom felles dataelementer for å representere komplekse kliniske data

Sammensatt CDE: modellering av sammensatte relasjoner mellom felles dataelementer for å representere komplekse kliniske data

Oversikt over alle typer semantiske relasjoner

for å løse de semantiske utfordringene som er beskrevet ovenfor, definerte vi atomiske Og sammensatte Cder ved hjelp av nylig foreslåtte tre semantiske typer, dvs. hybrid, ordbok og gjentatt, og tre begrensninger, dvs., bestilt, operert og påkrevd, i tillegg til de eksisterende to semantiske relasjonsbegrensningene, dvs. avhengige og variable relasjoner, definert i vår tidligere studie. Den nylig definerte sammensatte semantiske typen erstattet den gamle sammensatte relasjonsbegrensningen som vi definerte tidligere .

Figur 1 viser atom-Og sammensatte Cd-Er sammen med deres spesifikke forhold og begrensninger. En aCDE kan begrenses ved hjelp av variable og hybrid relasjoner ved å klassifisere dem som variabel og hybrid acde, henholdsvis. Definisjonen av cCDE som et sett av sammenhengende acder i vår tidligere studie ble utvidet til å inkludere en klar definisjon, en egen identifikator for gjenbruk og begrensninger blant acder inkludert i en cCDE. En cCDEs kan klassifiseres i ordbok og gjentatte cCDEs. Det avhengige forholdet var den eneste relasjonsbegrensningen i vår tidligere studie. Vi utvidet det til fire begrensninger: bestilt, operert, påkrevd og avhengig. Som vist i venstre nedre panel I Fig. 1, den bestilte begrensningen gjelder ikke for en aCDE.

dataoppføringer med flere datatyper: Hybrid aCDE

en hybrid aCDE er en bestemt type aCDE som tillater et verdidomene med flere (eller hybrid) datatyper. Teknisk inneholder det flere acder som har samme CDE-konsept, men forskjellige verdidomener. Figur 2a viser en del av en hemodialyse CRF Fra DialysisNet Og Avatar Beans Prosjektet. En tidskodet hybrid aCDE ble brukt på tidsattributtet i et tabellformet dataoppføringsformat (Fig. 2a). Tid er definert som en hybrid aCDE, Hemodialysis_Time_Hybrid_DE (DE:47616). Tiden er avledet fra to acder, Dvs. Hemodialysis_Time_DE (DE:43239) Og Hemodialysis_Time_String_DE (DE:47614) tillater en’ tid ‘som’ 08:00 ‘og en’ nummerert-streng ‘som’ Finish ‘og’ Start’, datatyper, henholdsvis (Fig . 2b). Hybrid aCDE Tid (Eller Hemodialysis_Time_Hybrid_DE (DE:47616)) kan fange enten en tid eller en nummerert strengverdi som input.

Fig. 2
figur2

et eksempel hybrid aCDE fra en hemodialyse rapport. a hemodialysetabellen I DialysisNet-Prosjektet har et tabellformat for dataregistrering, Hvor Tid (DE:47616) tillater to forskjellige datatyper: tid og en opplistet streng. b hybrid aCDE (DE:47616) inneholder to acde (DE:43239 og DE:47614) i et hybridforhold (http://chmr2.snubi.org:8083/chmr/data_element_view.jsp?id=28476)

Tabelldataoppføringer: Gjentatt cCDE

en gjentatt cCDE er en cCDE som fanger inn data flere ganger i et tabellformat. Definisjonen av den gjentatte cCDE forhindrer unødvendig opprettelse av overflødige Cde-er og fanger inn data i et tabellformat. En gjentatt cCDE fanger effektivt og viser endringer i inngangsverdier over et bestemt tidsrom, som vist I Fig. 2a. vi grupperte først åtte acder (dvs ., DE: 47616, DE:43340, DE:43197, DE:43195, DE:43155, DE:43092, DE:43372, OG DE:43166) for å opprette en cCDE og deretter tildelt gjentatte forhold for å opprette en gjentatt cCDE, Hemodialysis_Repeated_Componsite _DE (DE:47575) (Fig. 3). Som vist I Fig. 2, DE: 47616 er en hybrid aCDE inneholdt i en gjentatt cCDE(DE:47575).

Fig. 3
figur3

Eksempel på sammensetningen av en gjentatt cCDE fra en hemodialyse rapportform. En gjentatt cCDE, ‘ DE:47575 Hemodialysis_Repeated_Componsite _DE, ‘ består av åtte acder fra en tabell data-entry format (Fig. 2a) For DialysisNet hemodialyse prosjektet (http://chmr2.snubi.org:8083/chmr/data_element_view.jsp?id=28449)

Ordbok data oppføringer:Ordbok cCDE

Vår tidligere studie definert en variabel CDE som EN CDE som inneholder en kontrollert biomedisinsk vokabular variabel. På samme måte kan en cCDE som inneholder en variabel aCDE som primærnøkkel i en ordboktabell defineres som en ordbok cCDE. Denne tilnærmingen gir en måte å kode en hel ordbok tabell samt en kontrollert vokabular i en enkelt ordbok cCDE, og dermed fange omfattende biomedisinsk kunnskap fra en database. En ordbok cCDE gir en nyttig måte å bruke relevante attributter av en ordbok database for å begrense og validere inndataverdier til ordboken cCDE.

Figur 4a viser et typisk dataregistreringsdokument for laboratorietestresultater i tabellformat. Elektrolyttlaboratorieformen fra’ Anbefalte Laboratorier For Slag ‘ i NINDS cde-prosjektet består av seks attributter, inkludert laboratorietestnavnet, laboratorietestresultatet, enhet for laboratorietestresultatet, en indikator for om laboratorietestresultatet var unormalt, og en annen indikator for om laboratorietestresultatet var klinisk signifikant når laboratorietestresultatet var unormalt. Figur 4b viser en del av den strukturerte Ninds ‘Electrolyte Laboratory Tests Dictionary’ referansetabell. Attributtet Enhet For Resultat støtter flere enheter som er avgrenset av’^’. Det Normale Området attributtet er også separert I Henhold Til Resultatenheten og er representert I json (Javascript object notation)-type koding.

Fig. 4
figur4

Opprettelse av en ordbok cCDE for EN CRF. En ‘Elektrolytt Laboratorietester’ tabell på et klinisk dokument er gitt som et eksempel tabelldataoppføringsdokument for å fange laboratorietestresultater for natrium (Na+) og kalium (K+) sammen med to kliniske evalueringsattributter. b Vi konstruerte Tabellen ‘Electrolyte Laboratory Tests Dictionary’ ved å trekke ut relevante attributter fra CDEs definert i ‘Recommended Labs For Stroke’ fra NINDS CDE-prosjektet. c ordboken cCDE (DE:47571) består av seks acder som inkluderer en variabel aCDE(DE:43938) som relaterer ordboken cCDE til ordboken tabellen I Fig. 4b. To regler for klinisk evaluering presenteres (http://chmr2.snubi.org:8083/chmr/data_element_view.jsp?id=28445)

en ordbok cCDE kan systematisk fange hele ‘Elektrolytt Laboratorietester’ dataregistrering dokument som ‘ DE:47571 Laboratory_Test_NINDS_Composite_de, ‘ som består av seks acder (Fig. 4c, Relasjon) som inkluderer en variabel aCDE, ‘DE:43938 Laboratory_Finding_Test_Name_DE,’ som fungerer som sekundærnøkkel for å referere til primærnøkkelen For ‘Lab Test Name’ I ‘Electrolyte Laboratory Tests Dictionary’ – tabellen I Fig. 4b.

nå som ordboken cCDE, DE:47571, er vellykket relatert til Ninds’ Elektrolytt Laboratorietester ‘ tabellen via variabelen aCDE (DE:43938), gir den en metode for å evaluere gyldigheten av inngangsverdi på 138 mEq / L For Å Resultere og Enheter For Resultat for En Test, med hensyn Til Normalområdet (dvs.135 ~ 145 mEq/L) levert av ordboksbordet koblet via primærnøkkelen. Inngangsverdien Til var testresultat unormal? kan også automatisk evalueres ved hjelp av biomedisinsk kunnskap levert av ordboken tabellen. Videre, nar verdien Av var testresultat unormal? (DE: 47566) Er ‘Unormal’ verdien Av hvis unormal, Klinisk Signifikant? (DE:44135) kan automatisk være begrenset til å inneholde en annen verdi enn null. Denne begrensningen kan kodes av En Avhengig Regel, som vist Relasjonsregel I Fig. 4c.

Figur 4c Relasjonsregel viser hvordan en ordbok cCDE ledsaget av dens begrensningsregler er definert. For de to evalueringssakene som er oppført I Fig. 4b, både En Ordbokregel og En Avhengig Regel er definert av symbolsk logikk (eller pseudokode) med tilhørende Beskrivelser. Ordbokregel definerer hvordan man bruker biomedisinsk kunnskap i en ordboktabell, Og Avhengig Regel definerer sammenhengen mellom acder i en cCDE ved å bruke avhengig begrensningsforhold

Semantisk begrensning: Begrensninger

Vi definerte fire begrensninger som støtter opprettelsen av et robust klinisk dokument ved å spesifisere sammenhengen mellom mange acder. Vi definerte fire klasser av operatører: oppgave, aritmetisk, logisk og relasjonell. Ordren kan bare brukes på acder som finnes i en cCDE. Imidlertid kan de andre tre begrensningene (opererte, nødvendige og avhengige) brukes på både uavhengige acder og de som finnes i ccder(Fig. 1). Vi opprettet symbolsk logikk med prefiks notasjon (Tabell 1) for å beskrive rekkefølgen av operasjoner og å formulere begrensninger. Flere praktiske eksempler er vist I Fig. 5 for å demonstrere hvordan begrensninger brukes på en gjentatt cCDE også. De fire begrensningene er beskrevet som følger:

  1. 1)

    Operert. Tabell 1a presenterer standard BMI-formel i et prefiks som (/ CDE30 CDE31 CDE31 100,100), DER CDE30 og CDE31 representerer Kroppsvektverdi i kg og Kroppshøydeverdi i cm. Både ‘ cm ‘og’ m ‘ enheter av høydemålinger støttes AV IF betinget setning for å administrere ulike enheter: (IF (= CDE31.unit_of_measure ‘m’) (/ CDE30 CDE31 CDE31) (/ CDE30 CDE31 CDE31 100,100)).

  2. 2)

    Påkrevd. En Nødvendig betingelse som brukes på en aCDE, betyr at acden må ha en annen verdi enn null. Tabell 1b viser den demografiske informasjonen i et klinisk dokument som begrenser ‘* Pasientalder(CDE40) ‘og’ *Kjønn (CDE41) ‘ i henhold til erklæringen (Påkrevd CDE40 CDE41).

  3. 3)

    Avhengig. Det kan være nødvendig å aktivere eller deaktivere en bestemt aCDE dynamisk i henhold til verdien(e) til andre aCDE(er). For eksempel kan en kjønnsspesifikk CDE bare brukes på emner av det aktuelle kjønn. Tabell 1c presenterer et eksempel for å sjekke om en pasient er en nåværende (CDE20) eller tidligere (CDE21) røyker for å oppnå alderen da tobakksbruk ble startet (CDE22). En nonsmoker kan enkelt hoppe OVER CDE22 if (= CDE20 CDE21 ‘No’ ) ved å sette verdien AV CDE22 som null. Med andre ord, en regel som (HVIS (eller (! = CDE20 ‘Ja’) (! = CDE21′ Ja’)) CDE22 NULL) kan pålegges. En annen begrensning kan pålegges å sjekke ulogiske inngangsverdier som (=CDE20 CDE21 ‘Ja’) om nødvendig.

  4. 4)

    Bestilt. Bestilling av acder (spesielt i en cCDE) er viktig for visse forhold og sammenhenger. CDEs I Tabell 1C kan bestilles med en begrensningserklæring som (Bestilt CDE20 CDE21 CDE22).

Tabell 1 Koding opererte, nødvendige, avhengige og bestilte begrensninger For CDEs med prefiks notasjon. Eksempler På (A) en operert begrensning for beregning AV BMI, (B) en nødvendig begrensning for demografi informasjon, (C) en avhengig begrensning for røyking historie, Og (D) en bestilt begrensning
Fig. 5
figur5

Koding Opererte, Bestilt, Nødvendig, Og Avhengige begrensninger for en gjentatt cCDE. En ‘Medisinsk Historie’ klinisk dokument presentert i en tabell format som inneholder seks attributter. b a gjentatt cCDE er opprettet med de tilsvarende seks acde sammen med fire begrensningsregler: (1) startdatoen (DE:47618) skal være tidligere enn sluttdatoen (DE:47619): (< DE:47618 de:47619); (2) alle attributter må ha andre verdier enn null, bortsett fra sluttdatoen (DE:47619): (Påkrevd DE:37059 DE:47621 DE:31106 de:47618 de:44078, 3) når en viss medisinsk historie ikke er pågående (de:44078), kan sluttdatoen (DE:47619) IKKE OPPNÅS, OG OMVENDT: (HVIS (! = DE:44078′ Ja’) DE:47619 NULL); og (4) acder kan bestilles i henhold til en begrensningserklæring som (Bestilt DE:37059 DE:47621 DE:31106 DE:47618 DE: 44078 DE:47619) (http://chmr2.snubi.org:8083/chmr/data_element_view.jsp?id=28477)

Evalueringsstudie

for å evaluere nytten av våre nylig utvidede sammensatte semantiske relasjoner, brukte vi Dem På CDEs som systematisk ble hentet fra de 25 kliniske dokumentene fra fem undervisningssykehus I Korea og fra fhir bulk sample data. Først fokuserte vi på å utlede CDEs fra kliniske dokumenter, som ga mange eksplisitte tilfeller som tydelig viste forholdet mellom CDEs. Vi ønsket da å bevise at våre foreslåtte relasjoner og begrensninger var gyldige i strukturert klinisk datasett også. Det var derfor vi valgte to forskjellige typer kildedata: ustrukturerte og strukturerte data. Evalueringsprosessen besto av følgende trinn: cde-ekstraksjon, cde-integrasjon ved å bruke de nylig foreslåtte atom-og kompositt-Cde-Ene med semantiske berikelser. Vi undersøkte hvordan Antall Cde hadde blitt redusert fra cde-ekstraksjon TIL cde-integrasjon, og målte strukturell og semantisk effektivitet Av Cde for kliniske dataelementer.

SELV OM HL7 FHIR støtter hovedsakelig strukturerte data, gir DEN også en dokumentrelatert ressurs, Fhir Questionnaire. For å se om våre foreslåtte semantiske typer kan dekke Fhir Spørreskjema, vi matchet elementer AV fhir Spørreskjema ressurs til våre utviklede relasjoner og begrensninger for videre evaluering.

for å evaluere avledet Cde fra kliniske dokumenter, hentet vi først 84, 48, 70, 83 og 37 Cde fra de fem kliniske dokumentene, Opptaksnotat, Innledende Medisinsk Undersøkelse, Utslippssammendrag, Nødnotat og Operasjonsnotat, Henholdsvis Sykehus A. vi fant at 95 (29,5%) av de 322 acdeene ble gjenbrukt i minst to av de fem kliniske dokumentene, noe som resulterte i 227 unike acde. Vi opprettet klinisk relevante cCDEs og brukte semantiske relasjoner til dem. Av de 84 acdene hentet fra Opptaksnotatet Til Sykehus A, ble 55 vellykket fanget av 10 cCDEs. Til slutt fanget 16 cCDEs 110 (48,5%) av de 227 unike Cd-Ene slik at 133 (=16 + 117) Cd-Ene (41,3%) var tilstrekkelig til å representere de første 322 Cd-Ene ekstrahert fra De fem kliniske dokumentene Til Sykehus A (Tabell 2).

Tabell 2 Antall acder og ccder hentet fra fem kliniske dokumenter som brukes på fem undervisningssykehus I Korea

I cde-ekstraksjonstrinnet fant vi at bruk AV CDE er en effektiv måte å redusere overflødig Cde (22,2 ~ 37,9%) på hvert sykehus. Dette betyr at Det var mange Cde delt på tvers av de fem ulike kliniske dokumenter på hvert sykehus. Vi fant at en enda høyere CDE reduksjon rate på 48.7% ble oppnådd ved å integrere informasjonen for alle fem sykehusene, noe som indikerte at ulike Cder ble ofte brukt på fem forskjellige undervisningssykehus.

CDE-integrasjonstrinnet innebar å integrere acder i klinisk relevante ccder for ytterligere å strukturere de kliniske dokumentene og deretter integrere cCDEs på tvers av ulike kliniske dokumenter. For eksempel, når en vital sign-relaterte cCDE inneholdt tre acde (‘kroppsvekt’, ‘kroppstemperatur’ og ‘blodtrykk’) og en annen vital sign-relaterte cCDE inneholdt en ekstra aCDE (‘beskrivelse årsaken til ustabil vital sign’), integrerte vi dem i en vital-sign cCDE bestående av fire acde. Anvendelsen av disse tre trinnene reduserte stadig Antall CDEs. Utfyllende Tabeller S3-S5 liste cCDEs og hvordan de ble distribuert i hvert dokument på hvert sykehus. Disse tabellene gir også en detaljert oversikt over hvordan de 20 unike cCDEs besto av 327 sub-aCDEs. Den integrerte Cd-En reduserte ikke bare Antall Cd-Er med et gjenbruksforhold på opptil 46,9% (Tabell 2), men viste også kraftig forbedret semantisk nøyaktighet og interoperabilitet, som også ble støttet av gjennomgangen av dokumentene av forfatterne.

vi fant at sammensetningene av de kliniske dokumentene var ganske markante på tvers av de fem sykehusene. De kliniske dokumentene ved Sykehusene p og S inneholdt henholdsvis det største (n = 266) og det minste (n = 31) antall uavhengige Cd-Er. Vi fant også at selv de samme kliniske dokumentene viste store variasjoner i CDE-tall. Antall Cder i Opptaksnotater varierte fra 12 På Sykehus S til 204 På Sykehus P. Sykehus P hadde også det største antallet acder for Innledende Medisinsk Undersøkelsesnotat (n = 123) mens Sykehus A hadde det største antallet acder For Nødnotat (n = 83) og Operasjonsnotat (n = 37).

vi anvendte også begrensningsregler for de fem kliniske dokumentene til de fem sykehusene(Tabell 3). VI kunne ikke fastslå om EN CDE var en hybrid aCDE delvis på grunn av mangel på tilstrekkelige innsatsverdier og delvis på grunn av dårlige beskrivelser av responsverdiene for de kliniske dokumentene. Vi utpekte cCDEs som grunnleggende cCDEs for å skille dem fra gjentatte og ordbok cCDEs. En cCDE ble i gjennomsnitt gjenbrukt to ganger blant de fem dokumentene ved sykehusene. Vi fant også at de kliniske dokumentene På Sykehus A var best strukturert og inneholdt størst detalj med flere cCDEs og begrensningsregler i forhold til dokumentene fra de andre sykehusene.

Tabell 3 Antall acder, cCDEs og begrensninger på fem undervisningssykehus I Korea

Vi evaluerte de relasjoner og begrensninger med samme metode som brukes på ulike datakilder, som var 14 fhir ressurser fra fhir bulk sample data. Vi hentet først ut 238 Cd-Er og fant at 142 Cd-Er (59,7%) ble gjenbrukt i minst 2 av 14 fhir-ressurser, noe som resulterte i 96 unike acder. Vi opprettet klinisk relevante cCDEs og brukte semantiske relasjoner til dem. 48 cCDEs klarte å fange 194 (81,5%) av 238 CDEs. Til slutt fanget 28 cCDEs 75 av de 96 unike Cd-Ene slik at 49 (=28 + 21) Cd-Ene var nok til å representere de første 238 Cd-Ene utvunnet fra 14 fhir-ressurser (Tabell 4). Supplerende Tabeller S6-S7 liste cCDEs og hvordan de ble distribuert i hver fhir ressurser. Det faktum at mer enn halvparten Av Cd-Ene har blitt gjenbrukt, viser at FHIR-dataene er relativt godt standardiserte og strukturerte. Halvparten AV FHIR-ressursene, dvs., Allergiintoleranse, Tilstand, Møte, Mål, Medisineringsforespørsel, Organisasjon og Prosedyre, ble representert ved gjentatte cCDEs, noe som betyr at alle ekstraherte Cder av hver fhir-ressurs ble en komponent acder av de gjentatte cCDEs. Disse strukturerte dataene har blitt gjenbrukt ofte blant ULIKE fhir-ressurser.

Tabell 4 Antall atom – og sammensatte Cd-Er utvunnet fra 14 fhir-ressurser av fhir-masseprøvedata

Mens vi kartla våre foreslåtte semantiske typer og begrensninger til fhir-ressurser, fant vi at hybrid aCDE og opererte og avhengige begrensninger ikke var anvendelige i FHIR-ressurser. For tilfelle av hybrid aCDE, selv om bare en datatype er tillatt for hver data I FHIR-spesifikasjon, har vi ingen begrensning på datatypen i fhir-masseprøvedataene siden dataene var representert AV JSON og XML. Selv om de nødvendige og bestilte begrensningene eksplisitt ble angitt, var opererte og avhengige begrensninger ikke gyldige i FHIR-ressurser fordi regelen som to eller flere dataverdier var relatert til, ikke kunne brukes (Tabell 5).

Tabell 5 Antall atom – OG sammensatte Cd-Er og begrensninger i fhir bulk data og MIMIC-III demo data

en annen evaluering var kartleggingen mellom våre semantiske typer og begrensninger til dokumentassosiert Fhir ressurs, Spørreskjema. Figur 6 representerer kartlegging AV FHIR struktur i ekstrakter på venstre side, koblet via piler til de tilsvarende utviklede CDE relasjoner og begrensninger. De relevante elementene i Fhir Spørreskjema ressurs var gruppe og spørsmål, som representerer kompositt og atomic Cde (datamodellen til et enkelt spørsmål). Blant våre tre CDE relasjoner og fire begrensninger, den gjentatte cCDE forholdet og de nødvendige og opererte begrensninger ble oversiktlig kartlagt. FHIR Spørreskjema ressurs er å definere både innsamling skjemaer, undersøkelser og andre strukturer som kan fylles ut med sin sammenheng. Det hadde en viss struktur for å representere relasjoner mellom CDEs, men verdirelaterte begrensninger kunne ikke modelleres. For eksempel kan det ikke representeres om verdien tillater flere datatyper (Hybrid aCDE) eller om en verdi kan endres avhengig av et annet elements verdi (Begrensning: Avhengig).

Fig. 6
figur6

Kartleggingsresultat AV FHIR Spørreskjema ressurs kartlagt til de foreslåtte CDE relasjoner og begrensninger

for evalueringer med et ekte datasett analyserte vi 26 tabeller I MIMIC-III demo-databasen. Disse tabellene ble delt inn i tre kategorier som ble klassifisert etter ulike datakarakteristikker: (1) 14 tabeller for sykehusdata, (2) tre tabeller for nettdefinisjoner, og (3) 19 tabeller For omsorgsverdi og metaversjon ICU-relaterte data (Supplerende Tabeller S8). Vi har først gjennomgått relasjonene mellom kolonnene i hver tabell manuelt. Evalueringsprosessen ble utført bare for tilfeller der et forhold ble funnet gjennom følgende trinn: CDE-ekstraksjon, cde-integrasjon ved bruk av atom – Og kompositt-CDEs og deretter bygging av semantiske relasjoner mellom CDEs.

Vi fant fire hybrid acder som tillater numeriske data og tekstdata. VERDIEN I LABEVENTS tillater for eksempel strengdata og numeriske data. HVIS denne verdien er numerisk, REPRESENTERER VALUENUM de samme dataene i et numerisk format med en passende enhet FRA VALUEUOM for brukbarheten i beregninger. De fire generelle cCDEs I Tabell 5 liste cCDEs som inkluderer hybrid aCDE. Vi fant også tre variable acder knyttet til sin spesielle ordbok cCDE. ICD9_CODE i DIAGNOSTES_ICD matches For eksempel med samme verdi SOM ICD9_CODE I D_ICD_DIAGNOSES. Og hver tabell ble en gjentatt cCDE fordi den består av et sett med relaterte elementer. Alle tabeller har en nødvendig begrensning, og to tabeller har en operert begrensning. SOM MIMIC data er gitt som en relasjonsdatabase, avhengige og / eller bestilte begrensninger er ikke aktuelt. Relasjonstabell behandler verdien av hver kolonne uavhengig uten å bestille basert på sett inklusjonsteori (Tabell 5). Supplerende Tabeller S8-S9 viser spesifikke resultater SOM MIMIC-III metadata matchet våre foreslåtte relasjoner og begrensninger.

Leave A Comment