Mehr als 50.000 Personendatensätze der Gemeinsamen Normdatei (GND) mit ORCID-Records verknüpft

Paul Vierkant Blog, GND 0 Comments

Eine neue Kennzahl zur Verbreitung der ORCID iD in Deutschland wurde in diesem Frühjahr im Rahmen des Projekts ORCID DE erreicht: Zu den bis Ende Februar 7.500 manuell in GND-Datensätzen eingetragene ORCID iDs wurden 43.000 per Match&Merge-Verfahren ermittelte ORCID iDs in die GND eingespielt:GND-ORCID-Matching

Nach zwei unterschiedlichen, nacheinander ausgeführten Verfahren wurden nur die mit höchster Wahrscheinlichkeit übereinstimmenden Matches weiterverarbeitet.

  • Bei einem Drittel der Matches stimmen die Affiliationen überein. Dabei wurden nur vollständige Namensformen und Affiliationen (ggf. bis auf Institutsebene) berücksichtigt, um Fehler auszuschließen.
  • Bei zwei Dritteln entspricht mindestens eine Publikation im ORCID-Record (works section) einem Titeldatensatz im deutschsprachigen Raum (Culturegraph), der mit einem GND-Datensatz verknüpft ist. Dafür war der Matchschlüssel aus Name+Titel ausschlaggebend.

Die beiden Verfahren ergänzen sich gut, nur 4.800 Personen matchen in beiden Verfahren.

Auch einige Dubletten konnten mit den Verfahren auf beiden Seiten aufgespürt werden. Sie erzeugen widersprüchliche Matches, die für die Weiterverarbeitung abgelehnt wurden und manuell zusammengelegt werden können.

Die ständig wachsende Zahl ORCID iDs in den GND-Datensätzen nutzt nicht nur den GND-Anwendern, sie kann auch bei bei anderen maschinellen Verfahren im GND-Kontext angewendet werden: Bis heute wurden bereits über 200.000 Netzpublikationen mit mindestens einer ORCID iD der beteiligten Personen an die Deutsche Nationalbibliothek abgeliefert, mehrere Hundert kommen täglich hinzu. Derzeit wird an einer Routine gearbeitet, die Titeldaten mit GND-Personen verknüpft, wenn die ORCID IDs übereinstimmen. Damit kann die Metadatenqualität der maschinellen Verfahren erhöht werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.