Sollen Verlage Forschungsdaten an KI-Unternehmen weitergeben?

DEBATTE

Sollen Verlage Forschungsdaten an KI-Unternehmen weitergeben?

Imanol Schlag und Mathias Decuypere, 28. November 2024

Foto: ZVG

Jasagt Imanol Schlag.

Foto: ZVG

Neinsagt Mathias Decuypere.

Verlage halten riesige Mengen wissenschaftlicher Daten hinter Paywalls. In diese Fülle an Informationen sind unzählige Forschungsstunden und Milliarden an Steuergeldern geflossen. Diese wertvollen Ressourcen sollten sowohl für Analysen durch Forschende als auch für die Verarbeitung durch KI frei zugänglich sein. Der potenzielle Nutzen einer Offenlegung dieser Daten ist enorm. KI-Systeme können grosse Mengen an wissenschaftlicher Literatur schnell verarbeiten und analysieren und dabei verborgene Zusammenhänge zwischen Disziplinen aufdecken, die Forschende möglicherweise übersehen. In Kombination mit menschlichem Fachwissen könnte dies den Prozess wissenschaftlicher Entdeckungen massiv beschleunigen. Forschende würden von einem uneingeschränkten Zugang zu den neuesten Erkenntnissen auf ihren Fachgebieten profitieren, was Innovation und Zusammenarbeit fördert. KI könnte ausserdem dazu beitragen, die Flut von publizierten Forschungsdaten zu organisieren, wodurch es für Forschende einfacher würde, sich über die Entwicklungen in ihrem Fachgebiet auf dem aktuellen Stand zu halten. Angesichts drängender globaler Herausforderungen können wir es uns nicht leisten, diesen Wissensschatz ungenutzt zu lassen.

«KI könnte dazu beitragen, die Flut von publizierten Forschungsdaten zu organisieren.»

Bedenken über rechtliche Aspekte und die akademische Integrität sind legitim, aber überwindbar. Es braucht durchdachte Richtlinien für den Einsatz von KI und klare Regeln für Quellenangaben. Open-Access-Modelle in der Informatik, wo Spitzenforschung oft über Preprint-Server frei zugänglich ist, haben gezeigt, dass Qualität und Innovation kein Widerspruch zu freiem Zugang sind.

Kurz: Ja, die Verlage sollten ihre Forschungsergebnisse KI-Unternehmen und Forschenden zur Verfügung stellen – gratis. Die mit öffentlichen Mitteln finanzierten Datenmengen der Verlage sollten nicht als Ware gesehen werden, sondern als zentrale Ressource für den menschlichen Fortschritt. Wenn die Verlage ihre Daten sowohl für menschliche Analysen als auch für die KI-Verarbeitung freigeben, können sie das volle Potenzial wissenschaftlicher Arbeiten freisetzen.

Imanol Schlag, Forscher am ETH AI Center, ist Co-Leiter des Projekts Large Language Model der Swiss AI Initiative. Zuvor hat er bei Microsoft, Google und Meta geforscht.

In den letzten Monaten wurde bekannt, dass der Verlag Taylor and Francis mit Microsoft einen Vertrag über zehn Millionen US-Dollar abgeschlossen hat. Microsoft darf mit den Routledge-Büchern seine Large Language Models (LLM) trainieren. Andere Verlagshäuser haben ähnliche Vereinbarungen getroffen. Solche Deals bergen jedoch erhebliche Risiken und Nebenwirkungen, die öffentlich diskutiert werden müssen. Wenn die grossen KI-Konzerne Zugang zu Forschungsergebnissen erhalten, wird dies ihren Einfluss auf die Wissensverbreitung nur noch verstärken und die Macht auf wenige Konzerne konzentrieren. Ihre Informationsinfrastruktur würde de facto darüber entscheiden, welches Wissen als wertvoll zu erachten ist und welches nicht. Ausserdem verbraucht der Aufbau dieser KI-Infrastruktur unnachhaltig viele Ressourcen unseres Planeten.

«Der Zugang zu Forschungsergebnissen wird die Machtkonzentration auf einige wenige KI-Konzerne verschärfen.»

Zweitens wird Forschungsethik immer wichtiger. Zum Beispiel bei Erfassung, Analyse, Verarbeitung und Speicherung von Forschungsdaten. Die dafür nötige Sorgfalt und der Aufwand, der getrieben wird, stehen in scharfem Kontrast zum Training von LLM mit Forschungsergebnissen. Dort werden die Prozesse nicht offengelegt, und es existieren kaum ethische Regulierungen. Dies schafft gravierende Probleme: So hat ein Grossteil der Autorinnen der Verwendung ihrer Daten als Trainingsmaterial nie zugestimmt oder weiss nicht einmal davon.

Drittens ist die Wiederverwendung wissenschaftlicher Daten für das LLM-Training eine Form der Nutzung menschlicher Arbeitskraft, mit der die Verlage noch mehr Profit aus öffentlich finanzierter Forschung schlagen. Viele Forschende leisten bereits unbezahlte Arbeit für die Verlage und stellen damit die Qualität der wissenschaftlichen Arbeiten sicher. Diese werden nun nochmals mit Gewinn verkauft – obwohl sie bereits hinter einer Paywall sind oder Open-Access-Gebühren verlangt werden. Wenn die Verlage solche Praktiken verfolgen, müssen die Forschenden wenigstens die Möglichkeit haben, sich explizit dagegen zu entscheiden.

Mathias Decuypere ist Professor für Schulentwicklung und Governance an der PH Zürich. Er erforscht den zunehmenden Einfluss von digitalen Daten und Plattformen auf die Bildung.

Foto: ZVG

Jasagt Imanol Schlag.

«KI könnte dazu beitragen, die Flut von publizierten Forschungsdaten zu organisieren.»

Imanol Schlag, Forscher am ETH AI Center, ist Co-Leiter des Projekts Large Language Model der Swiss AI Initiative. Zuvor hat er bei Microsoft, Google und Meta geforscht.

Foto: ZVG

Neinsagt Mathias Decuypere.

«Der Zugang zu Forschungsergebnissen wird die Machtkonzentration auf einige wenige KI-Konzerne verschärfen.»

Mathias Decuypere ist Professor für Schulentwicklung und Governance an der PH Zürich. Er erforscht den zunehmenden Einfluss von digitalen Daten und Plattformen auf die Bildung.

CC BY-NC-ND

Horizonte

DEBATTE

Sollen Verlage Forschungsdaten an KI-Unternehmen weitergeben?