News

Materialeigenschaften mit KI vorhersagen

Internationales Team trainiert Large Language Models für Vorhersage von Materialeigenschaften.

Molekül, das aus einem Computerbildschirm kommt

© TU Wien / Dennis Svatunek

1 von 2 Bildern oder Videos

Comic zu Molekülen.

© TU Wien / Dennis Svatunek

1 von 2 Bildern oder Videos

Large Language Models (LLMs), zu denen auch Chat GPT gehört, werden bereits von Vielen genutzt. Denn der große Vorteil dieser KI-Anwendungen ist, dass sie sich mit natürlicher Sprache bedienen lassen und keine spezifischen Fachkenntnisse erfordern. Um zu testen, ob LLMs sich auch in der Chemie sinnvoll einsetzen lassen, schlossen sich Forschende von mehr als 30 Institutionen zusammen, um verschiedene LLMs gemeinsam zu trainieren und die Ergebnisse anschließend zu validieren. Initiiert wurde dieses Vorhaben von Forschenden aus Lausanne, die auf der Suche nach Trainingsdatensätzen waren. Dennis Svatunek von der TU Wien ist diesem Aufruf gefolgt. Er forscht an bioorthogonalen Reaktionen und steuerte einen entsprechenden Datensatz mit knapp 1.000 Datenpunkten bei. 

Training mit Frage-Antwort-Kombi

Große Sprachmodelle basieren auf riesigen Datenmengen, ihr Wissen über Chemie ist jedoch eher lehrbuchartig. So kommt es, dass sich LLMs zwar gut nutzen lassen, um zum Beispiel Code zu schreiben, möchte man aber eine spezielle Frage zu einem Material beantworten, fällt die Antwort meist zufällig aus. Möchte man zum Beispiel wissen, ob ein Material viskos ist oder sich zur Speicherung von Wasserstoff eignet, muss man das System daher erst mit Referenzdaten füttern. „Beim fine-tuning erhält das LLM eine Kombination aus Frage und Antwort, zum Beispiel‚ ‚eignet sich das Material XY zur Speicherung von Wasserstoff?‘ – ‚Ja‘, wobei mit der Anzahl der Trainingsfragen die Wahrscheinlichkeit steigt, dass die Antwort für ähnliche Materialien korrekt ausfällt“, erklärt Dennis Svatunek. 

Die Fragestellungen können sehr unterschiedlich ausfallen, sofern es geeignete Datensätze gibt, mit denen sich die KI trainieren lässt. Das Schema ist immer das gleiche: Ein Teil des Datensatzes wird für das fine-tuning der LLMs genutzt, anhand des zweiten Teils der Daten kann anschließend untersucht werden, ob die Vorhersage des LLMs korrekt ist. „Hier reichen bereits wenige hundert Datenpunkte aus, um relativ gute Vorhersagen zu treffen“, so Svatunek. „Nichtsdestotrotz sind Datensätze dieses Umfangs nicht immer vorhanden.“

LLMs können Vorauswahl treffen

Das Team untersuchte die drei Large Language Models GPT-J-6B, Llama-3.1-8B und Mistral-7B, die öffentlich zugänglich sind und auf eigenen Servern betrieben werden können. So kann das Training in einem geschützten Raum erfolgen, was ein weiterer Vorteil der Methode ist. Die Performance war bei allen drei LLMs ähnlich, was den Schluss nahelegt, dass generative KI sich generell zur Vorhersage von Materialeigenschaften eignet.

„Selbstverständlich geht es hier nicht um 100 Prozent sichere Vorhersagen, aber das LLM kann den Forscher oder die Forscherin dabei unterstützen eine Vorauswahl an potenziell passende Materialien oder auch Reaktionen zu treffen und zielgerichtet Experimente durchzuführen“, so Svatunek. Bei der Studie handelt es sich um einen Proof of Concept, je nach konkreter Fragestellung muss die KI entsprechend individuell trainiert werden.  

Damit konnten die Forschenden zeigen, dass sich neben komplexeren, bereits in der Chemie etablierten KI-Anwendungen, auch einfacher zu bedienende open source LLMs nutzen lassen.

Originalpublikation

Van Herck, J., Gil, M. V., Jablonka, K. M., Abrudan, A., Anker, A. S., Asgari, M., ... & Smit, B. (2025). Assessment of fine-tuned large language models for real-world chemistry and material science applications. Chemical Science, 16(2), 670-684.

Rückfragehinweis

Dr. Dennis Svatunek
Technische Universität Wien
Forschungsgruppe Molekulare Chemie und Chemische Biologie
dennis.svatunek@tuwien.ac.at
+43 1 58801 163 452

Text: Sarah Link