Collaborare con i data scientist per migliorare l’estrazione e l’analisi chimica online

In passato, mi sono apertamente lamentato dell’apparente mancanza di sostegno della National Science Foundation (NSF) per la ricerca sulla scienza della separazione fondamentale. Lo scorso autunno, sono stato incoraggiato a ricevere una sovvenzione NSF (CHE-2108767) per sostenere le esplorazioni su come le tecniche di scienza dei dati potrebbero essere utilizzate per far avanzare complessi sistemi di estrazione e analisi online. Sono disposto a mangiare le mie parole passate in una certa misura. Sebbene ritenga che si possa sempre fornire un maggiore supporto alla ricerca federale, con questo supporto al progetto stiamo studiando le relazioni fondamentali tra le strutture delle molecole e la loro interazione con materiali diversi, nel contesto dell’estrazione di fluidi supercritici in linea – cromatografia dei fluidi supercritici (SFE ) –SFC).

Sebbene non intenda approfondire i dettagli del progetto completo, il nostro intento è quello di combinare l’apprendimento automatico e le tecniche di ottimizzazione sostitutiva per raggiungere in modo efficiente condizioni SFE-SFC ottimali per un’ampia gamma di applicazioni. Una grande sfida è riuscire a generare una metodologia che possa funzionare su un’ampia gamma di tipi di molecole e materiali. È noto che SFE e SFC sono applicabili in gran parte dello spazio che sia la gascromatografia che la cromatografia liquida possono analizzare. I materiali in esame sono quelli che potrebbero contenere le molecole da cui devono essere estratti (come i materiali del campione), nonché le fasi stazionarie SFC, che vengono utilizzate sia per intrappolare che per separare le molecole.

Anche la derivazione di parametri associati a una molecola che siano predittivi delle sue proprietà fisico-chimiche, nonché delle sue interazioni con un’ampia varietà di materiali, è difficile. Da un lato, si può fare molto determinando relazioni di energia di solvatazione lineare per soluzioni che hanno descrittori di proprietà dettagliati, ma l’insieme di molecole in cui questi descrittori sono noti è limitato e i descrittori non sono facili da determinare per altre molecole di interesse. D’altra parte, proprietà facilmente calcolabili, come pKun o log Pforniscono una capacità predittiva limitata quando le molecole sono presenti in sistemi complessi.

Con questo in mente, abbiamo deciso di perseguire metodi di apprendimento automatico, in grado di codificare l’effettiva struttura chimica del composto e correlarla con le proprietà misurate. Questo tipo di lavoro viene perseguito nella scoperta e nella sintesi di farmaci, ma finora solo in misura molto limitata nella chimica analitica.

Per determinare la migliore strategia di codifica per le strutture chimiche bidimensionali e tridimensionali, abbiamo esplorato il potenziale per prevedere gli spettri di assorbimento UV (VUV) del vuoto. Le tecniche che utilizzano, ad esempio, la teoria del funzionale della densità dipendente dal tempo, fanno un buon lavoro, ma spesso non producono la struttura spettrale fine che possiamo osservare negli spettri VUV sperimentali in fase gassosa. Utilizzando una varietà di metodi di apprendimento profondo, ora abbiamo avuto un buon successo nella previsione degli spettri VUV dalle strutture chimiche e anche viceversa. Ciò dovrebbe creare un potente strumento per aiutare sia il rilevamento VUV per la gascromatografia, sia fornire un quadro per farci avanzare il nostro lavoro per ottimizzare SFE-SFC.

Utilizzeremo anche una tecnica di ottimizzazione surrogata per studiare e ottimizzare le variabili di estrazione e cattura in linea. L’ottimizzazione surrogata è una metodologia di superficie di risposta avanzata, che incorpora una gamma più ampia di funzioni, al fine di gestire superfici di risposta più complesse. Il nostro team ha lavorato al codice, concentrandosi sulla modellazione della risposta all’elettrospray di diversi analiti, che è un po’ più semplice e meno strumentale rispetto al passare all’ottimizzazione SFE-SFC.

Sebbene io sia tutt’altro che in grado di codificare o decodificare qualsiasi Python, è stato estremamente illuminante ottenere un migliore apprezzamento per la scienza dei dati all’avanguardia. La sfida più grande con una tale collaborazione è la comunicazione. Dato che siamo esperti nei nostri domini, cercare di colmare il divario richiede discussioni che spesso scendono a fondamenti molto basilari in ciascuno dei nostri campi. Ma, quando iniziamo a parlare meglio la lingua dell’altro, il potenziale di avanzamento in entrambi i nostri campi è diventato chiaro.

Ora, quando alcuni studenti si diplomano nel team, sarà interessante vedere che tipo di lavoro possono trovare. Non ho dubbi che i chimici analitici con un po’ di esperienza nella scienza dei dati verranno catturati. Mi chiedo di più sui data scientist con un po’ di esperienza in chimica analitica. Le aziende di chimica analitica stanno valutando come potrebbero utilizzare uno scienziato di dati hard-core? Posso attestare l’eccezionale livello di competenza nella scienza dei dati che questi ingegneri industriali possiedono e vorrei, con questo blog, promuoverli alla comunità della chimica analitica. Fammi sapere se stai assumendo in quest’area, o se conosci qualcuno o qualche azienda che lo è.

Kevin A Schug è Professore Ordinario e Distinguished Professor di Chimica Analitica presso il Dipartimento di Chimica e Biochimica dell’Università del Texas ad Arlington. Corrispondenza diretta a: kschug@uta.edu

.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *