Cuando apareció en mi mente por primera vez la idea de que quizás fuera posible estimar la brecha entre bandas (band-gap) de un material a partir de un patrón de difracción de polvos pensé que era una provocación. Provocación porque el tamaño de la brecha es un fenómeno que tiene que ver con transiciones cuantizadas entre estados electrónicos. Sin embargo, es sabido desde hace tiempo que muchas de las propiedades electrónicas de los materiales cristalinos se explican a través del espacio recíproco y de sus vectores de onda. Después de todo, en un experimento de difracción lo que se mide es ese espacio recíproco, aunque en un patrón de polvos éste aparezca comprimido en una sola dimensión. Si fuera posible establecer esa conexión entre el band-gap y un patrón de polvos, estaríamos en la antesala de poner al alcance de los usuarios de la difracción de rayos X de polvo otro tipo de información, como la estructura entre bandas o la densidad de estados.
De probar esa idea salió el artículo que en diciembre pasado se publicó en Journal of Applied Crystallography (J. Appl. Cryst.). Una parte crucial para el desarrollo de esa investigación fue tener acceso a bases de datos de materiales cristalinos con sus respectivos band-gaps. Afortunadamente, ya para el 2021 existían algunas bases de datos de ese tipo, las cuales tranquilamente superan la decena de miles de compuestos y que con ellos han salido dos muy buenos artículos (Olsthoorn et. al 2019, Rosen et. al 2021) que tratan sobre el uso de descriptores para calcular el band-gap de materiales cristalinos mediante algoritmos de Machine Learning. Y aunque ya haya desarrollos en este sentido, nuestro propósito no es explorar nuevos compuestos mediante descriptores, sino utilizar una información recogida de manera experimental para tener acceso a otras propiedades mediante los mismos algoritmos de Machine Learning.
Además de contar con los band-gaps, es necesario tener disponible la información cristalográfica de dichos materiales para simular los patrones de difracción. En dos de las bases de datos utilizadas (OMDB, de compuestos orgánicos y QMOF, de enrejados metal-orgánicos), esta información está disponible para descargarse en formato CIF (Crystallographic Information File). Cabe mencionar que la información cristalográfica de OMDB también se puede encontrar en Crystallography Open Database. En la otra base de datos utilizada, de compuestos inorgánicos, se encuentran las claves de los compuestos de la base de datos del ICSD, con la cual no es posible tener acceso a toda la información cristalográfica mediante la ejecución de un script. Para el artículo publicado en J. Appl. Cryst. se compararon los compuestos inorgánicos de la base de datos con los disponibles en COD. No obstante, los autores de la base de datos inorgánica también ponen a disposición la información cristalográfica de las estructuras optimizadas en formato JSON (JavaScript Object Notation), que puede ser transformado a POSCAR (un tipo de archivo de entrada del programa VASP), y de ahí a CIF.
Cabe mencionar que todos los band-gaps reportados en las tres bases de datos se calcularon mediante teoría de funcionales de la densidad. Para los compuestos orgánicos y MOFs, se utilizó el funcional PBE. De la base de datos de compuestos inorgánicos se utilizaron los band-gaps reportados con el funcional HSE, que es un funcional híbrido y da mejores estimaciones de los band-gaps cercanos los resultados experimentales que los funcionales de tipo GGA, como lo es el funcional PBE. Materials Project cuenta con información de band-gaps de compuestos inorgánicos mediante el funcional PBE. También quiero señalar que hasta ahora desconozco si hay un banco de datos suficientemente grande de band-gaps medidos experimentalmente. En caso de existir tal base de datos es importante que los band-gaps sean medidos mediante la misma técnica experimental y condiciones termodinámicas.
Con todos estos antecedentes, se procedió a probar la hipótesis, que consiste en que se puede establecer una correlación entre los patrones de polvos de muestras sólidas de una sola fase con sus band-gaps. Los resultados de dicha investigación están publicados en la revista ya mencionada. El manuscrito se envío en mayo de 2021 y se aceptó en octubre del mismo año. El artículo apareció publicado en línea a finales de noviembre. Es decir, seis meses de novedad perdidos.
Por esa razón, me gustaría resaltar algunas contribuciones y mejoras encontradas desde que el manuscrito se envió:
- Las redes neuronales convolucionales no necesitan ser tan profundas como las reportadas en J. Appl. Cryst. En dicho artículo, se utilizan CNNs basadas en bloques residuales. En estos bloques residuales hay cuatro convoluciones en el camino principal. Se ha encontrado resultados comparables a los reportados ahí utilizando bloques residuales con dos convoluciones en el camino principal. Esto último contribuye a reducir los tiempos y recursos computacionales en el entrenamiento de las redes.
- Los lectores del artículo mencionado encontrarán que los difractogramas de polvos alimentados a las CNNs son, esencialmente, imágenes unidimensionales de dos canales (Las imágenes convencionales utilizan tres canales RGB). En un canal se cuenta con la intensidad del patrón de difracción normalizada, y en el otro el seno del ángulo difractado. Se ha encontrado que se puede prescindir de este canal para desarrollar las CNNs.
- Utilizar Average Pooling en lugar de Max Pooling ha resultado en curvas de aprendizaje más monótonas y mejores estimaciones. Otro tanto ocurre al utilizar Global Average Pooling en lugar de Flatten al final de la parte convolucional, además de que ayuda a disminuir el número de parámetros de la red y, así, costos computacionales.
- Incluir la composición de la muestra como datos de entrada de las redes neuronales convolucionales ayuda a obtener mejores estimaciones que sólo utilizando los patrones de difracción de polvos. En el artículo de J. Appl. Cryst. la composición de la muestra se modela utilización sólo información cualitativa. Recientemente, al utilizar información cuantitativa las últimas CNNs desarrolladas en el proyecto estiman el band-gap con:
| Conjunto de datos | MAE (eV) | RMSE (eV) |
| MOFs | 0.4060 | 0.5780 |
| Orgánicos | 0.5583 | 0.7282 |
| Inorgánicos | 0.5495 | 0.8359 |
Sobre la manera en que se modela la información cuantitativa se hablará en otra entrada, ya que esa información es parte de un manuscrito se ahora encuentra en revisión.
Para terminar esta entrada, es importante señalar que se espera que las estimaciones de las CNNs mejorarán conforme el acervo de band-gaps y bases cristalográficas se incremente. Por ahora, esto puede pasar por una provocación que ya fue revisada por pares.