Desarrollo y aceleración hardware de metodologías de descripción y comparación de compuestos orgánicos

Show simple item record

dc.contributor.author Oliver Gelabert, Antonio
dc.date 2017
dc.date.accessioned 2018-10-05T07:47:34Z
dc.date.available 2018-10-05T07:47:34Z
dc.date.issued 2018-10-05
dc.identifier.uri http://hdl.handle.net/11201/147952
dc.description.abstract [spa] El ritmo al que crecen los datos en la sociedad actual y la llegada de la tecnolog´ıa de transistor a sus l´ımites de tama˜no exige la puesta en marcha de soluciones para el procesado de estos datos de manera eficiente en campos espec´ıficos de aplicaci´on. Esta Tesis doctoral de car´acter transdisciplinar y a medio camino entre la ingenier´ıa electr´onica y la qu´ımica computacional presenta soluciones optimizadas en hardware (HW) y en software (SW) para el procesado de bases de datos moleculares. En la v´ıa HW se propone y estudia el funcionamiento de bloques digitales que implementan funciones en l´ogica pulsante estoc´astica enfocadas a tareas de reconocimiento de objetos. Especialmente se proponen y analizan dise˜nos digitales para la construcci´on de generadores de n´umeros aleatorios (RNG) como base de estos sistemas implementados en dispositivos Field Programable Gate Array (FPGA). Entre las dos v´ıas de desarrollo (HW y SW), se propone y eval´ua un conjunto reducido de descriptores moleculares orientados a la caracterizaci´on de compuestos org´anicos. Estos descriptores recogen informaci´on sobre la distribuci´on de carga y se utilizan tambi´en en los sistemas de computaci´on estoc´astica en HW. Finalmente se proponen optimizaciones para el c´alculo del potencial electrost´atico molecular (MEP) calculado con la teor´ıa del funcional de la densidad (DFT) y de los puntos de interacci´on molecular derivados (SSIP). Tambi´en se propone un m´etodo muy r´apido para el c´alculo del MEP. Por una parte, los resultados obtenidos ponen de manifiesto la importancia de la uniformidad del RNG en el per´ıodo de evaluaci´on para poder implementar sistemas de computaci´on estoc´astica de alta fiabilidad. Adem´as, los RNG propuestos tienen una aleatoriedad aperi´odica que elimina la necesidad de preocupaci´on por la semilla inicial. Por tanto se recomienda su aplicaci´on a sistemas de computaci´on estoc´astica Por otra parte, el conjunto de descriptores moleculares propuestos, PED, han mostrado obtener muy buenos resultados en comparaci´on con otros m´etodos presentes en la literatura. Este hecho se ha discutido mediante los par´ametros Area Under the Curve (AUC) i Enrichment Factor (EF) obtenidos de las curvas promedio Receiving Operating Characteristic (ROC). Adem´as, se ha mostrado como la eficacia de los descriptores aumenta cuando se implementan en sistemas de clasificaci´on con aprendizaje supervisado, haci´endolos adecuados para la construcci´on de un sistema de predicci´on de dianas terap´euticas altamente eficiente. En esta Tesis adem´as, se ha determinado que los MEP calculados utilizando DFT y el conjunto de bases B3LYP/6-31*G en la superficie de densidad electr´onica 0,01 au correlacionan mejor con datos experimentales que los MEP calculados en la superficie con densidad electr´onica 0,002 au. Esto puede ser debido presumiblemente a la mayor contribuci´on de las propiedades electrost´aticas locales en el c´alculo del MEP. Las parametrizaciones propuestas en funci´on del tipo de hibridaci´on at´omica y la eliminaci´on de zonas inaccesibles pueden haber contribuido tambi´en en la mejora de los resultados obtenidos. Los c´alculos realizados en dichas superficies suponen mejoras en un factor cinco en la velocidad de procesamiento. Dado el aceptable ajuste a datos experimentales del m´etodo propuesto para el c´alculo del MEP aproximado y de los SSIP derivados, ´este se puede utilizar con el fin de obtener estas magnitudes para bases de datos moleculares extensas o para macromol´eculas como prote´ınas de manera muy r´apida (ya que la velocidad de procesamiento obtenida es del orden de cinco mil ´atomos procesados por segundo utilizando una sola CPU). Estas t´ecnicas resultan de especial inter´es de cara a la b´usqueda de SSIP y sus aplicaciones en el cribado virtual de cocristales o en la predicci´on de energ´ıas libres en estado l´ıquido, as´ı como para su posible aplicaci´on al docking. ca
dc.description.abstract [cat] El creixement accelerat de les dades en la societat actual i l’arribada de la tecnologia del transistor als l´ımits f´ısics exigeix la proposta d’alternatives eficients orientades al processament molt r`apid de dades. Aquesta Tesi doctoral, de car`acter transdisciplinar i a mig cam´ı entre els camps de l’enginyeria electr`onica i la qu´ımica computacional presenta solucions optimitzades en maquinari (HW) i en programari (SW) per tal d’optimitzar el processament de bases de dades moleculars. Quant al HW es proposa i s’estudia el funcionament de blocs digitals que implementen funcions de l`ogica polsant estoc`astica aplicades a tasques de reconeixement d’objectes. Especialment es proposen, analitzen dissenys espec´ıfics per a la construcci´o de generadors de nombres aleatoris (RNG) com a sistemes b`asics per al funcionament dels sistemes de computaci´o estoc`astics en implementats en dispositius Field Programable Gate Array (FPGA). Entre ambdues vies de desenvolupament (HW i SW) es proposen i avaluen un conjunt redu¨ıt de descriptors moleculars especialment orientats a la caracteritzaci´o de compostos org`anics. Aquests descriptors reuneixen la informaci´o sobre la distribuci´o de c`arrega molecular i s’utilitzen tamb´e en sistemes de computaci´o estoc`astica implementats en HW. Finalment es proposen optimitzacions per al c`alcul del potencial electrost`atic molecular (MEP) calculat mitjan¸cant la teoria del funcional de la densitat (DFT) i dels punts d’interacci´o que se’n deriven (SSIP). Tamb´e es proposa un m`etode molt r`apid per al c`alcul del MEP i dels SSIP. Per una banda, els resultats obtinguts posen de manifest la import`ancia de la uniformitat del RNG en el per´ıode d’avaluaci´o per a poder implementar sistemes de computaci´o estoc`astics d’alta fiabilitat. A m´es, els RNG proposats disposen d’una Font d’aleatorietat aperi`odica que elimina la necessitat de preocupaci´o per la llavor inicial. Per tant, es recomana la seva aplicaci´o a sistemes de computaci´estoc`astica. Per una altra banda, el conjunt de descriptors moleculars proposats, PED, han demostrat obtenir molts bons resultats en comparaci´o amb els m`etodes presents a la literatura. Aquest fet ha estat discutit mitjan¸cant l’an`alisi dels par`ametres Area Under The Curve (AUC) i Enrichment Factor (EF) de les curves Receiving Operating Characteristic (ROC). A m´es, s’ha mostrat com l’efic`acia dels descriptors augmenta de manera significativa quan s’implementen en sistemes de classificaci´o amb aprenentatge supervisat com les finestres de Parzen, fent-los adequats per a la construcci´o d’un sistema de predicci´o de dianes terap`eutiques eficient. En aquesta Tesi doctoral a m´es, s’ha trobat que els MEP calculats mitjan¸cant la teoria DFT i el conjunt de bases B3LYP/6-31*G en la superf´ıcie amb densitat electr`onica 0,01 au correlacionen millor amb dades experimentals que els MEP calculats en la superf´ıcie amb densitat electr`onica 0,002 au. Aquest fet pot ser degut presumiblement a la major contribuci´o de les propietats electrost`atiques locals en el c`alcul del MEP. Les parametritzacions proposades en funci´o del tipus d’hibridaci´o at`omica i l’eliminaci´o de regions inaccessibles poden haver contribu¨ıt tamb´e a la millora dels resultats obtinguts. Els c`alculs realitzats en aquestes superf´ıcies, a m´es, suposen una millora en un factor cinc en velocitat de processament. Finalment, donat l’acceptable ajust a les dades experimentals del m`etode proposat per al c`alcul del MEP aproximat i dels SSIP derivats, aquest es pot utilitzar per obtenir aquestes magnituds per bases de dades moleculars extenses o per a macromol`ecules com prote¨ınes de manera molt r`apida (ja que la velocitat de processament obtinguda arriba fins als cinc mil `atoms per segon amb una sola CPU). Aquestes t`ecniques resulten d’especial inter`es de cara a la cerca de SSIP i donades les seves aplicacions en el cribratge virtual de cocristalls o en la predicci´o d’energies lliures en l’estat l´ıquid, aix´ı com per la seva potencial aplicaci´o al docking ca
dc.description.abstract [eng] The big amount of data generated by our actual society and technology arriving at his limits requires technical solutions for efficient data processing. In this transdisciplinary Thesis in the middle between the areas of electronic engineering and computational chemistry, it’s shown different Hardware (HW) and Software (SW) solutions for efficient data processing oriented to specific applications in the field of molecular database processing. In relation with HW solutions, there’s proposed and studied pulse stochastic computing logic systems in order to implement ultrafast pattern recognition applications. Specially, it’s proposed and analyzed specific digital designs to create a digital Random Number Generators (RNG) as a base for stochastic computing functions using Field Programmable Gate Arrays (FPGA). Between the HW and SW solution there’s proposed and evaluated a set of molecular descriptors designed for organic compounds characterization. The proposed descriptors gather charge and molecular geometry information and can be used in application to HW fast stochastic computing systems. Finally, there’s a proposed a set of optimizations for Molecular Electrostatic Potential (MEP) calculated with Density Functional Theory (DFT) and derived Surface Site Interaction Points (SSIP). Also, a very fast method for approximate MEP calculation and derived SSIP is proposed. Firstly, a set of results show the relevance of uniform RNG within the evaluation period in order to implement high precision stochastic computing Systems. In addition, the proposed RNG have an aperiodic randomness which allows ignoring the initial seed. Then it is recommended for the implementation of stochastic computing systems. Secondly, the proposed molecular descriptors, PED, have demonstrated to provide good results in comparison with other methods present in the literature. This has been discussed by the use of Area Under the Curve (AUC) and Enrich ment Factor (EF) of averaged Receiving Operating Characteristic (ROC) curves. Furthermore, the performance of the proposed descriptors gets increased when implemented in supervised machine learning algorithms making them appropriate for therapeutic target predictions. Moreover, in this Thesis, it has been found that the MEP calculated with DFT and B3LYP/6-31*G basis at 0,01 au density surface has better correlation with experimental data than the calculation over most used 0,002 au surface. This fact could be due to bigger contribution of local electrostatics, the refinement performed by the parameterization as a function of the orbital atom type and due to the deletion of inaccessible regions. Additionally, the proposed calculation over 0,01 au implies a factor five in terms of gain of speed of computation. Finally, due to acceptable agreement between experimental data and theoretical results obtained by using the proposed method to fast MEP approximation and derived SSIP, the proposed method is suitable to being used in order to obtain those properties in big molecular databases and macromolecules in an efficient way (being able to process five thousand molecules per second with using only one CPU). The proposed techniques have special interest with the purpose of finding SSIP and their applications in virtual cocrystal screening, free energies in solution and by potential new usages as for instance in molecular docking ca
dc.format application/pdf
dc.format.extent 300 ca
dc.language.iso spa ca
dc.publisher Universitat de les Illes Balears
dc.rights all rights reserved
dc.rights info:eu-repo/semantics/openAccess
dc.title Desarrollo y aceleración hardware de metodologías de descripción y comparación de compuestos orgánicos ca
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.subject.udc 621.3 - Enginyeria elèctrica. Electrotècnia. Telecomunicacions ca
dc.subject.ac Enginyeria Electrònica ca
dc.contributor.director Rosselló Sanz, José Luis
dc.contributor.director Prohens López, Rafael
dc.contributor.tutor Rosselló Sanz, José Luis
dc.doctorat Doctorat en Enginyeria Electrònica (vigent)


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search Repository


Advanced Search

Browse

My Account

Statistics