Preview

Известия высших учебных заведений. Нефть и газ

Расширенный поиск

Цифровой керн: нейросетевое распознавание текстовой геолого-геофизической информации

https://doi.org/10.31660/0445-0108-2023-2-35-54

Аннотация

Представлен алгоритм аналого-цифрового преобразования первичной геологогеофизической информации (на примере идентификации литотипов горных пород на базе текстового описания физического керна).
В рамках работы реализовано комплексирование трех видов научных исследований — поисковое, междисциплинарное и прикладное при формировании исходной базы качественных данных.
Описаны распространенные алгоритмы для классификации текстовой информации и механизм предобработки исходных данных с использованием токенизации.
Концепция распознавания текстовых образов реализована с привлечением методов искусственного интеллекта.
Для создания нейросетевой модели распознавания текстовой геолого-геофизической информации использован язык программирования Python в сочетании с технологиями сверточных нейросетей для классификации текста (TextCNN), сетей двунаправленной длительной-кратковременной памяти (BiLSTM) и сетей представлений двунаправленного кодера (BERT).
Стек данных технологий и языка программирования Python, после разработки и апробации базового варианта нейросетевой модели распознавания качественной информации, обеспечили приемлемый уровень работы алгоритма цифровой трансформации текстовых данных.
Наилучший результат (текущая версия нейросетевой модели 1.0; более 3 000 примеров для обучения и тестирования) достигнут при использовании алгоритма распознавания текстовых данных на базе BERT с точностью на валидационном сете (Validation Accuracy) ~0.830173 (25 эпоха), с потерями на валидационном сете (Validation Loss) ~0.244719, с потерями во время обучения (Training Loss) ~0.000984 и вероятностью распознавания исследуемых литотипов горных пород более 95 %.
Определены механизмы модификации кода для дальнейшего улучшения точности текстового прогноза на базе созданной нейросети.

Об авторах

Ю. Е. Катанов
Тюменский индустриальный университет
Россия

Катанов Юрий Евгеньевич, кандидат геолого-минералогических наук, доцент кафедры прикладной геофизики, ведущий научный сотрудник лаборатории технологий капитального ремонта скважин и интенсификации притока

г. Тюмень



А. И. Аристов
Тюменский индустриальный университет
Россия

Аристов Артем Игоревич, лаборант лаборатории цифровых исследований в нефтегазовой отрасли

г. Тюмень



А. К. Ягафаров
Тюменский индустриальный университет
Россия

Ягафаров Алик Каюмович, доктор геолого-минералогических наук, профессор

г. Тюмень



О. Д. Новрузов
Тюменский индустриальный университет
Россия

Новрузов Орхан Джанполад оглы, лаборант лаборатории цифровых исследований в нефтегазовой отрасли

г. Тюмень



Список литературы

1. Катанов, Ю. Е. Исследование влияния капиллярных явлений при фильтрации двухфазных несмешивающихся жидкостей в пористых средах / Ю. Е. Катанов, А. К. Ягафаров, И. И. Клещенко [и др.]. – DOI 10.31660/0445-0108-2020-1-19-29. – Текст : непосредственный // Известия высших учебных заведений. Нефть и газ. – 2020. – № 1. – С. 19–29.

2. Katanov, Yu. E. A probabilistic and statistical model of rock deformation / Yu. E. Katanov. – Text : electronic // E3S Web of Conferences. – 2021. – Vol. 266. – URL: https://doi.org/10.1051/e3sconf/202126603011. – Published: June, 04, 2021.

3. Katanov, Yu. E. Geological and mathematical description of the rocks strain during behavior of the producing solid mass in compression (Tension) / Yu. E. Katanov, Yu. V. Vaganov, M. V. Listak. – DOI 10.33271/mining15.04.091. – Direct text // Journal of Mines, Metals & Fuels. – 2020. – Vol. 68, Issue 9. – P. 285–293.

4. Ломов, П. А. Аугментация обучающего набора при обучении нейросетевой языковой модели для наполнения онтологии / П. А Ломов, М. Л. Малоземова.– DOI 10.37614/2307-5252.2021.5.12.002 – Текст : непосредственный // Труды Кольского научного центра РАН. Информационные технологии. – 2021. – Вып. 12. – Т. 12, № 5. – С. 22–34.

5. Сайгин, А. А. Векторизация нормативно-справочной информации с помощью модели нейронной сети BERT / А. А. Сайгин, Н. П. Плотникова. – Текст : электронный // Информационные технологии и математическое моделирование в управлении сложными системами : электронный журнал. – 2021. – № 2. – С. 52–59. – URL: https://doi.org/10.26731/2658-3704.2021.2(10).52-59.

6. Соломин, А. А. Современные подходы к мультиклассовой классификации интентов на основе предобученных трансформеров / А. А. Соломин, Ю. А. Иванова. – DOI 10.17586/2226-1494-2020-20-4-532-538. – Текст : непосредственный // Научно-технический вестник информационных технологий, механики и оптики. – 2020. – Т. 20, № 4. – С. 532–538.

7. Text classification models for the automatic detection of nonmedical prescription medication use from social media / M. A. Al-Garadi, Y. C. Yang, H. Cai [et al.]. – Text : elctronic // BMC medical informatics and Decision Making. – 2021. – Vol. 21. – URL: https://doi.org/10.1186/s12911-021-01394-0. Published: January, 26, 2021.

8. Comparison of Pre-Trained Language Models for Multi-Class Text Classification in the Financial Domain / Y. Arslan, K. Allix, L. Veiber [et al.]. – DOI 10.1145/3442442.3451375. – Direct text // Companion Proceedings of the Web Conference. – 2021. – P. 260–268.

9. Çelikten, A. Turkish Medical Text Classification Using BERT / A. Çelikten, H. Bulut. – Text : electronic // 2021 29th Signal Processing and Communications Applications Conference (SIU). IEEE. – 2021. – URL: https://doi.org/10.1109/SIU53274.2021.9477847.

10. Das, S. Identification of Cognitive Learning Complexity of Assessment Questions Using Multi-class Text Classification / S. Das, S. K. D. Mandal, A. Basu. – DOI 10.30935/cedtech/8341. – Text : electronic // Contemporary Educational Technology. – 2020. – Vol. 12, Issue 2. – URL: https://doi.org/10.30935/cedtech/8341.

11. Auto-labelling entities in low-resource text : a geological case study / M. Enkhsaikhan, W. Liu, E. J. Holden, P. Duurin. – DOI: 10.1007/s10115-020-01532-6. – Direct text // Knowledge and Information Systems. – 2021. – Vol. 63. – P. 695–715.

12. Gao, X. Named entity recognition in material field based on Bert-BILSTMAttention-CRF / X. Gao, Q. Li. – DOI 10.1109/TOCS53301.2021.9688665. – Direct text // 2021 IEEE Conference on Telecommunications, Optics and Computer Science (TOCS). – 2021. – P. 955–958.

13. Glazkova, A. A Comparative study of Feature Types for Age-Based Text Classification / A. Glazkova, Yu. Egorov, M. Glazkov. – DOI 10.1007/978-3-030-72610-2_9. – Direct text // International Conference on Analysis of Images, Social Networks and Texts. – 2020. – P. 120–134.

14. Evaluating Transformer-Based Multilingual Text Classification / S. Groenwold, S. Honnavalli, L. Ou [et al.]. – Text : electronic // arXiv:2004.13939v2 [cs.CL]. – 2020. – URL: https://doi.org/10.48550/arXiv.2004.13939.

15. Research on a geological entity relation extraction model for gold mine based on BERT / X. Huang, Y. Zhu, L. Fu [et al.]. – DOI 10.12090/j.issn.1006-6616.2021.27.03.035. – Direct text // Journal of Geomechanics. – 2021. – Vol. 27, Issue 3. – P. 391–399.

16. BERT for Russian news clustering / A. S. Kabaev, S. V. Khaustov, N. E. Gorlova, A. V. Kalmykov. – Text : electronic // Computational Linguistics and Intellectual Technologies. – 2021. – URL: https://doi.org/10.28995/2075-7182-2021-20-385-390.

17. Chinese named entity recognition in the geoscience domain based on BERT / X. Lv, Z. Xie, D. Xu [et al.]. – Text : electronic // Earth and Space Science. – 2022. – Vol. 9, Issue 3. – URL: https://doi.org/10.1029/2021EA002166. – Published: February, 14, 2022.

18. What is this article about? Generative summarization with the BERT model in the geosciences domain / K. Ma, M. Tian, Y. Tan [et al.]. – DOI 10.1007/s12145-021-00695-2. – Direct text // Earth Science Informatics. – 2022. – Vol. 15. – P. 21–36.

19. Piao, G. Scholarly Text Classification with Sentence BERT and Entity Embeddings / G. Piao. – DOI 10.1007/978-3-030-75015-2_8. – Direct text // PAKDD 2021 : Trends and Applications in Knowledge Discovery and Data Mining. – 2021. – P. 79–87.

20. Prabhu, S. Multi-class Text Classification using BERT-based Active Learning / S. Prabhu, M. Mohamed, H. Misra. – Text : electronic // arXiv:2104.14289v2 [cs.IR]. – 2021. – URL: https://doi.org/10.48550/arXiv.2104.14289.

21. A Fine-Tuned BERT-Based Transfer Learning Approach for Text Classification / R. Qasim, W. H. Bangyal, M. A. Alqarni, A. Ali Almazroi. – Text : electronic // Journal of Healthcare Engineering. – 2022. – URL: https://doi.org/10.1155/2022/3498123. – Published: January, 07, 2022.

22. Text classification on software requirements specifications using transformer models / D. Kici, A. Bozanta, M. Cevik. [et al.]. – DOI 10.5555/3507788.3507811. – Direct text // Proceedings of the 31st Annual International Conference on Computer Science and Software Engineering. – 2021. – P. 163–172.

23. Lun, C. H. Extracting Knowledge with NLP from Massive Geological Documents / C. H. Lun, T. Hewitt, S. Hou // 82nd EAGE Annual Conference & Exhibition. European Association of Geoscientists & Engineers. – 2021. – URL: https://doi.org/10.3997/2214-4609.202112807.

24. Smetanin, S. I. Toxic comments detection in Russian / S. I. Smetanin. – DOI 10.28995/2075-7182-2020-19-1149-1159. – Direct text // Computational Linguistics and Intellectual Technologies. – 2020. – P. 1149–1159.


Рецензия

Для цитирования:


Катанов Ю.Е., Аристов А.И., Ягафаров А.К., Новрузов О.Д. Цифровой керн: нейросетевое распознавание текстовой геолого-геофизической информации. Известия высших учебных заведений. Нефть и газ. 2023;(3):35-54. https://doi.org/10.31660/0445-0108-2023-2-35-54

For citation:


Katanov Yu.E., Aristov A.I., Yagafarov A.K., Novruzov O.D. Digital core: neural network recognition of textual geological and geophysical information. Oil and Gas Studies. 2023;(3):35-54. (In Russ.) https://doi.org/10.31660/0445-0108-2023-2-35-54

Просмотров: 273


ISSN 0445-0108 (Print)