Similaridade Semântica
uma Análise de Domínio
DOI:
https://doi.org/10.36311/1981-1640.2024.v18.e024024Palavras-chave:
Análise de Domínio, Similaridade Semântica, Processamento de Linguagem Natural, Organização do ConhecimentoResumo
No campo em rápida evolução do Processamento de Linguagem Natural (PLN), entender o domínio da similaridade semântica é de extrema importância tanto para aplicações acadêmicas quanto industriais. Este artigo apresenta uma análise abrangente do domínio da similaridade semântica, integrando uma abordagem multidisciplinar que abrange conceitos-chave, inter-relações entre essas facetas, partes interessadas, práticas de informação e sistemas de classificação existentes. Elucidamos as ideias centrais, como similaridade léxica e sintática, embeddings e várias métricas de similaridade, e demonstramos como elas estão inter-relacionadas. O artigo também identifica e caracteriza a diversa gama de partes interessadas envolvidas neste domínio, desde pesquisadores acadêmicos e líderes técnicos até formuladores de políticas e comunidades de código aberto. Além disso, exploramos como a informação é disseminada e usada dentro deste domínio, incluindo um exame das tendências de publicação de pesquisas e relatórios industriais. Por fim, o artigo avalia os sistemas de classificação e ontologias existentes que estruturam o conhecimento neste campo. Nossas descobertas visam servir como uma estrutura fundamental para futuras pesquisas, desenvolvimentos e considerações éticas no domínio da similaridade semântica. Esta análise profunda aspira orientar tanto recém-chegados quanto especialistas experientes pelo intrincado panorama da similaridade semântica, contribuindo assim para o avanço holístico do campo.
Downloads
Referências
An, Hongda, et al. "Hybrid Self-Interactive Attentive Siamese Network for Medical Textual Semantic Similarity." Proceedings of the 2020 4th International Conference on Management Engineering, Software Engineering and Service Sciences, p. 52-56, 2020 DOI: https://doi.org/10.1145/3380625.3380647.
Almuhaimeed, Abdullah, et al. "A modern semantic similarity method using multiple resources for enhancing influenza detection." Expert Systems with Applications, v. 193, p. 116466, 2022.
Babaeianjelodar, Marzieh. Towards Fair and Transparent Decision Making and Machine Learning Systems. Diss. Clarkson University, 2021.
Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent Dirichlet Allocation." Journal of machine Learning Research, v. 3, p. 993-1022, 2003.
Bräscher, Marisa. “Semantic Relations in Knowledge Organization Systems.” Knowledge Organization, v. 41, n. 2, p. 175–80, 2014.
Cao, Son, et al. "Hybrid Approach for Text Similarity Detection in Vietnamese Based on Sentence-BERT and WordNet. "ITCC '22: Proceedings of the 4th International Conference on Information Technology and Computer Communications, pp. 59-63, 2022. DOI: https://doi.org/10.1145/3548636.3548645,
Chandrasekaran, Dhivya, and Vijay Mago. "Evolution of semantic similarity—a survey." ACM Computing Surveys (CSUR). v. 54, n. 2, p.1-37, 2021.
Chen, Qiang, et al. "Fine-grained semantic textual similarity measurement via a feature separation network." Applied Intelligence, v. 53, p. 18205-18218, 2023. DOI: https://doi.org/10.1007/s10489-022-04448-6.
Farouk, Mamdouh. "Measuring sentences similarity: a survey." Indian Journal of Science and Technology, v. 12, n. 25, 2019. DOI: https://doi.org/10.17485/ijst/2019/v12i25/143977.
Hjørland, Birger. "What is Knowledge Organization (KO)?" Knowledge Organization, v. 35, n. 2, p. 86 101, 2008. DOI: https://doi.org/10.5771/0943-7444-2008-2-3-86.
Jha, Akshita, et al. "Supervised Contrastive Learning for Interpretable Long-Form Document Matching." ACM Transactions on Knowledge Discovery from Data, v.17. n. 2, p. 27, 2023. DOI: https://doi.org/10.1145/3542822.
Joty, Shafiq, et al. "Discourse analysis and its applications." I: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: tutorial abstracts.", Florence, Italy, 2019, p. 12-17. DOI: https://doi.org/10.18653/v1/P19-4003.
Jurafsky, Dan, and James H. Martin. Speech and Language Processing (3rd ed. draft). 2021, https://web.stanford.edu/~jurafsky/slp3/. Accessed 17 June 2024.
Konstan, Joseph A., and John Riedl. "Recommender systems: from algorithms to user experience." User modeling and user-adapted interaction, v. 22, p. 101-123, 2012.
Lv, Chao, et al. "Siamese Multiplicative LSTM for Semantic Text Similarity." In: ACAI'20: Proceedings of the 2020 3rd International Conference on Algorithms, Computing and Artificial Intelligence, p. 28, 2021, DOI: https://doi.org/10.1145/3446132.3446160.
Malkiel, Itzik, et al. "Interpreting BERT-Based Text Similarity via Activation and Saliency Maps." In: WWW'22: Proceedings of the ACM Web Conference 2022, p. 3259-3268, 2022. DOI: https://doi.org/10.1145/3485447.3512045.
Mehndiratta, Akanksha, and Krishna Asawa. "Spectral Learning of Semantic Units in a Sentence Pair to Evaluate Semantic Textual Similarity." In: Bellatreche, L., Goyal, V., Fujita, H., Mondal, A., Reddy, P.K. (eds) Big Data Analytics: 8th International Conference, BDA 2020. Sonepat, India, 2020. DOI: https://doi.org/10.1007/978-3-030-66665-1_4.
Peng, Deguang, et al. "Learning Long-Text Semantic Similarity with Multi-Granularity Semantic Embedding Based on Knowledge Enhancement." In: Proceedings of the 2020 1st International Conference on Control, Robotics and Intelligent System, 2021, p. 19-25, DOI: https://doi.org/10.1145/3437802.3437806.
Sonawane, Sheetal S., and Parag Kulkarni. "Concept based document similarity using graph model." International Journal of Information Technology, v. 14, n.1, p. 311-322, 2022. DOI: https://doi.org/10.1007/s41870-019-00314-w.
Teller, Virginia. "Book Reviews: Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition.". Computational Linguistics, v, 26, n. 4, p 638–641, 2000. https://direct.mit.edu/coli/article/26/4/629/1682/On-Coreferring-Coreference-in-MUC-and-Related.
Torkanfar, Navid, and Ehsan Rezazadeh Azar. "Quantitative similarity assessment of construction projects using WBS-based metrics." Advanced Engineering Informatics, v. 46, p. 101179, 2020. DOI: https://doi.org/10.1016/j.aei.2020.101179
Yang, Jiaqi, et al. "Measuring the short text similarity based on semantic and syntactic information." Future Generation Computer Systems, v. 114, p. 169-180, 2021.
Wang, Jiangyao, et al. "Text similarity calculation method based on hybrid model of LDA and TF-IDF." In: Proceedings of the 2019 3rd International Conference on Computer Science and Artificial Intelligence. 2019. DOI: https://doi.org/10.1145/3374587.3374590.
Wang, Jing, et al. "Systematic evaluation of research progress on natural language processing in medicine over the past 20 years: bibliometric study on PubMed." Journal of Medical Internet Research, v. 22, n. 1, p. e16816, 2020.
Wang, Keyang, et al. "Comparison between Calculation Methods for Semantic Text Similarity Based on Siamese Networks." In: 4th International Conference on Data Science and Information Technology, 2021, p. 389-395. DOI: https://doi.org/10.1145/3478905.3478981.
Wang, Zhongguo, and Bao Zhang. "Chinese Text Similarity Calculation Model Based on Multi-Attention Siamese Bi-LSTM." In: Proceedings of the 4th International Conference on Computer Science and Software Engineering, 2021, p. 93-98. DOI: https://doi.org/10.1145/3494885.3494902.
Xiao, Qi, et al. "An unsupervised semantic text similarity measurement model in resource-limited scenes." Information Sciences, v. 616, p. 444-460, 2022.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2024 Rita Carolina Costa, Thiago Bragatto, Renato Fileto
Este trabalho está licenciado sob uma licença Creative Commons Attribution-ShareAlike 4.0 International License.
Ao submeter um artigo os autores mantêm os direitos autorais do mesmo, cedendo ao Brazilian Journal of Information Science plenos direitos para publicação do referido texto.
O (s) autor (es) concorda(m) que o artigo, se aceito editorialmente para publicação, deve ser licenciado sob a licença Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) (http://creativecommons.org/licenses/by-sa /4.0) Os leitores / usuários são livres para: - Compartilhar - copiar e redistribuir o material em qualquer meio ou formato - Adaptar - remixar, transformar e desenvolver o material para qualquer finalidade, mesmo comercialmente. O licenciante não pode revogar essas liberdades desde que você siga os termos da licença. Sob os seguintes termos: - Atribuição - Você deve dar o crédito apropriado, fornecer um link para a licença e indicar se foram feitas alterações. Você pode fazê-lo de qualquer maneira razoável, mas não de maneira que sugira que o licenciante endossa você ou seu uso. - ShareAlike - Se você remixar, transformar ou desenvolver o material, deverá distribuir suas contribuições sob a mesma licença que o original. Sem restrições adicionais - Você não pode aplicar termos legais ou medidas tecnológicas que restrinjam legalmente outras pessoas a fazer o que a licença permitir. Avisos: - Você não precisa cumprir a licença para elementos do material em domínio público ou nos casos em que seu uso é permitido por uma exceção ou limitação aplicável. - Não há garantias. A licença pode não fornecer todas as permissões necessárias para o uso pretendido. Por exemplo, outros direitos, como publicidade, privacidade ou direitos morais, podem limitar a maneira como você usa o material.
Creative Commons Attribution-ShareAlike 4.0 International License