Pesquisa Semântica
Pesquisa de informações baseada no significado e contexto profundos, em vez de correspondências exatas de palavras-chave.
Definição
A pesquisa semântica é uma abordagem de recuperação de informações que encontra resultados com base no significado e na intenção por trás de uma consulta, em vez de corresponder a palavras-chave exatas. Ela funciona convertendo tanto consultas quanto documentos em dense vector embeddings que codificam relações semânticas, e então encontrando as correspondências mais próximas no embedding space usando métricas de similaridade como a distância de cosseno.
As principais características da pesquisa semântica incluem:
-
Correspondência Baseada no Significado: Uma busca por "how to fix a broken deployment" pode apresentar documentos sobre "troubleshooting failed releases" mesmo que não haja sobreposição de palavras-chave, porque os conceitos subjacentes são semanticamente semelhantes.
-
Embedding Models: O texto é transformado em vetores usando models como sentence-transformers, os embedding models da OpenAI ou Cohere Embed. A qualidade do embedding model determina diretamente a qualidade da pesquisa.
-
Capacidade Multilíngue: Multilingual embedding models permitem a pesquisa entre diferentes idiomas, retornando resultados relevantes independentemente de a consulta e o documento compartilharem o mesmo idioma.
-
Sensibilidade ao Contexto: Diferente da pesquisa por palavra-chave, a pesquisa semântica considera o contexto completo de uma consulta, distinguindo entre "Python the language" e "python the snake" com base nos termos circundantes.
A pesquisa semântica é a base dos sistemas RAG modernos e impulsiona a recuperação de conhecimento em assistentes de AI, motores de busca empresariais e ferramentas de busca de código.