DeepEval

DeepEval se integra diretamente com pytest, permitindo uma abordagem de 'avaliação como código' onde as suítes de avaliação coexistem com os testes de aplicação no mesmo pipeline de CI. Ao contrário das ferramentas de avaliação apenas de saída, DeepEval suporta avaliação de rastreamento de agente que pontua etapas de raciocínio intermediárias, não apenas respostas finais. Ele também oferece geração de conjunto de dados sintéticos para construção de conjuntos de amostras de referência e inclui capacidades de red-teaming para testes adversariais do comportamento do agente.