Oito
termos básicos da inteligência artificial genérica
![]() |
Neste artigo vou apresentar oito termos básicos que são cruciais para você entender este 'mundo da Inteligência Artificial'. |
A maioria das pessoas que fala sobre IA ou parece estar recitando definições de
dicionário, ou fica completamente perdida quando alguém menciona termos como
LLMs ou redes neurais.
Você não precisa ser nenhum dos dois.
Hoje
veremos 8 termos ou conceitos que, se você realmente entender (e não apenas
memorizar), vão fazer com que você esteja muito bem informado sobre o
'mundo da IA'. Seja você da tecnologia, negócios, educação ou apenas alguém
curioso sobre para onde o mundo está indo.
1- Tokens : os átomos da informação
A primeiríssima coisa que você deve registrar no seu cérebro é que modelos de IA
não leem palavras. Eles nem sequer leem letras. Eles leem tokens.
Então, o que é um token?
Um token é uma representação numérica de um padrão.
Os tokens são pedaços
de texto (uma palavra curta, um sufixo como "mente", ou uma pontuação). Em
modelos modernos, tokens também representam fragmentos de imagens, vídeo e
áudio.
Por que importa: O custo e a velocidade da IA são
medidos em tokens. No português, tendemos a gastar mais tokens para dizer o
mesmo que no inglês, o que torna o processamento ligeiramente mais caro e
complexo para nossa língua.
Imagine que você está lendo um livro, mas em
vez de ler todas as palavras, você lê "pedaços" de palavras. Às vezes, um pedaço
é uma palavra completa como "gato". Às vezes é parte de uma palavra como "des"
ou "ção". Às vezes é uma pontuação. Esse pedaço de texto é um token.
Por
exemplo, a frase "Eu amo pizza" pode ser quebrada em 3 tokens: "Eu", " amo", "
pizza".
Por que isso importa para você?
Porque cada produto de IA que você usa, como ChatGPT, Claude ou Gemini, está contando tokens nos bastidores. Quanto mais tokens você envia na sua mensagem, mais o modelo tem que processar. Quanto mais tokens ele gera na resposta, mais caro fica para rodar.
Tokens são os átomos da linguagem da IA. Uma vez que você entende isso, começa a ver por que alguns comandos (prompts) funcionam melhor que outros e por que o preço das APIs é medido em tokens por milhar
2. Janela de Contexto: O Limite da Atenção
Imagine que você está conversando com alguém, mas essa pessoa tem
um tipo muito específico de memória. Ela só consegue lembrar os últimos X
minutos de uma conversa. Tudo o que veio antes disso? Sumiu. Foi esquecido.
Isso é a janela de contexto.
É a quantidade total de texto (medida em
tokens) que um modelo de IA pode "enxergar" e considerar de uma só vez. Isso
inclui tudo: suas instruções, o histórico da conversa, quaisquer documentos que
você compartilhou e as próprias respostas do modelo.
Pense nisso como um
quadro branco. A janela de contexto é o tamanho do quadro. Você pode escrever o
que quiser nele. Mas, quando estiver cheio, você precisa apagar algo antigo para
escrever algo novo.
Sabe o que é mais interessante?
Uma janela de
contexto pequena (como 4 mil tokens) significa que a IA só pode
trabalhar com algumas páginas de texto por vez. Dê a ela um documento longo, e
ela só conseguirá ler pedaços dele. Uma janela de contexto grande (como 900
mil tokens) significa que você pode literalmente colar um livro inteiro e
fazer perguntas sobre ele.
Qual é a lição prática? Se estiver trabalhando em algo
importante, como resumir um documento longo ou analisar dados, esteja sempre
ciente de que sua IA pode estar esquecendo as partes iniciais da conversa. Isso
não é um erro (bug). É apenas o quadro branco ficando sem espaço.
3. Temperatura (Temperature)
Quando você pede para uma IA escrever algo, existe uma configuração chamada
temperatura, que decide quão aleatório ou previsível será o resultado.
Temperatura Baixa (perto de 0): A IA joga com segurança. Ela
escolhe a palavra mais provável e esperada todas as vezes. O resultado é
consistente, preciso e um pouco entediante. Como aquele colega que sempre envia
o mesmo modelo de e-mail.
Temperatura Alta (perto de 1
ou mais): A IA corre riscos. Ela escolhe palavras surpreendentes, reviravoltas
incomuns, ideias interessantes. Às vezes brilhante, mas nem sempre.
Aqui
está um exemplo real: Peça para uma IA completar a frase: "O gato sentou no..."
Com temperatura baixa, ela quase sempre dirá "tapete" ou "chão". Previsível.
Seguro.
Com temperatura alta, ela pode dizer "dilema filosófico" ou "império
desmoronado de terça-feira".
Criativo? Sim. Útil para um relatório jurídico ?
Absolutamente não.
Se você estiver usando a IA para tarefas factuais
(resumos, programação, extração de informações), você quer temperatura baixa. A
IA deve ser precisa, não criativa.
Se você estiver usando para tarefas
criativas (ficção, brainstorm, textos de marketing), aumente a temperatura. Você
quer o inesperado.
A maioria dos aplicativos comuns como o ChatGPT não
permite que você mexa 'nesse botão' diretamente; eles definem um
meio-termo. Mas se você usar uma API de IA ou ferramenta de desenvolvedor, verá
essa configuração. E agora você sabe o que fazer com ela.
4. Alucinação : O Preço da Criatividade
Este é o termo que todo mundo já ouviu, mas nem todos entendem o porquê
acontece — e essa é a parte importante.
A Alucinação é quando uma IA
fornece respostas erradas com confiança absoluta. Sem hesitação. Uma resposta
errada, declarada como fato.
Exemplo: Você pergunta sobre um livro. Ela
te dá um título, um autor, um ano e um resumo do enredo — tudo inventado. O
livro não existe. Mas a IA afirma como se estivesse lendo da Wikipédia.
Por que isso acontece?
Aqui está o que a maioria das pessoas ignora:
modelos de linguagem de IA não são bancos de dados. Eles não consultam fatos.
Eles preveem o próximo token mais provável com base em padrões que aprenderam
durante o treinamento. Eles são um "autocompletar" em escala massiva.
Portanto, quando uma IA não sabe algo, ela não diz "eu não sei". Ela gera o que
parece ser uma resposta correta, porque foi literalmente para isso que foi
treinada.
O perigo não é que a IA cometa erros. Todas as ferramentas
cometem. O perigo é que a IA erra com a exata mesma confiança que usa quando
está certa. Ela apenas responde.
A lição prática: Nunca
confie cegamente na IA para fatos, estatísticas, conselhos médicos, informações
jurídicas ou qualquer coisa onde estar errado tenha consequências reais. Use-a
como ponto de partida. Depois, verifique. Pessoas que entendem a alucinação não
param de usar a IA; elas apenas a usam de forma mais inteligente.
5. RAG - Geração Aumentada de Recuperação
Este é o conceito mais incompreendido. E, honestamente? Uma vez que você
entende, você o verá em todo lugar.
RAG significa
Retrieval-Augmented Generation (Geração Aumentada por Recuperação). É,
na verdade, uma ideia muito simples.
Eis o problema que ele resolve: Um
modelo de IA comum foi treinado com dados até uma certa data. Ele não sabe nada
sobre os documentos internos da sua empresa. Não sabe nada sobre os eventos da
semana passada. Não sabe nada sobre aquele PDF que você acabou de carregar.
Então, como produtos como "Converse com seu PDF" funcionam?
Isso é RAG.
Quando você carrega um documento, o sistema não "ensina" o
documento ao cérebro da IA. Em vez disso, ele quebra o documento em pedaços e os
armazena em um banco de dados especial (chamado banco de dados vetorial)
que entende significados, em vez de apenas palavras-chave.
Então, quando
você faz uma pergunta, o sistema primeiro busca nesse banco de dados os pedaços
mais relevantes. Ele recupera esses pedaços. E então os entrega para a IA junto
com sua pergunta, dizendo: "Aqui está um contexto relevante. Agora responda
à pergunta usando isso."
É isso. Recuperar conteúdo relevante.
Entregar para a IA. Gerar uma resposta. RAG.
Por que
isso importa?
Porque é a base de quase todos os produtos de IA úteis
criados nos últimos dois anos. Bots de suporte que conhecem as políticas da sua
empresa, assistentes jurídicos, ferramentas de resumo de artigos científicos...
tudo é construído com RAG.
Saber disso muda sua percepção: quando uma IA
"conhece" seus documentos, ela não aprendeu nada de fato. Ela está apenas
realizando uma busca muito inteligente e enviando os resultados para um modelo
de linguagem. O modelo continua o mesmo; o contexto é que mudou.
6. Embeddings: Vetores e o Espaço Latente
Se os tokens são os átomos, os embeddings são a
"massa" e a "carga" que definem como esses átomos interagem. Para a IA, nada é
texto; tudo é geometria.
Os embeddings é o processo de converter
tokens em vetores de números reais (uma lista de coordenadas, ex:
[0.12, -0.59, 0.88, ...]). Esses vetores não vivem em um plano 2D, mas
em um espaço latente de centenas ou milhares de dimensões.
Cada dimensão
captura um aspecto abstrato do significado (gênero, pluralidade, tom emocional,
categoria gramatical).
A proximidade entre dois vetores é calculada
matematicamente, geralmente através da Similaridade de Cosseno, medindo o ângulo
entre eles nesse espaço multidimensional.
A "Matemática do
Significado": Os embeddings permitem álgebra semântica real. O exemplo
clássico é processado literalmente pelo modelo como:
Vetor(Rei)−Vetor(Homem)+Vetor(Mulher)≈Vetor(Rainha)
Isso prova que o
modelo "entende" a relação de realeza e gênero como distâncias
constantes no espaço vetorial.
Utilidade Técnica (RAG e Busca
Semântica): Os embeddings são a engrenagem mestre do RAG.
Quando você faz uma pergunta, o sistema gera o embedding da sua dúvida e busca
no banco de dados vetorial os trechos cujos vetores possuem a menor distância
angular (mais similares).
É por isso que o sistema encontra a resposta mesmo que você use sinônimos: no mapa vetorial, "problema no motor" e "falha na combustão" ocupam quase o mesmo endereço.
7. System Prompt: O Framework de Governança
da Sessão
Antes de qualquer
interação do usuário, existe uma camada de configuração de altíssima prioridade
conhecida como System Prompt (ou System Message). Ele atua como
a "Constituição" do modelo para aquela conversa específica.
O
System Prompt é uma instrução de nível de sistema que define o espaço de estados
permitidos para a IA. Enquanto as mensagens do usuário são tratadas como dados de
entrada, o System Prompt é tratado como parte do protocolo de execução. Ele
estabelece o papel (persona), o escopo de conhecimento, as restrições de
segurança e, crucialmente, o formato de saída (ex: "responda apenas em JSON").
No treinamento de modelos modernos (via RLHF - Aprendizado por Reforço
com Feedback Humano), os modelos são ensinados a dar precedência às
instruções do sistema sobre as instruções do usuário. Isso é o que impede, em
teoria, que um usuário comum force a IA a gerar código malicioso ou quebrar o
tom profissional estabelecido.
O "Engine" do Comportamento:
Chain of Thought (Cadeia de Pensamento): É no
System Prompt que instruímos o modelo a "pensar passo a passo"
antes de responder, o que reduz drasticamente erros de lógica.
Negative Constraints (Restrições Negativas): Definir o que a IA não
pode fazer (ex: "Nunca mencione concorrentes" ou "Não utilize terminologia
técnica complexa").
Few-Shot Prompting: O System Prompt
pode incluir exemplos de "entrada e saída" para moldar o comportamento
do modelo por analogia, garantindo que ele siga um padrão arquitetural
específico.
Exemplo Estruturado (Nível Developer):
"Você é um arquiteto de software sênior especializado em .NET e DDD. Sua
tarefa é revisar o código fornecido focando em violações de lógica de domínio e
acoplamento.
Restrições: Responda em
formato Markdown, use português técnico do Brasil, não sugira bibliotecas de
terceiros a menos que solicitado e mantenha o tom crítico, porém construtivo."
Por que importa: Se o RAG é o que a IA sabe e o
modelo é o que a IA é, o System Prompt é como a IA se comporta. Ele é a
ferramenta principal para desenvolvedores que criam agentes especializados,
garantindo previsibilidade e segurança em aplicações em produção.
8. Fine-Tuning: Calibração de Parâmetros e Especialização de Domínio
Diferente do RAG — que é uma técnica de In-Context Learning
(aprendizado via contexto) — o Fine-Tuning é um processo
de aprendizado supervisionado que altera os pesos das conexões neurais do modelo
original.
O Fine-Tunning é o processo de pegar um modelo pré-treinado (Pre-trained
Model) em uma base de dados massiva e continuar o treinamento em um
conjunto de dados menor, específico e rotulado. Esse processo ajusta os
parâmetros (pesos) do modelo para que ele se torne um especialista em um domínio
ou formato de resposta muito específico.
Técnicas Modernas
(LoRA/QLoRA): Hoje, raramente ajustamos todos os bilhões de parâmetros.
Usamos técnicas como Low-Rank Adaptation (LoRA), onde apenas uma
pequena fração de "camadas adaptadoras" é treinada, tornando o processo muito
mais eficiente em termos de hardware (VRAM).
O "DNA" do
Comportamento: O Fine-Tuning não serve primariamente para "ensinar
novos fatos" (para isso usamos RAG), mas sim para ensinar padrões, estilos e
protocolos.
Sintaxe e Estilo: Se você quer que a IA
escreva código seguindo rigorosamente os padrões de Clean Architecture e naming
conventions da sua empresa, o Fine-Tuning é o caminho.
Vocabulário de Nicho: Ajustar o modelo para entender jargões médicos,
jurídicos ou de engenharia de sistemas que não eram comuns na base de treino
original.
A Diferença Crucial (Arquitetural):
RAG (Dinâmico): É como um consultor com acesso a uma biblioteca
imensa. Ele é ótimo para fornecer fatos atualizados (ex: cotação do dólar hoje),
mas pode ser inconsistente no tom de voz.
Fine-Tuning (Estático):
É como transformar o consultor em um especialista treinado. Ele entende o "como"
fazer de forma instintiva e rápida, mas o que ele aprendeu no treino fica
"congelado" no tempo até o próximo ajuste.
O Fine-Tuning reduz a
necessidade de prompts gigantescos. Como o modelo já foi "calibrado" para
entender seu domínio, você gasta menos tokens na entrada e obtém saídas muito
mais consistentes com a arquitetura desejada do sistema.
Conclusão
Talvez você não precise ser um engenheiro de software ou escrever uma única
linha de código C#. No entanto, em um mundo onde a IA está se tornando a camada
de interface entre nós e a informação, o entendimento desses conceitos deixa de
ser um "extra" e passa a ser uma competência essencial.
Entender
Tokens significa que você escreverá comandos mais econômicos e
eficientes. Dominar a Janela de Contexto evitará que você se
frustre com o "esquecimento" da máquina. Ajustar a Temperatura
permitirá que você escolha entre um assistente técnico rigoroso ou um parceiro
criativo audaz. Saber o que é o System Prompt te dá o poder de
moldar a própria alma da interação.
Ao compreender os Embeddings,
você enxerga a geometria por trás do significado. Reconhecer a
Alucinação te protege do excesso de confiança algorítmica. Saber como o
RAG funciona permite que você audite como seus dados estão
sendo usados. E, finalmente, entender o Fine-Tuning te dá a
clareza para saber quando o comportamento precisa ser treinado, e não apenas
solicitado.
Não são mais apenas cinco termos; são os oito pilares que
sustentam o entendimento real. Dominar essa base coloca você muito além de quem
apenas "conversa" com a IA. Agora, você não é apenas um usuário; você é
alguém que entende as engrenagens, os limites e as imensas possibilidades que
operam silenciosamente sob o capô.
É isso. Oito termos oito conceitos. Conhecimento
técnico de fato.
Isso te coloca em um patamar de controle e discernimento que a grande maioria ainda nem sabe que existe. Não se acomode vá mais fundo em cada conceito...
E estamos conversados...
"Senhor, tu me sondaste, e me conheces.
Tu sabes
o meu assentar e o meu levantar; de longe entendes o meu pensamento."
Salmos 139:1,2
Referências:
NET - Unit of Work - Padrão Unidade de ...