Oito termos básicos da inteligência artificial genérica


  Neste artigo vou apresentar oito termos básicos que são cruciais para você entender este 'mundo da Inteligência Artificial'.

A maioria das pessoas que fala sobre IA ou parece estar recitando definições de dicionário, ou fica completamente perdida quando alguém menciona termos como LLMs ou redes neurais.

Você não precisa ser nenhum dos dois.

Hoje veremos 8 termos ou conceitos que, se você realmente entender (e não apenas memorizar), vão fazer com que você esteja muito bem informado sobre o 'mundo da IA'. Seja você da tecnologia, negócios, educação ou apenas alguém curioso sobre para onde o mundo está indo.



1- Tokens : os átomos da informação

A primeiríssima coisa que você deve registrar no seu cérebro é que modelos de IA não leem palavras. Eles nem sequer leem letras. Eles leem tokens.

Então, o que é um token?

Um token é uma representação numérica de um padrão.

Os tokens são pedaços de texto (uma palavra curta, um sufixo como "mente", ou uma pontuação). Em modelos modernos, tokens também representam fragmentos de imagens, vídeo e áudio.

Por que importa: O custo e a velocidade da IA são medidos em tokens. No português, tendemos a gastar mais tokens para dizer o mesmo que no inglês, o que torna o processamento ligeiramente mais caro e complexo para nossa língua.

Imagine que você está lendo um livro, mas em vez de ler todas as palavras, você lê "pedaços" de palavras. Às vezes, um pedaço é uma palavra completa como "gato". Às vezes é parte de uma palavra como "des" ou "ção". Às vezes é uma pontuação. Esse pedaço de texto é um token.

Por exemplo, a frase "Eu amo pizza" pode ser quebrada em 3 tokens: "Eu", " amo", " pizza".

Por que isso importa para você?

Porque cada produto de IA que você usa, como ChatGPT, Claude ou Gemini, está contando tokens nos bastidores. Quanto mais tokens você envia na sua mensagem, mais o modelo tem que processar. Quanto mais tokens ele gera na resposta, mais caro fica para rodar.

Tokens são os átomos da linguagem da IA. Uma vez que você entende isso, começa a ver por que alguns comandos (prompts) funcionam melhor que outros e por que o preço das APIs é medido em tokens por milhar

2. Janela de Contexto: O Limite da Atenção

Imagine que você está conversando com alguém, mas essa pessoa tem um tipo muito específico de memória. Ela só consegue lembrar os últimos X minutos de uma conversa. Tudo o que veio antes disso? Sumiu. Foi esquecido.

Isso é a janela de contexto.

É a quantidade total de texto (medida em tokens) que um modelo de IA pode "enxergar" e considerar de uma só vez. Isso inclui tudo: suas instruções, o histórico da conversa, quaisquer documentos que você compartilhou e as próprias respostas do modelo.

Pense nisso como um quadro branco. A janela de contexto é o tamanho do quadro. Você pode escrever o que quiser nele. Mas, quando estiver cheio, você precisa apagar algo antigo para escrever algo novo.

Sabe o que é mais interessante?

Uma janela de contexto pequena (como 4 mil tokens) significa que a IA só pode trabalhar com algumas páginas de texto por vez. Dê a ela um documento longo, e ela só conseguirá ler pedaços dele. Uma janela de contexto grande (como 900 mil tokens) significa que você pode literalmente colar um livro inteiro e fazer perguntas sobre ele.

Qual é a lição prática? Se estiver trabalhando em algo importante, como resumir um documento longo ou analisar dados, esteja sempre ciente de que sua IA pode estar esquecendo as partes iniciais da conversa. Isso não é um erro (bug). É apenas o quadro branco ficando sem espaço.

3. Temperatura (Temperature)

Quando você pede para uma IA escrever algo, existe uma configuração chamada temperatura, que decide quão aleatório ou previsível será o resultado.

Temperatura Baixa (perto de 0): A IA joga com segurança. Ela escolhe a palavra mais provável e esperada todas as vezes. O resultado é consistente, preciso e um pouco entediante. Como aquele colega que sempre envia o mesmo modelo de e-mail.

Temperatura Alta (perto de 1 ou mais): A IA corre riscos. Ela escolhe palavras surpreendentes, reviravoltas incomuns, ideias interessantes. Às vezes brilhante, mas nem sempre.

Aqui está um exemplo real: Peça para uma IA completar a frase: "O gato sentou no..."

Com temperatura baixa, ela quase sempre dirá "tapete" ou "chão". Previsível. Seguro.

Com temperatura alta, ela pode dizer "dilema filosófico" ou "império desmoronado de terça-feira".
Criativo? Sim. Útil para um relatório jurídico ? Absolutamente não.

Se você estiver usando a IA para tarefas factuais (resumos, programação, extração de informações), você quer temperatura baixa. A IA deve ser precisa, não criativa.

Se você estiver usando para tarefas criativas (ficção, brainstorm, textos de marketing), aumente a temperatura. Você quer o inesperado.

A maioria dos aplicativos comuns como o ChatGPT não permite que você mexa 'nesse botão' diretamente; eles definem um meio-termo. Mas se você usar uma API de IA ou ferramenta de desenvolvedor, verá essa configuração. E agora você sabe o que fazer com ela.

4. Alucinação : O Preço da Criatividade

Este é o termo que todo mundo já ouviu, mas nem todos entendem o porquê acontece — e essa é a parte importante.

A Alucinação é quando uma IA fornece respostas erradas com confiança absoluta. Sem hesitação. Uma resposta errada, declarada como fato.

Exemplo: Você pergunta sobre um livro. Ela te dá um título, um autor, um ano e um resumo do enredo — tudo inventado. O livro não existe. Mas a IA afirma como se estivesse lendo da Wikipédia.

Por que isso acontece?

Aqui está o que a maioria das pessoas ignora: modelos de linguagem de IA não são bancos de dados. Eles não consultam fatos. Eles preveem o próximo token mais provável com base em padrões que aprenderam durante o treinamento. Eles são um "autocompletar" em escala massiva.

Portanto, quando uma IA não sabe algo, ela não diz "eu não sei". Ela gera o que parece ser uma resposta correta, porque foi literalmente para isso que foi treinada.

O perigo não é que a IA cometa erros. Todas as ferramentas cometem. O perigo é que a IA erra com a exata mesma confiança que usa quando está certa. Ela apenas responde.

A lição prática: Nunca confie cegamente na IA para fatos, estatísticas, conselhos médicos, informações jurídicas ou qualquer coisa onde estar errado tenha consequências reais. Use-a como ponto de partida. Depois, verifique. Pessoas que entendem a alucinação não param de usar a IA; elas apenas a usam de forma mais inteligente.

5. RAG - Geração Aumentada de Recuperação

Este é o conceito mais incompreendido. E, honestamente? Uma vez que você entende, você o verá em todo lugar.

RAG significa Retrieval-Augmented Generation (Geração Aumentada por Recuperação). É, na verdade, uma ideia muito simples.

Eis o problema que ele resolve: Um modelo de IA comum foi treinado com dados até uma certa data. Ele não sabe nada sobre os documentos internos da sua empresa. Não sabe nada sobre os eventos da semana passada. Não sabe nada sobre aquele PDF que você acabou de carregar.

Então, como produtos como "Converse com seu PDF" funcionam? Isso é RAG.

Quando você carrega um documento, o sistema não "ensina" o documento ao cérebro da IA. Em vez disso, ele quebra o documento em pedaços e os armazena em um banco de dados especial (chamado banco de dados vetorial) que entende significados, em vez de apenas palavras-chave.

Então, quando você faz uma pergunta, o sistema primeiro busca nesse banco de dados os pedaços mais relevantes. Ele recupera esses pedaços. E então os entrega para a IA junto com sua pergunta, dizendo: "Aqui está um contexto relevante. Agora responda à pergunta usando isso."

É isso. Recuperar conteúdo relevante. Entregar para a IA. Gerar uma resposta. RAG.

Por que isso importa?

Porque é a base de quase todos os produtos de IA úteis criados nos últimos dois anos. Bots de suporte que conhecem as políticas da sua empresa, assistentes jurídicos, ferramentas de resumo de artigos científicos... tudo é construído com RAG.

Saber disso muda sua percepção: quando uma IA "conhece" seus documentos, ela não aprendeu nada de fato. Ela está apenas realizando uma busca muito inteligente e enviando os resultados para um modelo de linguagem. O modelo continua o mesmo; o contexto é que mudou.

6. Embeddings: Vetores e o Espaço Latente

Se os tokens são os átomos, os embeddings são a "massa" e a "carga" que definem como esses átomos interagem. Para a IA, nada é texto; tudo é geometria.

Os embeddings é o processo de converter tokens em vetores de números reais (uma lista de coordenadas, ex: [0.12, -0.59, 0.88, ...]). Esses vetores não vivem em um plano 2D, mas em um espaço latente de centenas ou milhares de dimensões.

Cada dimensão captura um aspecto abstrato do significado (gênero, pluralidade, tom emocional, categoria gramatical).

A proximidade entre dois vetores é calculada matematicamente, geralmente através da Similaridade de Cosseno, medindo o ângulo entre eles nesse espaço multidimensional.

A "Matemática do Significado": Os embeddings permitem álgebra semântica real. O exemplo clássico é processado literalmente pelo modelo como: Vetor(Rei)−Vetor(Homem)+Vetor(Mulher)≈Vetor(Rainha)

Isso prova que o modelo "entende" a relação de realeza e gênero como distâncias constantes no espaço vetorial.

Utilidade Técnica (RAG e Busca Semântica): Os embeddings são a engrenagem mestre do RAG. Quando você faz uma pergunta, o sistema gera o embedding da sua dúvida e busca no banco de dados vetorial os trechos cujos vetores possuem a menor distância angular (mais similares).

É por isso que o sistema encontra a resposta mesmo que você use sinônimos: no mapa vetorial, "problema no motor" e "falha na combustão" ocupam quase o mesmo endereço.

7. System Prompt: O Framework de Governança da Sessão

Antes de qualquer interação do usuário, existe uma camada de configuração de altíssima prioridade conhecida como System Prompt (ou System Message). Ele atua como a "Constituição" do modelo para aquela conversa específica.

O System Prompt é uma instrução de nível de sistema que define o espaço de estados permitidos para a IA. Enquanto as mensagens do usuário são tratadas como dados de entrada, o System Prompt é tratado como parte do protocolo de execução. Ele estabelece o papel (persona), o escopo de conhecimento, as restrições de segurança e, crucialmente, o formato de saída (ex: "responda apenas em JSON").

No treinamento de modelos modernos (via RLHF - Aprendizado por Reforço com Feedback Humano), os modelos são ensinados a dar precedência às instruções do sistema sobre as instruções do usuário. Isso é o que impede, em teoria, que um usuário comum force a IA a gerar código malicioso ou quebrar o tom profissional estabelecido.

O "Engine" do Comportamento:

Chain of Thought (Cadeia de Pensamento): É no System Prompt que instruímos o modelo a "pensar passo a passo" antes de responder, o que reduz drasticamente erros de lógica.

Negative Constraints (Restrições Negativas): Definir o que a IA não pode fazer (ex: "Nunca mencione concorrentes" ou "Não utilize terminologia técnica complexa").

Few-Shot Prompting: O System Prompt pode incluir exemplos de "entrada e saída" para moldar o comportamento do modelo por analogia, garantindo que ele siga um padrão arquitetural específico.

Exemplo Estruturado (Nível Developer):

"Você é um arquiteto de software sênior especializado em .NET e DDD. Sua tarefa é revisar o código fornecido focando em violações de lógica de domínio e acoplamento.
Restrições: Responda em formato Markdown, use português técnico do Brasil, não sugira bibliotecas de terceiros a menos que solicitado e mantenha o tom crítico, porém construtivo."

Por que importa:  Se o RAG é o que a IA sabe e o modelo é o que a IA é, o System Prompt é como a IA se comporta. Ele é a ferramenta principal para desenvolvedores que criam agentes especializados, garantindo previsibilidade e segurança em aplicações em produção.

8. Fine-Tuning: Calibração de Parâmetros e Especialização de Domínio

Diferente do RAG — que é uma técnica de In-Context Learning (aprendizado via contexto) — o Fine-Tuning é um processo de aprendizado supervisionado que altera os pesos das conexões neurais do modelo original.

O Fine-Tunning é o processo de pegar um modelo pré-treinado (Pre-trained Model) em uma base de dados massiva e continuar o treinamento em um conjunto de dados menor, específico e rotulado. Esse processo ajusta os parâmetros (pesos) do modelo para que ele se torne um especialista em um domínio ou formato de resposta muito específico.

Técnicas Modernas (LoRA/QLoRA): Hoje, raramente ajustamos todos os bilhões de parâmetros. Usamos técnicas como Low-Rank Adaptation (LoRA), onde apenas uma pequena fração de "camadas adaptadoras" é treinada, tornando o processo muito mais eficiente em termos de hardware (VRAM).

O "DNA" do Comportamento: O Fine-Tuning não serve primariamente para "ensinar novos fatos" (para isso usamos RAG), mas sim para ensinar padrões, estilos e protocolos.

Sintaxe e Estilo: Se você quer que a IA escreva código seguindo rigorosamente os padrões de Clean Architecture e naming conventions da sua empresa, o Fine-Tuning é o caminho.

Vocabulário de Nicho: Ajustar o modelo para entender jargões médicos, jurídicos ou de engenharia de sistemas que não eram comuns na base de treino original.

A Diferença Crucial (Arquitetural):

RAG (Dinâmico): É como um consultor com acesso a uma biblioteca imensa. Ele é ótimo para fornecer fatos atualizados (ex: cotação do dólar hoje), mas pode ser inconsistente no tom de voz.

Fine-Tuning (Estático): É como transformar o consultor em um especialista treinado. Ele entende o "como" fazer de forma instintiva e rápida, mas o que ele aprendeu no treino fica "congelado" no tempo até o próximo ajuste.

O Fine-Tuning reduz a necessidade de prompts gigantescos. Como o modelo já foi "calibrado" para entender seu domínio, você gasta menos tokens na entrada e obtém saídas muito mais consistentes com a arquitetura desejada do sistema.

Conclusão

Talvez você não precise ser um engenheiro de software ou escrever uma única linha de código C#. No entanto, em um mundo onde a IA está se tornando a camada de interface entre nós e a informação, o entendimento desses conceitos deixa de ser um "extra" e passa a ser uma competência essencial.

Entender Tokens significa que você escreverá comandos mais econômicos e eficientes. Dominar a Janela de Contexto evitará que você se frustre com o "esquecimento" da máquina. Ajustar a Temperatura permitirá que você escolha entre um assistente técnico rigoroso ou um parceiro criativo audaz. Saber o que é o System Prompt te dá o poder de moldar a própria alma da interação.

Ao compreender os Embeddings, você enxerga a geometria por trás do significado. Reconhecer a Alucinação te protege do excesso de confiança algorítmica. Saber como o RAG funciona permite que você audite como seus dados estão sendo usados. E, finalmente, entender o Fine-Tuning te dá a clareza para saber quando o comportamento precisa ser treinado, e não apenas solicitado.

Não são mais apenas cinco termos; são os oito pilares que sustentam o entendimento real. Dominar essa base coloca você muito além de quem apenas "conversa" com a IA. Agora, você não é apenas um usuário; você é alguém que entende as engrenagens, os limites e as imensas possibilidades que operam silenciosamente sob o capô.

É isso. Oito termos oito conceitos. Conhecimento técnico de fato.

Isso te coloca em um patamar de controle e discernimento que a grande maioria ainda nem sabe que existe. Não se acomode vá mais fundo em cada conceito...

E estamos conversados...  

"Senhor, tu me sondaste, e me conheces.
Tu sabes o meu assentar e o meu levantar; de longe entendes o meu pensamento."
Salmos 139:1,2

Referências:


José Carlos Macoratti