A OpenAI anunciou recentemente quatro novos recursos de sua API voltados para desenvolvedores durante o evento DevDay, em São Francisco. Essas atualizações prometem tornar a criação de produtos baseados em IA ainda mais acessível e eficiente, oferecendo personalização aprimorada, redução de custos e novas capacidades em áreas como fala e visão computacional.
1. Model Distillation
Com o novo recurso de Model Distillation, a OpenAI facilita o processo de otimizar modelos menores, como o GPT-4 mini, utilizando a saída de modelos maiores. Antes, o processo era complexo e envolvia várias etapas. Agora, os desenvolvedores podem gerar dados com modelos avançados, ajustar os menores e medir o desempenho diretamente na plataforma da OpenAI. Para incentivar a adoção, a empresa está oferecendo milhões de tokens gratuitos até o final de outubro, permitindo que os desenvolvedores comecem a experimentar o distillation.
2. Prompt Caching
Para reduzir custos, a OpenAI lançou o Prompt Caching, que permite aos desenvolvedores reutilizar prompts com prefixos longos sem pagar o preço total repetidamente. Esse recurso é ideal para aplicativos que utilizam modelos de IA com instruções específicas e consistentes. Quando o mesmo prefixo é detectado dentro de uma hora, a taxa de custo de entrada é reduzida em 50%, o que pode gerar uma economia significativa para desenvolvedores que usam prompts frequentes.
3. Vision Fine-Tuning
Outro grande avanço é o Vision Fine-Tuning, que agora permite ajustar o GPT-4 com imagens, além de texto. Isso abre novas possibilidades, como melhorar funcionalidades de busca visual, detecção de objetos para veículos autônomos e até análise médica de imagens. A OpenAI já começou a distribuir tokens gratuitos para desenvolvedores testarem a ferramenta, e a partir de novembro, será cobrada uma taxa por milhão de tokens utilizados.
4. Realtime API
Por último, a nova Realtime API torna possível a criação de aplicativos que conversem com os usuários em tempo real, processando áudio instantaneamente sem a necessidade de transcrição intermediária. Isso reduz a latência e melhora a qualidade das respostas, preservando nuances como ênfase e sotaques. Esse recurso é especialmente útil para aplicações que demandam interações rápidas, como assistentes virtuais que realizam tarefas, desde pedidos de comida até agendamento de compromissos.