OpenAI's new ChatGPT Agent can control an entire computer and do tasks for you

O OpenAI está all-in sobre a tendência mais hipotética da IA no momento: agentes da IA ou ferramentas que dão um passo além do Chatbots para concluir tarefas complexas e de várias etapas em nome do usuário. A empresa estreou na quinta -feira a ChatGPT Agent, que ela cobra como uma ferramenta que pode concluir o trabalho em seu nome usando seu próprio “computador virtual”.

Em um briefing e demonstração com A beiraYash Kumar e Isa Fulford – líder de produto e líder de pesquisa sobre o agente do ChatGPT, respectivamente – disseram que é alimentado por um novo modelo que o OpenAI se desenvolveu especificamente para o produto. A empresa disse que a nova ferramenta pode executar tarefas, como analisar o calendário de um usuário para informar -as sobre as próximas reuniões de clientes, planejar e comprar ingredientes para fazer um café da manhã em família e criar um deck de slides com base em sua análise de empresas concorrentes.

O modelo por trás do ChatGPT Agent, que não possui nome específico, foi treinado em tarefas complexas que exigem várias ferramentas – como um navegador de texto, navegador visual e terminal onde os usuários podem importar seus próprios dados – por meio de aprendizado de reforço, a mesma técnica usada para todos os modelos de raciocínio da OpenAI. O Openai disse que o agente do ChatGPT combina os recursos da operadora e da pesquisa profunda, duas de suas ferramentas de IA existentes.

Para desenvolver a nova ferramenta, a empresa combinou as equipes por trás do operador e da pesquisa profunda em uma equipe unificada. Kumar e Fulford disseram A beira que a nova equipe é composta entre 20 e 35 pessoas em produtos e pesquisas.

Na demonstração, Kumar e Fulford demonstraram casos de uso em potencial para o agente do ChatGPT, como pedir para planejar uma noite de data, conectando-se ao calendário do Google para ver quando o usuário tem uma noite livre e depois a referência cruzada para encontrar aberturas em certos tipos de restaurantes. Eles também mostraram como um usuário poderia interromper o processo adicionando, digamos, outra categoria de restaurante a procurar. Outra demonstração mostrou como o agente do ChatGPT poderia gerar um relatório de pesquisa sobre o surgimento de bebês de Labubus versus gorro.

Fulford disse que gostava de usá -lo para compras on -line, porque a combinação de tecnologia por trás da pesquisa e do operador funcionou melhor e foi mais completa do que tentar o processo apenas usando o operador. E Kumar disse que começou a usar o agente do ChatGPT para automatizar pequenas partes de sua vida, como solicitar um estacionamento de novos escritórios no OpenAI toda quinta -feira, em vez de aparecer na segunda -feira, tendo esquecido de solicitá -lo sem lugar para estacionar.

Kumar disse que, como o agente do ChatGPT tem acesso a “um computador inteiro” em vez de apenas um navegador, eles “aprimoraram bastante o conjunto de ferramentas”.

De acordo com a demonstração, porém, a ferramenta pode ser um pouco lenta. Quando perguntado sobre a latência, Kumar disse que sua equipe está mais focada em “otimizar tarefas difíceis” e que os usuários não devem sentar e assistir ao trabalho do agente do ChatGPT.

“Mesmo que demore 15 minutos, meia hora, é uma grande aceleração em comparação com quanto tempo levaria você para fazê-lo”, disse Fulford, acrescentando que a equipe de busca do Openai está mais focada em casos de uso de baixa latência. “É uma daquelas coisas em que você pode começar algo em segundo plano e depois voltar a ele.”

Antes de o ChatGPT Agent fazer qualquer coisa “irreversível”, como enviar um email ou fazer uma reserva, ele pede permissão primeiro, disse Fulford.

Como o modelo por trás da ferramenta aumentou as capacidades, o OpenAI disse que ativou as salvaguardas criadas para “altas capacidades biológicas e químicas”, embora a empresa tenha dito que não possui “evidências diretas de que o modelo poderia ajudar significativamente a um novato a criar danos biológicos ou químicos graves” na forma de armas. Antrópica em maio ativou salvaguardas semelhantes para o lançamento de um de seus modelos Claude, Opus 4.

Quando perguntado sobre se a ferramenta tem permissão para realizar transações financeiras, Kumar disse que essas ações foram restritas “por enquanto” e que há uma proteção adicional chamada modo de relógio, em que, se um usuário navegar para uma determinada categoria de páginas da web, como sites financeiros, eles não devem navegar para longe do agente de chatgpt de guia estiver operando em ou a ferramenta parará funcionar.

O OpenAI começará a lançar a ferramenta hoje para o Pro, mais, e os usuários da equipe – escolhem o “Modo do agente” no menu Ferramentas ou digite “/agente” para acessá -lo – e a empresa disse que o disponibilizará para os usuários de bate -papo e educação no final deste verão. Ainda não há cronograma de lançamento para o Espaço Econômico Europeu e a Suíça.

O conceito de agentes de IA tem sido uma tendência vomasa da indústria há anos. Os desenvolvedores ideais estão trabalhando é algo como o Jarvis de Iron Man, uma ferramenta que pode executar funções específicas de trabalho, verificar os calendários das pessoas para obter o melhor momento para agendar um evento, comprar um presente com base nas preferências de um amigo e mais, mas, no momento, estão um pouco limitados a ajudar na codificação e compilação de relatórios de pesquisa.

O termo “agente de IA” tornou-se mais comum aos investidores e executivos de tecnologia em 2023 e rapidamente aumentou a velocidade, especialmente depois que a empresa da Fintech Klarna anunciou em fevereiro de 2024 que, em apenas um mês de operação, seu próprio agente de IA lidou com dois terços dos bate-papos de atendimento ao cliente-o equivalente a 700 trabalhadores humanos integral. A partir daí, os executivos da Amazon, Meta, Google e muito mais começaram a mencionar suas metas do agente da IA na chamada de ganhos após a chamada dos ganhos. E desde então, as empresas de IA têm contratado estrategicamente para alcançar esses objetivos: o Google, por exemplo, na semana passada contratou o CEO, co-fundador da Windsurf e alguns membros da equipe de P&D para ajudar a promover seus projetos Agentic IA.

A estréia do OpenAI do ChatGPT Agent segue seu lançamento de operador de janeiro, que a empresa cobrou como “um agente que pode ir à Web para executar tarefas para você”, pois foi treinado para poder lidar com os botões da Internet, os campos de texto e muito mais. Também faz parte de uma tendência maior na IA, como empresas grandes e pequenas agentes da IA que capturam a atenção dos consumidores e, idealmente, se tornarão hábitos. Em outubro passado, a Anthropic, a startup de IA apoiada pela Amazon por trás de Claude, lançou uma ferramenta semelhante chamada “Uso do computador”, que ele cobrava como uma ferramenta que poderia usar um computador da mesma maneira que um humano pode para concluir tarefas em nome de um usuário. Várias empresas de IA, incluindo OpenAI, Google e Perplexity, também oferecem uma ferramenta de IA que os três apelidaram de pesquisa profunda, denotando um agente de IA que pode escrever análises consideráveis e relatórios de pesquisa sobre o que que o usuário deseja.