18 Mai 2024
Tem a capacidade de ouvir, falar e traduzir em tempo real. Em algumas semanas poderá estar disponível, além de ser gratuito. A opinião de um especialista do Conicet.
A reportagem é de Pablo Esteban, publicada em Página|12, 17-05-2024. A tradução é do Cepat.
O ChatGPT foi apresentado em novembro de 2022 e em apenas um ano e meio já fez história. Na verdade, a engenheira Consuelo López explica que provavelmente se trata da tecnologia com “a penetração mais rápida que a humanidade já viu”. Os números lhe dão razão: mais de 100 milhões de pessoas já testam as diferentes opções disponíveis. Há poucos dias, a OpenAI, empresa responsável pela criação do chatbot, lançou uma nova versão dotada de habilidades surpreendentes. Batizado de ChatGPT 4-o – esse “o” está relacionado ao prefixo “omni”, ou seja, “tudo” –, pode ser usado em processadores desktop e é gratuito, um aspecto muito positivo que o diferencia de outras ferramentas pagas. A expectativa é muito grande porque em poucas semanas esse novo instrumento de IA, que combina texto, áudio e imagem em uma velocidade inusitada, estará disponível. Na verdade, embora ainda não tenha sido lançado no mercado, já existe uma demonstração que é empolgante.
Embora no início o chat tenha sido comparado ao Google, na verdade é um instrumento mais relacionado a assistentes como Alexa ou Siri, embora seja muito mais poderoso. Para começar, ouve, fala e traduz em tempo real. Não será mais necessário aprender um idioma se você tiver essa ferramenta que possibilita relações homem-máquina de forma muito mais natural e fluida. Conforme informações da empresa, sua velocidade de resposta é de em média 320 milissegundos, um lapso de tempo bastante próximo do tempo de demora de um diálogo realizado entre pessoas. Para tanto, utiliza a mesma rede neural que tem a capacidade de reportar as emoções dos falantes humanos, interpretar tons e captar sons de ambientes.
Neste sentido, a respeito dessa necessidade de mudar o foco do chatbot e passar a perfilá-lo como um assistente personalizado, Emmanuel Iarussi, pesquisador do Conicet no Laboratório de IA da Universidade Torcuato Di Tella, destaca: “O mais interessante sobre esta nova versão vem das interações ‘multimodais’, ou seja, a capacidade de interagir não apenas através de texto, mas também com áudio e vídeo. A OpenAI começou a pensar no seu produto como um assistente, não apenas como um chatbot. Talvez tenha algo a ver com o acordo em que está trabalhando com a Apple para que a OpenAI desenvolva as próximas versões do Siri”.
Embora não seja possível ter acesso à versão final, já se multiplicaram os vídeos nas redes sociais que mostram, a partir de uma demonstração bastante avançada, aquelas atividades que a versão 4-o poderia possibilitar. É possível ver os pais fazendo a lição de casa com os filhos, sendo guiados pelo chat em novos aprendizados; assim como cientistas que anexam arquivos de milhares de páginas e recebem resumos de apenas 2 mil palavras em poucos segundos, já que podem receber documentos anexados ou capturas de tela e discuti-los. Em meio minuto pode entregar dezenas de gráficos que sintetizam as informações de um trabalho realizado durante anos; e é capaz de aconselhar sobre se o usuário está bem ou mal vestido para uma entrevista de emprego. Da mesma forma, conta histórias com mais ou menos emoção conforme solicitado e com um registro muito convincente.
“Fiquei muito impressionado com o vídeo em que Greg Brockman, presidente da OpenAI, é visto interagindo simultaneamente com dois desses assistentes, que, por sua vez, podem conversar entre si e até cantar em dupla”, exemplifica Iarussi. E continua com entusiasmo: “A novidade neste caso é o fato de os computadores poderem agora utilizar a linguagem natural para falar entre si. Brincando um pouco de ficção científica, poderíamos imaginar cenários em que diferentes agentes ou IAs (da sigla em inglês para Application Programming Interface) se colocam de acordo através da linguagem para resolver um problema específico. Creio que é muito interessante do ponto de vista da interoperabilidade e da colaboração entre vários sistemas especialistas”.
Apesar de todas as incertezas que cercam os avanços, uma coisa é certa: as inteligências artificiais parecem cada vez menos artificiais. Até agora, a capacidade de expressar emoções era algo reservado aos seres humanos, mas já não é mais. O CEO da OpenAI, Sam Altman, garantiu em suas redes: “Nosso novo modelo GPT-4o é o melhor que já fizemos. É inteligente, é rápido, é multimodal nativo”.
Para ter acesso ao assistente, os usuários devem criar um perfil no site oficial da OpenAI e depois de se cadastrarem poderão utilizar a ferramenta. O mais significativo de todos esses avanços é que as versões conhecidas, por meio do aprendizado de máquina, são alimentadas pelos múltiplos estímulos dos usuários e são aperfeiçoadas. Na verdade, quem experimenta as últimas versões descreve que, ao contrário das anteriores, o chat funciona melhor com outros idiomas diferentes do inglês. Isto representa um avanço na medida em que os exemplos anteriores não funcionavam de maneira adequada para outras línguas.
As mesmas potencialidades deslumbrantes do GPTChat podem tornar-se um ponto fraco. Conscientes disso, e após aprender com as versões anteriores, os testes para esta nova tecnologia foram verificados por 70 especialistas em psicologia da linguagem e práticas de desinformação.
Um ponto obscuro que está relacionado não apenas ao famoso chatbot, mas a toda IA está ligado à proteção da privacidade. Como são salvos os dados que os usuários fornecem sempre que interagem com um robô? Quão certo você pode estar de que eles não estão armazenados em algum lugar? Especificamente, e apesar da natureza distópica da afirmação, o que acontece se num dia ruim as máquinas se voltarem contra os seus criadores? Uma pergunta para a qual não há resposta e que, além disso, deve ser respondida não apenas pela empresa OpenAI, mas também por outros tanques da indústria como Google e Meta que, paralelamente, se juntam à corrida desenvolvendo os seus modelos linguísticos inteligentes.