Principal Inovação O Google AI agora permite que os usuários traduzam textos instantaneamente em 27 idiomas com câmeras de telefone

O Google AI agora permite que os usuários traduzam textos instantaneamente em 27 idiomas com câmeras de telefone

(Gif: Google)

(Gif: Google)



Graças à inteligência artificial, viajar para o exterior nunca foi tão simples.

O aplicativo Google Translate permite que os usuários traduzam textos instantaneamente. No aplicativo, basta apontar sua câmera para o texto que deseja traduzir e você o verá se transformar no idioma desejado ao vivo, bem diante de seus olhos - sem necessidade de conexão com a Internet ou dados de telefone celular. Esse recurso útil está disponível há algum tempo, mas era compatível apenas com sete idiomas. Agora , graças ao aprendizado de máquina, o Google atualizou o aplicativo para traduzir instantaneamente 27 idiomas.

Então, da próxima vez que você estiver em Praga e não conseguir ler um cardápio, nós o apoiaremos, Otavio Good, engenheiro de software do Google, escreveu sobre a pesquisa da empresa Blog .

O Google também usou a IA para reduzir pela metade os erros de reconhecimento de voz.

A partir de hoje, além de traduzir entre inglês, francês, alemão, italiano, português, russo e espanhol, os seguintes 20 idiomas também podem ser traduzidos em tempo real: búlgaro, catalão, croata, tcheco, dinamarquês, holandês, filipino, Finlandês, Húngaro, Indonésio, Lituano, Norueguês, Polonês, Romeno, Eslovaco, Sueco, Turco e Ucraniano. E se você optar por tirar uma foto em vez de assistir a tradução do texto ao vivo, um total de 37 idiomas são suportados.

Então, como o Google conseguiu aumentar o número de idiomas disponíveis? Eles primeiro adquiriram o Word Lens, anteriormente um aplicativo de tradução de realidade aumentada, e usaram aprendizado de máquina e redes neurais convolucionais para aprimorar os recursos do aplicativo. Os avanços no reconhecimento de imagem foram fundamentais.

Há cinco anos, se você desse a um computador a imagem de um gato ou de um cachorro, ele teria problemas para dizer qual era qual. Graças às redes neurais convolucionais, os computadores não apenas podem dizer a diferença entre cães e gatos, mas também podem reconhecer diferentes raças de cães, disse Good. Sim, eles são bons para mais do que apenas arte trippy —Se você está traduzindo um menu estrangeiro ou sinal com a versão mais recente do aplicativo Google Translate, agora você está usando uma rede neural profunda.

Passo a passo

Primeiro , O Translate deve eliminar a confusão de fundo e localizar o texto. Quando ele localiza bolhas de pixels da mesma cor, determina que são letras. E quando esses blobs estão próximos uns dos outros, entende que é uma linha contínua a ser lida.

Próximo, o aplicativo deve reconhecer o que cada letra é. É aqui que entra o aprendizado profundo.

Usamos uma rede neural convolucional, treinando-a em letras e não-letras para que ela possa aprender como são as letras diferentes, lê a postagem do blog.

Os pesquisadores tiveram que treinar o software não apenas usando letras de aparência limpa, mas também sujas. As cartas no mundo real são manchadas por reflexos, sujeira, manchas e todos os tipos de estranheza, escreveu o Sr. Good. Portanto, construímos nosso gerador de cartas para criar todos os tipos de sujeira falsa para imitar de forma convincente o ruído do mundo real - reflexos falsos, manchas falsas, estranheza falsa por toda parte. Alguns dos

Algumas das letras sujas usadas para treinamento. (Foto: Google)



O terceiro etapa é procurar as letras reconhecidas em um dicionário para obter as traduções. E para uma tentativa adicional de precisão, as pesquisas no dicionário são aproximadas no caso de um S ser mal interpretado como um 5.

Por último, o texto traduzido é renderizado sobre o original no mesmo estilo.

Podemos fazer isso porque já encontramos e lemos as letras da imagem, então sabemos exatamente onde elas estão. Podemos olhar as cores ao redor das letras e usar isso para apagar as letras originais. E então podemos desenhar a tradução no topo usando a cor de primeiro plano original, diz a postagem do blog.

Para ser o mais eficiente possível e permitir que todas essas etapas sejam concluídas em tempo real, sem uma conexão de Internet ou de dados, a equipe do Google desenvolveu uma rede neural muito pequena com um limite superior na densidade de informações que pode manipular. Como eles estavam gerando seus próprios dados de treinamento, era importante incluir os dados corretos, mas nada extra, para que a rede neural não use muito de sua densidade de informações em coisas sem importância. Um exemplo seria como ele precisa reconhecer uma letra com uma pequena rotação, mas não muito.

No final, os usuários ficam com mais 20 idiomas, mas a mesma velocidade rápida.

VEJA TAMBÉM: A equipe de IA do Google nos forneceu informações sobre sua pesquisa de aprendizado de máquina

Artigos Interessantes