Reconhecimento de voz que funciona

Usei programas de reconhecimento desde os anos 1990. Agora, mais recentemente, estive em contato com o Siri do iphone e a uma solução do Goo...

Usei programas de reconhecimento desde os anos 1990. Agora, mais recentemente, estive em contato com o Siri do iphone e a uma solução do Google para fazer pesquisas pela voz usando a apenas a fala. Todavia, com o LG G2 eu tive a minha melhor experiência com essa tecnologia.



Voltamos para 1990, nessa época o Via Voice da IBM era o que havia de mais popular e eficaz em termos reconhecimento de voz (Via Voice foi introduzido em 1997, e em 1999 havia uma versão gratuita do programa). Para funcionar, Você tinha que treinar o software durante 40 minutos a uma hora. Então, você começava a fazer ditados para comandar o computador usando comando de voz como "abra o Word". Era um treino individualizado, ou seja, se um segundo usuário também usasse o Via Voice seria necessário também se submeter a uma torturante sessão de treinamento do software. Apesar de enjoado funcionava razoavelmente bem. Tinha um percentual de acerto semelhante ao que você teria digitando seus textos. mas não era muito prático e eu acabei não usando. Mas ficou a lembrança de uma interface diferente para entrar dados no computador.

Voice recognition (reconhecimento de voz) se refere ao reconhecimento de "quem" está falando, enquanto acontecendo a fala. Aplicado nos sistemas que necessitam de treino para traduzir a fala em texto e para sistemas de identificação de segurança. Speech recognition (reconhecimento de fala) é o termo que se refere ao processo automático de traduzir o que é dito em texto. Em alguns smart

O tempo passou e vieram os smartphones, que funcionam como um assistente pessoal com um crescente poder de processamento. Versões melhoradas do Via Voice foram se sucedendo, junto com o hardware necessário para seu uso, inaugurando uma nova fase de seu desenvolvimento em 2005, quando ele deixou de ser da IBM passando para ScanSoft. Surgiu a busca por voz do Google e o Siri do iPhone 4S, que permite responder questões e até transferir compromissos da agenda do usuário, de uma data para outra, tudo meio da fala.

Também já conseguia pedir a "programação de cinema em Brasília" sem digitar nada na busca por voz do Google no Galaxy S II. Apesar disso, outras consultas mais complexas eram simplesmente decepcionantes.

Deixei de lado essa tecnologia durante um tempo, sempre na esperança de que, em algum ponto no futuro dialogaríamos com os computadores em uma perfeita simbiose do reconhecimento de voz, fala e inteligência artificial. Onde essa última viabilizaria o uso das outras atividades, enquanto aquelas, permitiriam que a IA fosse continuamente alimentada e aprimorada.

Ainda espero fazer uma reunião de brainstorm com imagens, textos e links relacionados surgindo enquanto minha equipe dialoga sobre algum tema relevante. Mas não tenho pressa.

Incorporei a busca por voz no Blog Brasil Acadêmico durante um tempo, cheguei a usar um serviço de alguma operadora de telefonia, TV por assinatura, ou algo semelhante, onde dizia alguma palavra chave do menu de opções para selecionar o item (algo do tipo: "Diga 'futebol' para assinar o campeonato brasileiro pay per view"). Mas de fato não via nenhum grande avanço nessa área muito "palpável" para o usuário comum.

Mas o Google parece ter feitos avanços significativos nessa área, tenho que testemunhar que fiquei bem impressionado com a facilidade de anotar coisa a fazer na lista de tarefas de meu último smartphone Android.

Registros do tipo "reconhecer assinatura no cartório" ou "chamar seguro residencial para consertar torneira" funcionaram bem o que possibilitou uma agilidade inédita no planejamento de tarefas simples.

Ainda havia alguma confusão entre o "do" e o "no", mas, nesse caso, nem fazia tanta diferença. Para um lembrete do tipo post-it tanto faz estar escrito "pegar talão de cheques no banco" ou "pegar talão de cheques DO banco". E após encher minha "to-do list" das férias, percebi estar diante de uma forma de interação com grande potencial.

Resolvi escrever o post que você está lendo apenas ditando. Aqui apareceram os problemas. Embora tivesse com um roteiro mais ou menos delineado em mente, ainda me atrapalhava quando lembrava não estar certo de nomes e datas. E isso diminuía o ritmo e a clareza de minha fala.

Ditar um texto é bem diferente de dialogar ou mesmo de dar uma palestra. Especialmente sendo gravado.

Após algum tempo, o mecanismo da sua fala também começa a cansar, e a impostação de voz já não é a mesma. Destarte, notei que os erros se concentraram mais no final do texto.

Outra problema digno de observação, o app Blogger oficial da Google Inc. para Android parece não salvar as atualizações automaticamente, quando comparado com a versão web para desktop.

Assim, acabei perdendo a primeira versão desse texto.

Além disso, é necessário estar conectado com o Google durante o processo de reconhecimento e por algum motivo a ligação online com a empresa caiu durante a captura da fala.

Mesmo assim, foi muito bom pegar as ideias gerais do que pretendia escrever e editar. Surgia vez por outra alguns termos estranhos, e engraçados, como o meu "desde os anos 1990" que virou "10 dos anos 1990", porém, percebo uma melhora significativa no funcionamento do reconhecimento, especialmente se considerarmos não haver necessidade de treino do sistema (minha esposa também ficou admirada de sua fala ser reconhecida sem erros e sem treino) e em português do Brasil, o que é ainda mais admirável.

O vídeo a seguir mostra uma experiência usando o app Google Drive para Android, um G2 (com um processador de 2,26 GHz Snapdragon 800 Quad-Core da Qualcomm, que certamente faz diferença) e atrás do aparelho você vê o resultado saindo em um monitor também no Google Drive no browser, em um PC. Perceba que falando mais pausadamente o resultado tende a sair melhor.



Bem, vou finalizar esse post fazendo uma demonstração em tempo real de como está avançada a tecnologia de reconhecimento de voz, especialmente para o português do Brasil. Obrigado pela atenção. Agora vou passar para edição desse trecho.

Comentários

Nome

A divulgar Abelha acessibilidade acessório Acidente Acidentes Acústica Adágios Adestramento Administração adulto Aerodinâmica Aeronáutica África Agência Brasil Agropecuária AIDS Alcoolismo Alemanha Alerta Algoritmo Alimento Alzheimer Amazon Amazônia Análise Combinatória Anatomia Android Animação Animais de Estimação Animal Antropologia apagão Apicultura Apobec App Apple Apresentação aquário Argentina Arqueologia arquitetura Arte Astrobiologia Astronomia Ativismo Áudio Audio FX Áustria Autismo Auto-ajuda Automobilismo Automóvel aventura Aviação Aviônica Bahia Balonismo Banco de Dados Beber e Dirigir biblioteconomia Bicicleta Biografia Biologia Biologia Marinha bioquímica Biotecnologia Blog Blogger Boato Bomba borderô de desconto Botânica Brasil Brasília BRIC Browser Bugs CAD Calor Câmera lenta Campanha câncer cardiologia carreira Casemods Caso Isabella Nardoni Caso Snowden Celebridades celular Células-Tronco Cérebro Charge China Cibercultura Ciclovia Cidadania Ciência Cinema Clip Cliparts Cloud computing Comédia competência Complemento de dois Comportamento Computação Computação em grade Computação forense Computação Gráfica Computação Móvel Comunicação e Marketing Concurso Concurso Cultural de Natal Concursos Público Concursos Públicos Conectômica Conspiração Consumidor Consumismo contabilidade Contos Copa do Mundo Cordel Coreia do Norte Coreia do Sul Corpo Coruja cosmética cosmologia Criança Crime Crime Digital crise crise econômica crônica crônicas Cronologia CSS Cuba Culinária Cultura Curiosidades custos fixo custos variáveis Dança DAO Darwin Decoração demência Demografia Denúncia Dermatologia Desastre Natural Descoberta desconto duplicatas Desenho instrucional Desenvolvimento de jogos Design Dia das Mães Dia do professor diabetes Dica Dicas Didática Dieta diplomacia Direito Direito Eleitoral Direito Internacional Direito Tributário Direitos Humanos Disney Distrito Federal Documentário Doutorado download Drogas e-Book e-governo Ecologia economia Editoração Eletrônica Educação Educação a Distância educação física Educação sexual Efeitos Sonoros Egiptologia Eleições Eleições 2014 Eletricidade eletrônica empreendedorismo enciclopédia endocrinologia Enem Energia Energia Alternativa Energia Nuclear Engenharia Engenharia Civil Engenharia de materiais Engenharia de Software Engenharia Genética Engenharia Mecânica Enretenimento Ensino a Distância Ensino Superior Entomologia Entretenimento Entrevista Epidemiologia Equador Escândalo Escritório Espaço Espanha Espanhol Espeleologia Espetáculo Espionagem Esporte Estação Estágio Estatísticas estrutura de dados Ética EUA Evento Evolução Exercícios físicos Exobiologia experiência fábulas Facebook Farmacologia Favo featured Feminismo Férias Ferramentas FIFA Filantropia Filmes Filosofia Firefox Física Física Quântica Fisiologia Fisioterapia Flagrante Flamengo Folclore Fome Fonoaudiologia Fotografia Fotos em 360 graus França Francês frases Fraude Freeware Futebol Futurologia gadget Gafe Gastroenterologia Gastronomia Geek Genética Geofísica Geografia Geologia Geometria geopolítica Geriatria Gestão de Configuração Gestão de Projetos Gestão do conhecimento Ginecologia Glass Google Governo GPS Gradiente gramática Gravidez Grécia Grécia Antiga Guerra Guinness H2 Haiti hardware História HIV homenagem Horologia HPV HTML Humor Humor Negro IBM ICIJ Idioma IHC ilo ilusão ilusão de óptica ilusão de ótica ilusionismo Imagem 3D Imagens Imagine Cup Império Romano Imprensa Impressora 3D Incêndio Inclusão digital Índia Índios Infectologia Infográfico Informática Inglaterra Inglês Inovação Inteligência Artificial interativo Interface Interface Homem-Computador Interfaces Hápticas Internacional Internacionalização da Amazônia Internet Inundação Invenção Inventos iPad IPEA iphone Irã Iraque Israel Japão Java Java. jogos Jogos educativos Jogos Olímpicos Jornalismo Justiça Kinect Le Monde Diplomatique Brasil Letras Lexicografia Liderança Life Hacking Linguística Literatura Livro Lógica Logística Lua Maçonaria Malásia Malvinas Malware Mapa Mapas Marte Mastologia Matemática Matemática Financeira maternidade Mecânica Mecânica dos Fluidos Mecatrônica Medicina Medicina Esportiva Medicina Veterinária Meio Ambiente Mel melanoma Memória memorização Mente Mercado de Trabalho mercosul Mestrado meteorologia Metodologia Científica México Microbiologia Microsoft Mídia Social Militar Mineralogia Mistério MIT Mitologia Mobilidade Mobilidade Urbana MonaVie Montanhismo Moodle Mossad Motivação MSF Mudança Climática Mulher Multimídia museu Música MVC Nanotecnologia Nasa Natação Natal Natureza Negócios Neurociência Neurologia Nordeste Noruega notícias Novidades Novo Enem Números Nutrição Obama Obesidade Observatório da Imprensa Obstetrícia Oceanografia odontologia Offshore Leaks oftalmologia Olimpíadas oncologia ONU Opinião Óptica Oracle Oriente Médio Orkut Ornitologia ortografia Ortopedia ótica Otorrinolaringologia Paginadores paleontologia Paquistão Pará Paraguai parkinson Passeio virtual Patinação Pediatria Pensamentos performance Periférico Pesca Pesquisa Petição Petrobrás Petróleo Photoshop Pirataria planilha de custo Playstation 3 Plebiscito Pneumologia Podcast Poesia Poítica Política Portugal português Pós-graduação prazo médio Pré-sal Prêmio Nobel primatologia privacidade produtividade professor Hamilton Alves Programa Gratuito Programação Projeto Truco Promoção Propaganda Psicanálise Psicologia Psicologia Animal Psiquiatria Pública publicidade Publieditorial Quadrinhos Quads Qualidade Qualidade de Vida quimica química realidade aumentada realidade diminuída Realidade Virtual Reconhecimento de imagem Reconhecimento de voz Recorde Redação redes Referência Referendo Reforma Política Relacionamento Relações Internacionais Religião Responsabilidade Social Retrospectiva Rio 2016 Rio Grande do Norte Rio Grande do Sul robótica Roda Viva Roma roteiro RSA Rússia Samsung Sanitarismo Santa Catarina São Paulo saúde Savant Segunda Guerra Mundial Segurança Segurança da Informação Seleção Natural serviço Serviço Online Sexologia sexualidade Show SIGGRAPH Simulação Sismologia Sistema operacional Sistemas de Numeração Sites de Busca Sociedade Sociologia Software Software Livre Sol Sono Sony SOPA Suécia Sugestão de presentes Sun supercomputadores Sustentabilidade Tabagismo Talento precoce taxa de juros efetiva taxa de juros nominal Taxas Equivalentes Taxidermia Teatro Técnicas de Estudo Tecnologia Tecnologia da Informação TED TedMed TEDx Rio+20 TEDxAmazônia TEDxAsaSul Telefonia Televisão Temas Tempo Tendências Teologia teoria das supercordas Terremoto Terrorismo Testes Tipologia Tomada de Decisão tradução Trânsito transporte tributo Trigonometria Tubarão Turismo Tutorial Twitter UFG ufologia UFRJ universidade Urbanismo Urologia USP Utilidade Pública Utilitário Vale Vaticano Ventriloquismo Verão vestibular Vestimenta Vida Digital Vida Moderna Vida Selvagem Vídeo Videogame Vídeos Vídeos 360 Violência Vírus Visão Computacional Vôlei Vulcanologia Watergate Política Web 2.0 Web Application Web Semântica Web Seminar webdesign Webinar widget WikiLeaks Wikipedia Windows Xadrez YouTube Zoologia
false
ltr
item
Brasil Acadêmico Draft: Reconhecimento de voz que funciona
Reconhecimento de voz que funciona
http://1.bp.blogspot.com/-YCHAQTnGziY/Uqckox-v4TI/AAAAAAAAXdc/5NIbMYKUsa0/s400/recFala.jpg
http://1.bp.blogspot.com/-YCHAQTnGziY/Uqckox-v4TI/AAAAAAAAXdc/5NIbMYKUsa0/s72-c/recFala.jpg
Brasil Acadêmico Draft
http://draftbracad.blogspot.com/2013/12/reconhecimento-de-voz-que-funciona.html
http://draftbracad.blogspot.com/
http://draftbracad.blogspot.com/
http://draftbracad.blogspot.com/2013/12/reconhecimento-de-voz-que-funciona.html
true
7742307559183522523
UTF-8
Nenhuma artigo encontrado. VER TODOS Leia mais Responder Cancelar resposta Apagar Por Início PÁGINAS POSTS Ver Todos Indicado para você CATEGORIA ARQUIVO BUSCA TODOS ARTIGOS Nenhum artigo corresponde ao critério procurado Ir para Início Domingo Segunda Terça Quarta Quinta Sexta Sábado Dom Seg Ter Qua Qui Sex Sáb Janeiro Fevereiro Março Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Jan Fev Mar Abr Maio Jun Jul Ago Set Out Nov Dez agora 1 minuto atrás $$1$$ minutes ago 1 hora atrás $$1$$ hours ago Ontem $$1$$ days ago $$1$$ weeks ago mais de 5 semanas atrás Seguidores Seguir Este conteúdo é PREMIUM Por favor, compartilhe para liberar Copiar todo o código Selecionar todo o código Todos os códigos foram copiados para o clipboard Can not copy the codes / texts, please press [CTRL]+[C] (or CMD+C with Mac) to copy