Desafios em Processamento de Linguagem Natural (V.4, N.9, P.3, 2021)
Tempo estimado de leitura: 7 minute(s)
Processamento de Linguagem Natural (PLN) é uma subárea da Inteligência Artificial que está recebendo muita atenção nos últimos anos. As aplicações também estão crescendo em termos de inovação e adoção pelas pessoas no seu dia a dia. Assistentes pessoais virtuais (por meio de comando de voz) e chatbots estão cada vez mais presentes e comuns em nossas vidas, redefinindo como nos envolvemos com a Internet e com o mundo dos negócios. Apesar desse sucesso recente, o PLN ainda tem enormes desafios e questões em aberto.
De forma bem simples, o PLN busca soluções para problemas que requerem o tratamento computacional de uma língua natural (português, inglês etc.), quer seja escrita (texto) ou falada (fala). Podemos dizer que o PLN funciona como um “tradutor”, ajudando a estabelecer uma comunicação eficaz entre computadores e seres humanos. Dessa forma, o objetivo do PLN é fornecer aos computadores a capacidade de entender e compor textos.
Desde o surgimento dos primeiros computadores, até hoje em dia, a compreensão de línguas naturais tem representado um grande desafio. Nos últimos anos, houve avanços significativos na capacitação de computadores para compreender a linguagem humana usando o PLN. Mesmo com o avanço no relacionamento homem-máquina, ainda há alguns desafios que precisam ser enfrentados. Portanto, um dos desafios em PLN é garantir que os computadores e dispositivos entendam as mudanças e se adaptem a elas conforme evoluem.
Entender um texto pode ser um desafio, principalmente por causa da ambiguidade da língua natural. A ambiguidade ocorre quando uma determinada palavra na frase pode assumir mais de um sentido ou significado. Por exemplo, a palavra “banco” é ambígua, pois pode assumir sentidos de entidade financeira e assento. O ser humano não tem muita dificuldade em entender o duplo sentido, uma vez que possui conhecimento cultural e experiência anterior. Porém, para as máquinas, essa tarefa é muito difícil.
O desafio é ainda muito maior, pois também é necessário entender situações mais complexas como: reconhecer o contexto, tonalidade da voz falada, extrair informações, interpretar os sentidos, analisar os sentimentos, além de realizar análises morfológica, léxica, sintática e semântica.
Para os humanos é mais fácil entender porque lemos o contexto da frase e entendemos todas as diferentes definições. Embora os modelos de linguagem do PLN possam reconhecer todas as definições, diferenciá-los no contexto ainda pode apresentar problemas. Portanto, para construir sistemas de PLN, é importante incluir todos os significados possíveis de uma palavra e todos os sinônimos possíveis. Modelos de análise de texto ainda podem ocasionalmente cometer erros, mas quanto mais dados de treinamento relevantes eles receberem, melhor serão capazes de entender sinônimos. Porém, as palavras podem ser vagas. Muitas palavras têm essencialmente o mesmo significado, mas envolvem graus de nuances. Afinal, o que realmente significa estar “tarde”?
Outra questão importante é que a língua muda frequentemente, à medida que o mundo também muda. De acordo com o Oxford English Dictionary, em sua última atualização, ocorrida em junho de 2021, aproximadamente 700 novas palavras e sentidos foram adicionados. Ao todo, há mais de 600.000 palavras na língua inglesa.
A evolução do idioma também ocorre porque a língua sofre uma série de influências, incluindo as mudanças e hábitos da sociedade. Um bom exemplo é a palavra “você”. Antigamente, esse pronome pessoal de tratamento era “vossa mercê”, que evoluiu para “vosmecê”, depois “vancê” e finalmente, “você”. Esse pronome também pode ser usado de uma maneira mais informal, se resumindo apenas a “cê”. Além disso, há regiões no Brasil em que o pronome “você” não é tão usado, sendo mais comum o uso do pronome “tu”. Esse é apenas um exemplo de como o nosso idioma pode mudar com ao longo do tempo.
Temos que lembrar que a linguagem humana é surpreendentemente complexa e diversa. As pessoas se expressam de infinitas maneiras, tanto verbalmente quanto por escrito. Há centenas de idiomas e dialetos, cada um com seu próprio conjunto de regras gramaticais e de sintaxe, expressões e gírias.
Quando escrevemos é comum cometer erros ou abreviar palavras. Palavras com erros ortográficos ou mal usadas podem criar problemas para a análise de texto. Os aplicativos de autocorreção e correção gramatical podem lidar com erros comuns, mas nem sempre entendem a intenção de quem escreveu.
Quando falamos, cometemos erros gramaticais. Contudo, isso geralmente não é um problema, pois as pessoas têm uma grande capacidade de inferência. Entretanto, esse é um grande desafio em PLN, visto que palavras e frases podem ter múltiplos significados (o que é chamado de polissemia). Além disso, quando falamos, também carregamos sotaques regionais e muitas vezes usamos termos de outros idiomas, dificultando bastante a identificação pelo computador.
Com a linguagem falada, erros de pronúncia, sotaques diferentes, gagueira etc., podem ser difíceis para uma máquina entender. No entanto, conforme os bancos de dados de idiomas aumentam e os assistentes inteligentes são treinados por seus usuários individuais, esses problemas podem ser minimizados.
O significado das palavras pode mudar com base no uso de sarcasmo ou outras reações emocionais. Dependendo da personalidade, intenção e emoção de uma pessoa, ela pode usar estilos diferentes para expressar a mesma ideia, podendo inclusive em alguns casos transmitir um significado oposto ao literal fazendo uso, por exemplo, de ironia ou sarcasmo.
Ironia e sarcasmo apresentam problemas para modelos de aprendizado de máquina porque geralmente usam palavras e frases que, estritamente por definição, podem ser positivas ou negativas, mas na verdade conotam o oposto. Por fim, as conversas podem ser não lineares e ter interrupções.
As máquinas podem analisar mais dados do que seres humanos, sem fadiga, de maneira consistente e imparcial. Técnicas de PLN podem ser usadas para analisar grandes quantidades de texto em tempo real para percepções anteriormente inatingíveis. Além disso, os modelos de PLN se tornam mais inteligentes quando são treinados com mais dados. Dito isso, os dados (e a linguagem humana!) só aumentam a cada dia. Assim, os desafios e problemas aqui citados exigirão mais pesquisas, possibilitando o surgimento de novas técnicas e tecnologias. E com isso esperamos poder ter soluções para alguns desses desafios no futuro próximo.