¿Cuántas P tiene Google? Según Google, hay dos.
Según la descripción general de IA de Google, «La palabra ‘caca’ tiene exactamente una ‘r'» y la palabra ‘periodismo’ tiene dos ‘d’, pero se escribe ‘periodismo’. Google identificó al menos una P en el apellido del presidente de Estados Unidos, escrita trpum.
No es necesario ser un profeta para predecir que la revisión de búsqueda impulsada por la inteligencia artificial de Google no funcionará. He hecho esto antes. Cuando Google agregó por primera vez AI Overview a la búsqueda, la función terminó citando publicaciones satíricas de The Onion y Reddit que aconsejaban a las personas comer piedras y poner pegamento en la pizza.
No sorprende que Google tropiece esta vez, ya que redobla sus esfuerzos para hacer de la IA generativa la pieza central de su producto estrella de 29 años.
«Contar en palabras es un desafío conocido para LLM y estamos trabajando para resolver este problema específico», dijo Google a TechCrunch en un comunicado enviado por correo electrónico.
Estos errores ortográficos básicos pueden resultarle familiares. LLM es un tipo de inteligencia artificial que impulsa los chatbots y otras herramientas de generación de texto, pero no está diseñado para comprender la ortografía. Es un chiste que se repite desde hace años que cuando una empresa anuncia un nuevo modelo de IA, debería preguntar cuántas «r» hay en la palabra «fresa». Estos modelos de IA pueden codificar aplicaciones en segundos, resolver problemas que han desconcertado a los matemáticos durante décadas y pueden deletrear casi tan bien como un niño de jardín de infantes.
Sin embargo, los problemas con la descripción general de la IA de Google van más allá de los tontos errores ortográficos. Google ya solucionó un problema de la semana pasada por el cual, al buscar la palabra «ignorar», aparecía lo que parecía una definición de diccionario, solo para que esa definición dijera: «Está bien, ¡avíseme si tiene alguna sugerencia o pregunta nueva!». Sin embargo, estos errores ortográficos no dejan de ser graciosos porque son muy difíciles de contrarrestar.
Como explicaron anteriormente los investigadores cuando preguntamos sobre estos desafíos de ortografía, la IA no reconoce las oraciones como unidades del lenguaje compuestas por palabras y letras. Muchos LLM se basan en un modelo transformador que descompone el texto en tokens. Los tokens pueden ser palabras completas, sílabas, letras, etc. según el modelo. En lugar de “leer” como un humano, la IA convierte el texto en una representación numérica de sí mismo y lo contextualiza para ayudar a la IA a derivar una respuesta lógica.

«LLM se basa en esta arquitectura transformadora, pero en realidad no lee el texto. Lo que sucede cuando escribes un mensaje es que lo convierte en una codificación», dijo a TechCrunch Matthew Guzdial, investigador de inteligencia artificial y profesor asistente en la Universidad de Alberta. «Cuando vemos la palabra ‘el’, codificamos lo que significa ‘el’, pero no sabemos acerca de ‘T’, ‘H’ o ‘E'».
Las arquitecturas basadas en tokens que impulsan los LLM como AI Overview de Google son intrínsecamente limitadas y los investigadores no se mostraron optimistas de que pudieran resolver el problema de ortografía.
«Es difícil evitar la cuestión de qué debería ser exactamente una ‘palabra’ para un modelo de lenguaje», dijo a TechCrunch Sheridan Feucht, estudiante de doctorado en la Universidad Northeastern que estudia la interpretabilidad de grandes modelos de lenguaje. «Mi conjetura es que debido a este tipo de ambigüedad, no existe un tokenizador perfecto».
Esto no es necesariamente una cuestión apremiante para los investigadores, ya que la utilidad del LLM no puede entenderse por las habilidades de los investigadores. Pero estos fracasos flagrantes sirven como recordatorio de que la IA no es perfecta, aunque pueda parecer una fuerza omnisciente más allá de nuestra comprensión. No se puede confiar ciegamente en la salida de la IA sin verificar su precisión.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
