Demandan a OpenAI por 'robar' datos para entrenar a ChatGPT

Nueva York, Estados Unidos

La demanda colectiva afirma que la compañía de Sam Altman "secretamente" recolectó datos para entrenar sus modelos de lenguaje grande (LLM, por sus siglas en inglés) para que ChatGPT pudiera replicar el lenguaje humano.

"A pesar de los protocolos establecidos para la compra y el uso de información personal, los demandados adoptaron un enfoque diferente: el robo", escribieron los abogados en la demanda de 157 páginas, presentada en la Corte de Distrito de los Estados Unidos para el Distrito Norte de California.

La demanda alega que OpenAI rastreó la web para acumular grandes cantidades de datos, incluida información extraída de sitios de redes sociales.

El corpus de datos personales de propiedad intelectual de OpenAI, WebText2, por ejemplo, extrajo datos de publicaciones de Reddit y los sitios web a los que se vinculaban, afirma la demanda.

Los datos a los que se accedió incluían "información privada y conversaciones privadas, datos médicos, información sobre niños; esencialmente todos los datos intercambiados en internet que podría tomar, sin previo aviso a los propietarios o usuarios de dichos datos. Y mucho menos con el permiso de alguien", según la demanda.

Esto equivalía a "el robo negligente e ilegal de datos personales de millones de estadounidenses que ni siquiera usan herramientas de IA", agrega el documento.

OpenAI no respondió de inmediato a la solicitud de comentarios de Insider, realizada fuera del horario laboral habitual.

Además de robar las "huellas digitales" del público en general, la demanda afirma que OpenAI también almacena y divulga la información privada de los usuarios, incluidos los detalles que ingresan para crear cuentas de OpenAI, sus datos de registro de chat e información de redes sociales.

Junto con los usuarios de ChatGPT directamente, se incluye los datos de personas que usan aplicaciones que tienen ChatGPT integrado; entre ellas Snapchat, Stripe, Spotify, Microsoft Teams y Slack.

Las empresas no respondieron de inmediato a la solicitud de comentarios de Insider.

La demanda busca congelar temporalmente el acceso comercial y el desarrollo de los productos de OpenAI hasta que la compañía haya implementado más regulaciones y salvaguardas.

Eso incluye permitir que las personas opten por no participar en la recopilación de datos y evitar que sus productos "superen la inteligencia humana y perjudiquen a otros".

La demanda también busca una compensación financiera para las personas a cuyos datos se accedió para entrenar a los bots.

Además de OpenAI, el principal patrocinador de la compañía, Microsoft, también fue nombrado como demandado.