CunoFS lleva el acceso a archivos Posix a la capacidad de almacenamiento de objetos de S3 – Es de Latino News

CunoFS lleva el acceso a archivos Posix a la capacidad de almacenamiento de objetos de S3 – Es de Latino News

Capacidad ilimitada de almacenamiento de objetos en la nube con acceso a archivos compatible con Posix: esa es la promesa de CunoFS de PetaGene, con sede en Cambridge, que tiene como objetivo resolver el desafío cada vez más generalizado de cómo combinar la computación de alto rendimiento y grandes cantidades de datos almacenados.

Es un desafío para las cargas de trabajo como la inteligencia artificial (IA), la producción de videos, la investigación médica y la detección de anomalías de seguridad, que a menudo necesitan actualizar datos de fuentes profundas o ampliamente distribuidas con frecuencia y rapidez para obtener el mejor rendimiento. Leer y escribir rápidamente mientras se accede a grandes volúmenes de almacenamiento suele ser una propuesta costosa.

“Para ahorrar costos de capacidad, la solución es utilizar el almacenamiento de objetos, en las instalaciones o en la nube”, dijo Dan Greenfield, cofundador y director ejecutivo de PetaGene, en un reciente evento IT Press Tour en Berlín al que asistieron LeMagIT. “El problema es que las aplicaciones a menudo no están diseñadas para el almacenamiento de objetos. Abierto, guardado, etc. como archivos, generalmente en NAS [network-attached storage]. No envían solicitudes HTTP según sea necesario en [Amazon] S3.”

Poner acceso a archivos en depósitos S3

Greenfield proporcionó algunos ejemplos: “En AWS [Amazon Web Services]1TB [terabyte] El almacenamiento S3 de acceso directo cuesta $ 276 por mes. Con el servicio NAS de AWS, EFS, la factura es de $3600 por mes. Y si desea el mismo tipo de acceso paralelo que se ofrece en S3, necesitaría AWS FSx Lustre, y por 1 TB cuesta $7200 al mes”.

Aun así, no es probable que muchas empresas conviertan las aplicaciones para que funcionen en S3 de la forma en que lo hacen en el modo de archivo. Dejando a un lado las diferencias del protocolo de comunicación (API REST versus acceso a través del sistema operativo del host), también sería necesario cambiar los algoritmos existentes y los hábitos de los usuarios.

En el almacenamiento de objetos, no existe el concepto de directorios, no hay gestión de usuarios o grupos de usuarios de Posix, no hay modificaciones, solo nuevas versiones. En resumen, el proceso de migración de archivo a objeto es largo y costoso.

El enfoque tradicional para lidiar con los altos costos del acceso NAS ha sido colocar una puerta de enlace frente al almacenamiento de objetos y convertir NFS o SMB sobre la marcha. Un ejemplo de una puerta de enlace es el s3fs basado en Python de código abierto.

“El problema con este tipo de arquitectura es que la puerta de enlace crea un cuello de botella, poniendo en un solo archivo todo el acceso que los servidores pueden dar en paralelo”, dijo Greenfield, quien estaría en S3. “Nuestra solución es implementar una puerta de enlace de archivos/objetos en cada servidor que ejecuta una aplicación”.

CunoFS está montado en servidores con la ruta Posix “/cuno/s3” y apunta al repositorio especificado en las preferencias. Eso hace posible navegar por directorios de pensamientos usando el comando “cd”, extraer archivos a través de “tar”, cambiar los derechos de acceso con “chmod”, filtrar contenidos con “grep”, etc.

Mucho más rápido que el NAS tradicional

CunoFS no solo evita el cuello de botella de una sola puerta de enlace, sino que también acelera el acceso más allá de lo que es posible con el NAS tradicional.

Según las cifras de rendimiento de PetaGene, CunoFS instalado en un servidor virtual de AWS escribirá el código fuente del kernel de Linux en 128 segundos en el almacenamiento S3 y lo leerá en 21 segundos.

El uso de un servidor de aplicaciones para escribir en el NAS de AWS EFS toma, respectivamente, seis y 10,5 minutos. Aquí, escribir es más rápido que leer porque EFS usa caché.

Pasar por un NAS externo/puerta de enlace de objetos como s3fs para escribir el mismo código desde el mismo servidor al mismo almacenamiento S3 toma un poco más de dos horas, mientras que la lectura toma alrededor de 15 minutos.

También es probable que los marcos de IA sean un caso de uso apropiado para un número cada vez mayor de empresas. Entonces, un servidor PyTorch alojado en Google Cloud Platform (GCP) escribirá a 260 Mbps en un servicio de almacenamiento de objetos a través de una puerta de enlace s3fs y 350 Mbps en NAS sin conversión. Con CunoFS en el servidor PyTorch, eso salta a 20 Gbps.

¿Cómo logra CunoFS lecturas/escrituras de archivos más rápidas que un NAS que no necesita lidiar con solicitudes HTTP? Simplemente porque CunoFS no es solo una puerta de enlace local, sino también una herramienta eficiente para la compresión sobre la marcha. Es más rápido porque transfiere muchos menos datos.

CunoFS: una variante de PetaSuite

PetaGene comenzó como un proveedor de herramientas de compresión para laboratorios de genómica, PetaSuite, que podía lograr tasas de reducción del 60 % al 90 %.

A PetaSuite le siguió la biblioteca PetaLink, que permitió la compresión y rehidratación de archivos sobre la marcha en los servidores de aplicaciones. Fue esto lo que permitió lecturas y escrituras aceleradas en NAS.

En 2018, la plataforma obtuvo la capacidad de almacenar archivos en cubos S3 con conversión sobre la marcha al modo objeto, pero pasaron cuatro años más antes de que el módulo se usara para algo más que datos genómicos.

“Inicialmente, PetaSuite Cloud Edition fue muy eficiente para guardar archivos muy grandes en la nube, pero el rendimiento fue muy decepcionante en tamaños de archivo más típicos”, dijo Greenfield. “Entendimos que solucionar este problema nos permitiría ampliar nuestra cartera de clientes a todos aquellos que quieran tramitar una gran cantidad de expedientes”.

Da la casualidad de que PetaGene se dio cuenta de que había cometido el error de almacenar los metadatos de Posix (directorios, derechos de acceso) con los otros metadatos almacenados en S3 (nombre del autor, tipo de contenido).

“Los metadatos de Posix son mucho más simples que los metadatos de S3”, dijo Greenfield. “Es mucho más comprimible y podemos federarlo en varios archivos. Entonces es posible tratarlo por separado y así es como PetaSuite Cloud Edition se convirtió en CunoFS”.

Desde 2022, CunoFS ha hechizado a algunos grandes jugadores de almacenamiento, en particular Dell y NetApp, que lo han visto como una forma de acelerar sus soluciones.

Además, PeteGene espera extender el soporte de CunoFS a servidores Linux, con una versión de cliente para Windows y MacOS, así como un controlador CSI para clústeres de Kubernetes. Se espera una versión compatible con servidores ARM a finales de este año.

Esta nota es parte de la red de Wepolis y fué publicada por California Corresponsal el 2023-07-25 08:41:39 en:

Link a la nota original

Palabras clave:
#CunoFS #lleva #acceso #archivos #Posix #capacidad #almacenamiento #objetos #Latino #News

About the author

Pretium lorem primis senectus habitasse lectus donec ultricies tortor adipiscing fusce morbi volutpat pellentesque consectetur risus molestie curae malesuada. Dignissim lacus convallis massa mauris enim mattis magnis senectus montes mollis phasellus.

Leave a Comment