From b96fa8c26ddeaec445b9a6db53f7eb3912bf0714 Mon Sep 17 00:00:00 2001 From: Giuseppe Lo Presti <giuseppe.lopresti@cern.ch> Date: Wed, 29 Jan 2025 09:44:14 +0100 Subject: [PATCH 1/3] Introduced section about large data transfers --- docs/advanced/large_copies.fr.md | 32 +++++++++++++++++++++++++++++++ docs/advanced/large_copies.md | 32 +++++++++++++++++++++++++++++++ docs/for_developers/api_access.md | 2 +- docs/web/quota.fr.md | 11 ++++------- docs/web/quota.md | 4 ++-- 5 files changed, 71 insertions(+), 10 deletions(-) create mode 100644 docs/advanced/large_copies.fr.md create mode 100644 docs/advanced/large_copies.md diff --git a/docs/advanced/large_copies.fr.md b/docs/advanced/large_copies.fr.md new file mode 100644 index 0000000..d64de1b --- /dev/null +++ b/docs/advanced/large_copies.fr.md @@ -0,0 +1,32 @@ +# Gestion des transferts de données volumineux + +Si vous devez transférer une grande quantité de données (de l'ordre de plusieurs dizaines de Go) ou une grande quantité de fichiers (plusieurs milliers) vers ou depuis CERNBox, certaines précautions sont nécessaires, car les outils interactifs tels que les navigateurs de fichiers natifs du système d'exploitation ou l'interface Web de CERNBox peuvent ne pas être la meilleure option. + +## Transferts Web + +Si vous devez rendre des fichiers volumineux disponibles via web, de manière anonyme ou non, vous devez utiliser les [sites WebEOS](web-pages/expose_files_in_website). Cependant, nous recommandons de fragmenter les fichiers très volumineux pour aider les utilisateurs à les télécharger en l'absence de mécanismes de récupération de transfert. + +Si vous devez télécharger des fichiers volumineux sur EOS et que vous êtes membre d'une expérience, il vous est recommandé d'utiliser HTTP Third-Party Copy (TPC) via le service de transfert de fichiers (FTS). + +Sinon, un telechargement à travers l'interface web de CERNBox est limité à 20 minutes de temps de transfert. En plus, un maximum de 8 Go sont accordés en upload. Si vous et/ou vos destinataires êtes concernés par cette limite, nous vous recommandons de passer à d'autres protocoles comme suggéré ci-dessous. + +Notez que si votre destinataire ne possède pas de compte CERN et que vous ne pouvez utiliser que les liens publics CERNBox, vous devez diviser les transferts de données de manière à rester en dessous de la limite. + +## Autres transferts de données + +Le moyen le plus efficace de transférer des données vers/depuis CERNBox est d'accéder directement au système de stockage. Pour EOS, il vous est recommandé de [partager le(s) dossier(s) concerné(s) avec des comptes](../web/sharing/auth-share/), et non pas sous forme de lien public, de manière à pouvoir y accéder sans passer par l'interface web de CERNBox. + +En fonction de votre système d'exploitation, vos options sont : + +* Si vous savez comment utiliser xrootd sur un système basé sur Linux, c'est la meilleure option car elle offre également une vérification de la checksum. +* Si vous avez accès à FUSE (sur Linux ou MacOS), un outil recommandé est `rsync`, en particulier avec les options suivantes : + +``` +rsync -rtvvu --info=progress2 /path/to/source/ /path/to/destination +``` + +* Si vous utilisez le partage réseau sur Windows, connu sous le nom de CIFS ou SMB sur un système Windows, un outil recommandé est `robocopy`, ou _Total Commander_ pour un gestionnaire de fichiers basé sur une interface graphique. Nous vous recommandons d'appeler la commande `robocopy` dans PowerShell avec les options suivantes : + +``` +robocopy.exe /COPY:DT /E /MT:16 /R:0 /W:0 /XO Source\Path Destination\Path +``` diff --git a/docs/advanced/large_copies.md b/docs/advanced/large_copies.md new file mode 100644 index 0000000..a853a4d --- /dev/null +++ b/docs/advanced/large_copies.md @@ -0,0 +1,32 @@ +# Dealing with Large Data Transfers + +If you have to transfer a large amount of data (in the order of several tens of GBs), or a large amount of files (several thousands), to or from CERNBox, some precautions are in order, as interactive tools such as OS native file browsers or the CERNBox web interface may not be the best option. + +## Web Transfers + +If you need to serve large files via web, whether anonymously or not, you should use [EOS web sites](web-pages/expose_files_in_website). Yet, we recommend to chunk very large files to help users downloading them in the absence of transfer recovery mechanisms. + +If you need to upload large files to EOS and are member of an Experiment, you are recommended to use HTTP Third-Party Copy (TPC) via the File Transfer Service. + +Otherwise, data served through the CERNBox web UI is limited to 20 minutes of transfer time for each single transfer. Additionally, uploads are limited to 8 GB. If you and/or your recipient(s) are hit by this limit, we recommend to switch to other protocols as suggested below. + +Note that if your recipient does not hold a CERN account, and you can only use CERNBox Public links, you have to split the data transfers such that you stay below the limit. + +## Other Data Transfers + +The most efficient way to transfer data to/from CERNBox is to directly access the underlying storage. In case of EOS, you are recommended to [share the relevant folder(s) with the target account(s)](../web/sharing/auth-share/), not as a Public link, such that it can be accessed without passing through the CERNBox web UI. + +Depending on your OS, your options include: + +* If you know how to use xrootd on a Linux-based systems, this is the best option as it offers checksum verification as well. +* If you have FUSE access (on Linux or MacOS), then a recommended tool is `rsync`, in particular with the following options: + +``` +rsync -rtvvu --info=progress2 /path/to/source/ /path/to/destination +``` + +* If you use Windows Network sharing, known as CIFS or SMB on a Windows-based system, then a recommended tool is `robocopy`, or _Total Commander_ for a GUI-based file manager. We recommend to invoke the `robocopy` command on a PowerShell with the following options: + +``` +robocopy.exe /COPY:DT /E /MT:16 /R:0 /W:0 /XO Source\Path Destination\Path +``` diff --git a/docs/for_developers/api_access.md b/docs/for_developers/api_access.md index 0e32eea..ced912d 100644 --- a/docs/for_developers/api_access.md +++ b/docs/for_developers/api_access.md @@ -5,7 +5,7 @@ If you are a developer and your workflow requires programmatic access to CERNBox and/or EOS, you can follow these guidelines to automate specific actions. -Note that for large volumes of data, it is recommended to directly interact with [EOS](https://eos-web.web.cern.ch), possibly using HTTP Third-Party Copy (TPC). +Note that for large volumes of data, it is recommended to directly interact with [EOS](https://eos-web.web.cern.ch). See [dealing with large data transfers](../advanced/large_copies.md) for further details. In the following, `wget` and `curl` are used to illustrate how to use the API. diff --git a/docs/web/quota.fr.md b/docs/web/quota.fr.md index 0d5b473..ea84166 100644 --- a/docs/web/quota.fr.md +++ b/docs/web/quota.fr.md @@ -2,7 +2,6 @@ Chaque utilisateur CERNBox dispose d'un espace de stockage personnel de **1 To**, avec une limite de **1 M de fichiers**, avec une taille de fichier maximale de 50 Go, pour les comptes principaux et un quota de **20 Go** pour les comptes secondaires et de service. Les espaces projet ont normalement des limites superieures. Par conséquent, l'espace utilisé dans votre CERNBox ne devrait pas devenir un problème. Néanmoins, il est intéressant de connaître la méthode de calcul de cet espace. - ## Combien d'espace déjà utilisé Pour voir combien d'espace vous utilisez sur l'ensemble du quota alloué, cliquer sur votre badge dans le coin supérieur droit de votre page d'accueil CERNBox. @@ -11,19 +10,17 @@ Une autre façon de vérifier votre espace personnel ou commun est la suivante : - Connectez vous a lxplus avec votre utilisateur : `ssh username@lxplus.cern.ch` - Entrez la commande suivante : `export EOS_MGM_URL=root://eosuser.cern.ch` -- Finalement, entrez la commande suivante : `eos quota` +- Finalement, utilisez la commande suivante : `eos quota` Le calcul de l'espace utilisé s'effectue de la manière suivante : * L'espace utilisé correspond à la somme de la taille des fichiers stockés dans votre espace CERNBox. -* Quand une autre personne a partagé un fichier ou un dossier avec vous, l'espace occupé n'est pas décompté de votre quota, mais bien de celui du propriétaire du fichier. +* Quand une autre personne a partagé un fichier ou un dossier avec vous, l'espace occupé n'est pas décompté de votre quota, mais bien de celui du propriétaire du fichier. * En revanche, si vous avez partagé un de vos dossiers avec droit d'écriture, tout fichier ou dossier qui y sera ajouté sera décompté sur votre quota. Idem si vous avez partagé un dossier à travers un lien hypertexte. * Les fichiers supprimés, même lorsqu'ils sont encore dans l'espace "poubelle", ne sont plus décompté sur votre quota. * Mais les versions antérieurs de vos fichiers (jusqu'au nombre de 20) le sont. - ## Autres limites -Comme mentionné, les fichiers ont une taille maximale de 50GB, donc touts methodes d'accès (sync, FUSE, xrootd, network drive) produisent un erreur si on essaye de transferer un fichier plus grand. - -En plus, pour les transferts via web la limite est de 8GB ou 30 minutes de transfert, n'importe quel seuil est depassé en première. Si vous avez besoin de transferer des grands fichiers, vous pouvez utiliser des [sites web sur EOS](../advanced/web-pages/expose_files_in_website.md). Neanmoins, on vous suggère de couper les grands fichiers en parties pour aider les utilisateurs à les télécharger. +Comme mentionné, les fichiers ont une taille maximale de 50 GB, donc touts methodes d'accès (sync, FUSE, xrootd, network drive) produisent un erreur si on essaye de transferer un fichier plus grand. +En plus, pour les transferts via web la limite est 20 minutes de transfert. Vous pouvez consluter [Gestion des transferts de données volumineux](../advanced/large_copies) pour plus d'information. diff --git a/docs/web/quota.md b/docs/web/quota.md index 20b4e59..cc321d5 100644 --- a/docs/web/quota.md +++ b/docs/web/quota.md @@ -21,9 +21,9 @@ Your quota is calculated as follows: * If you create a public share via URL, and allow uploads, any uploaded files count against your quota. ## Other limits -As mentioned, files can be up to 50GB in size, and any access method (sync, FUSE, xrootd, network drive) would raise an error if you attempt to overcome this limit. +As mentioned, files can be up to 50 GB in size, and any access method (sync, FUSE, xrootd, network drive) would raise an error if you attempt to overcome this limit. -Furthermore, for web transfers the limit is reduced to 8GB or 30 minutes of transfer time, whichever comes first. If you need to transfer larger files, you can use [EOS web sites](../advanced/web-pages/expose_files_in_website.md). Yet, we recommend to chunk very large files to help users downloading them in the absence of transfer recovery mechanisms. +Furthermore, web transfers have their limits reduced to 20 minutes of transfer time. See [dealing with large data transfers](../advanced/large_copies) for further information and alternate options. <!-- TO BE CHECKED --> <!-- how to find the space used for a project? --> -- GitLab From 0390fda990152293f0752a403ed5706e9a67e654 Mon Sep 17 00:00:00 2001 From: Giuseppe Lo Presti <giuseppe.lopresti@cern.ch> Date: Tue, 4 Mar 2025 09:12:20 +0000 Subject: [PATCH 2/3] Applied comments --- docs/advanced/large_copies.md | 11 +++++++---- docs/web/quota.fr.md | 2 +- docs/web/quota.md | 2 +- 3 files changed, 9 insertions(+), 6 deletions(-) diff --git a/docs/advanced/large_copies.md b/docs/advanced/large_copies.md index a853a4d..2aa0020 100644 --- a/docs/advanced/large_copies.md +++ b/docs/advanced/large_copies.md @@ -1,10 +1,13 @@ +--- +title: Large Data Transfers +--- # Dealing with Large Data Transfers -If you have to transfer a large amount of data (in the order of several tens of GBs), or a large amount of files (several thousands), to or from CERNBox, some precautions are in order, as interactive tools such as OS native file browsers or the CERNBox web interface may not be the best option. +If you have to transfer a large amount of data (in the order of several tens of GBs), or a large amount of files (several thousands), to or from CERNBox, some precautions are in order, as interactive tools such as OS native file browsers or the CERNBox Web UI may not be the most suitable options. ## Web Transfers -If you need to serve large files via web, whether anonymously or not, you should use [EOS web sites](web-pages/expose_files_in_website). Yet, we recommend to chunk very large files to help users downloading them in the absence of transfer recovery mechanisms. +If you need to serve large files via web, whether anonymously or not, you should use [EOS Web Sites](web-pages/expose_files_in_website.md). Yet, we recommend chunking very large files to help users download them in the absence of transfer recovery mechanisms. If you need to upload large files to EOS and are member of an Experiment, you are recommended to use HTTP Third-Party Copy (TPC) via the File Transfer Service. @@ -14,11 +17,11 @@ Note that if your recipient does not hold a CERN account, and you can only use C ## Other Data Transfers -The most efficient way to transfer data to/from CERNBox is to directly access the underlying storage. In case of EOS, you are recommended to [share the relevant folder(s) with the target account(s)](../web/sharing/auth-share/), not as a Public link, such that it can be accessed without passing through the CERNBox web UI. +The most efficient way to transfer data to/from CERNBox is to directly access the underlying storage. In case of EOS, you are recommended to [share the relevant folder(s)](../web/sharing/auth-share.md) with the target account(s), as opposed to ["Share publicly"](../web/sharing/public-share.md), such that it can be accessed without passing through the CERNBox Web UI. Depending on your OS, your options include: -* If you know how to use xrootd on a Linux-based systems, this is the best option as it offers checksum verification as well. +* If you know how to use XRootD on a Linux-based systems, this is the best option as it offers checksum verification as well. * If you have FUSE access (on Linux or MacOS), then a recommended tool is `rsync`, in particular with the following options: ``` diff --git a/docs/web/quota.fr.md b/docs/web/quota.fr.md index ea84166..7d34bd2 100644 --- a/docs/web/quota.fr.md +++ b/docs/web/quota.fr.md @@ -23,4 +23,4 @@ Le calcul de l'espace utilisé s'effectue de la manière suivante : ## Autres limites Comme mentionné, les fichiers ont une taille maximale de 50 GB, donc touts methodes d'accès (sync, FUSE, xrootd, network drive) produisent un erreur si on essaye de transferer un fichier plus grand. -En plus, pour les transferts via web la limite est 20 minutes de transfert. Vous pouvez consluter [Gestion des transferts de données volumineux](../advanced/large_copies) pour plus d'information. +En plus, pour les transferts via web la limite est 20 minutes de transfert. Vous pouvez consluter [Gestion des transferts de données volumineux](../advanced/large_copies.md) pour plus d'information. diff --git a/docs/web/quota.md b/docs/web/quota.md index cc321d5..02c38e5 100644 --- a/docs/web/quota.md +++ b/docs/web/quota.md @@ -23,7 +23,7 @@ Your quota is calculated as follows: ## Other limits As mentioned, files can be up to 50 GB in size, and any access method (sync, FUSE, xrootd, network drive) would raise an error if you attempt to overcome this limit. -Furthermore, web transfers have their limits reduced to 20 minutes of transfer time. See [dealing with large data transfers](../advanced/large_copies) for further information and alternate options. +Furthermore, web transfers have their limits reduced to 20 minutes of transfer time. See [dealing with large data transfers](../advanced/large_copies.md) for further information and alternate options. <!-- TO BE CHECKED --> <!-- how to find the space used for a project? --> -- GitLab From a967a3da4f896779345fcb6786f7193fa775a2f2 Mon Sep 17 00:00:00 2001 From: Giuseppe Lo Presti <giuseppe.lopresti@cern.ch> Date: Tue, 4 Mar 2025 12:26:30 +0100 Subject: [PATCH 3/3] Applied further comments --- docs/advanced/large_copies.fr.md | 15 +++++++++------ docs/advanced/large_copies.md | 8 ++++---- 2 files changed, 13 insertions(+), 10 deletions(-) diff --git a/docs/advanced/large_copies.fr.md b/docs/advanced/large_copies.fr.md index d64de1b..c657b1e 100644 --- a/docs/advanced/large_copies.fr.md +++ b/docs/advanced/large_copies.fr.md @@ -1,24 +1,27 @@ +--- +title: Transferts de Données Volumineux +--- # Gestion des transferts de données volumineux Si vous devez transférer une grande quantité de données (de l'ordre de plusieurs dizaines de Go) ou une grande quantité de fichiers (plusieurs milliers) vers ou depuis CERNBox, certaines précautions sont nécessaires, car les outils interactifs tels que les navigateurs de fichiers natifs du système d'exploitation ou l'interface Web de CERNBox peuvent ne pas être la meilleure option. ## Transferts Web -Si vous devez rendre des fichiers volumineux disponibles via web, de manière anonyme ou non, vous devez utiliser les [sites WebEOS](web-pages/expose_files_in_website). Cependant, nous recommandons de fragmenter les fichiers très volumineux pour aider les utilisateurs à les télécharger en l'absence de mécanismes de récupération de transfert. +Si vous devez rendre des fichiers volumineux disponibles via web, de manière anonyme ou non, vous devriez utiliser les [sites WebEOS](web-pages/expose_files_in_website.md). Cependant, nous recommandons de fragmenter les fichiers très volumineux pour aider les utilisateurs à les télécharger en l'absence de mécanismes de récupération de transfert. A noter que la limite de 50 Go par fichier s'applique en tout cas. -Si vous devez télécharger des fichiers volumineux sur EOS et que vous êtes membre d'une expérience, il vous est recommandé d'utiliser HTTP Third-Party Copy (TPC) via le service de transfert de fichiers (FTS). +Si vous devez télécharger des fichiers volumineux sur EOS et que vous êtes membre d'une expérience, il vous est recommandé d'utiliser HTTP Third-Party Copy (TPC) via le [service de transfert de fichiers FTS](https://fts.web.cern.ch). -Sinon, un telechargement à travers l'interface web de CERNBox est limité à 20 minutes de temps de transfert. En plus, un maximum de 8 Go sont accordés en upload. Si vous et/ou vos destinataires êtes concernés par cette limite, nous vous recommandons de passer à d'autres protocoles comme suggéré ci-dessous. +Sinon, si vous avez besoin d'utiliser l'interface web de CERNBox, tout telechargement est limité à 20 minutes de temps de transfert. En plus, un maximum de 8 Go sont accordés en upload. Si vous et/ou vos destinataires vous êtes concernés par cette limite, nous vous recommandons de passer à d'autres protocoles comme suggéré ci-dessous. -Notez que si votre destinataire ne possède pas de compte CERN et que vous ne pouvez utiliser que les liens publics CERNBox, vous devez diviser les transferts de données de manière à rester en dessous de la limite. +Notez que si votre destinataire ne possède pas de compte CERN et que vous ne pouvez utiliser que les liens publics CERNBox, vous devez fragmenter les fichiers volumineux de manière à rester en dessous de la limite, ce qui aide aussi au cas où on doit refaire un transfert. ## Autres transferts de données -Le moyen le plus efficace de transférer des données vers/depuis CERNBox est d'accéder directement au système de stockage. Pour EOS, il vous est recommandé de [partager le(s) dossier(s) concerné(s) avec des comptes](../web/sharing/auth-share/), et non pas sous forme de lien public, de manière à pouvoir y accéder sans passer par l'interface web de CERNBox. +Le moyen le plus efficace de transférer des données vers/depuis CERNBox est d'accéder directement au système de stockage. Pour EOS, il vous est recommandé de [partager le(s) dossier(s) concerné(s)](../web/sharing/auth-share.md) avec des comptes, et non pas sous forme de ["partage public"](../web/sharing/public-share.md), de manière à pouvoir y accéder sans passer par l'interface web de CERNBox. En fonction de votre système d'exploitation, vos options sont : -* Si vous savez comment utiliser xrootd sur un système basé sur Linux, c'est la meilleure option car elle offre également une vérification de la checksum. +* Si vous savez comment utiliser XRootD sur un système basé sur Linux, c'est la meilleure option car elle offre également une vérification de la checksum. * Si vous avez accès à FUSE (sur Linux ou MacOS), un outil recommandé est `rsync`, en particulier avec les options suivantes : ``` diff --git a/docs/advanced/large_copies.md b/docs/advanced/large_copies.md index 2aa0020..bf1fcb0 100644 --- a/docs/advanced/large_copies.md +++ b/docs/advanced/large_copies.md @@ -7,13 +7,13 @@ If you have to transfer a large amount of data (in the order of several tens of ## Web Transfers -If you need to serve large files via web, whether anonymously or not, you should use [EOS Web Sites](web-pages/expose_files_in_website.md). Yet, we recommend chunking very large files to help users download them in the absence of transfer recovery mechanisms. +If you need to serve large files via web, whether anonymously or not, you should use [EOS Web Sites](web-pages/expose_files_in_website.md). Yet, we recommend chunking very large files to help users download them in the absence of transfer recovery mechanisms. Please note that in all cases the limit of 50 GB per file applies. -If you need to upload large files to EOS and are member of an Experiment, you are recommended to use HTTP Third-Party Copy (TPC) via the File Transfer Service. +If you need to upload large files to EOS and are member of an Experiment, you are recommended to use HTTP Third-Party Copy (TPC) via the [File Transfer Service](https://fts.web.cern.ch). -Otherwise, data served through the CERNBox web UI is limited to 20 minutes of transfer time for each single transfer. Additionally, uploads are limited to 8 GB. If you and/or your recipient(s) are hit by this limit, we recommend to switch to other protocols as suggested below. +Otherwise, if you need to use the CERNBox Web UI, data served through it is limited to 20 minutes of transfer time for each single transfer. Additionally, uploads are limited to 8 GB. If you and/or your recipient(s) are hit by this limit, we recommend to switch to other protocols as suggested below. -Note that if your recipient does not hold a CERN account, and you can only use CERNBox Public links, you have to split the data transfers such that you stay below the limit. +Note that if your recipient does not hold a CERN account, and you can only use CERNBox Public links, you have to chunk large files such that you stay below the limit, which also helps in case a transfer needs to be redone. ## Other Data Transfers -- GitLab