File di grandi dimensioni e Big Data
Gli insiemi di dati di grandi dimensioni possono essere costituiti da file di grandi dimensioni che non possono essere inseriti nella memoria disponibile o da file che richiedono molto tempo per essere elaborati. Un insieme di dati di grandi dimensioni può anche essere costituito da una raccolta di numerosi file di piccole dimensioni. Non esiste un unico approccio per lavorare con insiemi di dati di grandi dimensioni, quindi MATLAB® include una serie di strumenti per l'accesso e l'elaborazione di tali dati.
Si inizia creando un datastore che può accedere a piccole porzioni di dati alla volta. Il datastore può essere utilizzato per gestire l'importazione incrementale dei dati. Per analizzare i dati utilizzando le funzioni più comuni di MATLAB, come mean
e histogram
, creare un tall array nella parte superiore del datastore. Per problemi più complessi, è possibile scrivere un algoritmo MapReduce che definisce la scomposizione e la riduzione dei dati.
Categorie
- Datastore
Leggere grandi raccolte di dati
- Tall Array
Array con un numero di righe superiore a quello consentito dalla memoria
- MapReduce
Tecnica di programmazione per l'analisi di insiemi di dati che non trovano spazio in memoria
- File MAT di grandi dimensioni
Accedere e modificare le variabili senza caricarle nella memoria
- File Parquet
Leggere e scrivere file Parquet
- Mappatura della memoria
Mappare i dati del file in memoria per un accesso più rapido