AWS :Analiza Danych


Przetwarzanie i analiza danych

1. Pracujesz jako architekt przedsiębiorstwa w dużym sklepie odzieżowym z siedzibą w Madrycie w Hiszpanii. Zespół chce zbudować ETL i ma duże zestawy danych, które należy przekształcić. Dane pochodzą z wielu źródeł, dlatego deduplikacja jest również ważnym czynnikiem. Który z poniższych jest najprostszym sposobem przetwarzania danych w AWS?

A. Załaduj dane do Amazon Redshift i zbuduj transformacje za pomocą SQL. Zbuduj niestandardowy skrypt deduplikacji.
B. Użyj AWS Glue do przekształcenia danych za pomocą wbudowanej funkcji FindMatches ML Transform
C. Załaduj dane do Amazon EMR, zbuduj skrypty Spark SQL i użyj niestandardowego skryptu deduplikacji.
D. Użyj Amazon Athena do transformacji i deduplikacji.

2. Który z poniższych jest opcją rozproszonego przetwarzania danych w Apache Hadoop i był głównym silnikiem przetwarzania do czasu Hadoop 2.0?

A. Map Reduce
B. YARN
C. Hive
D. Zoo Keeper

3. Pracujesz jako konsultant w firmie telekomunikacyjnej. Naukowcy zajmujący się danymi poprosili o bezpośredni dostęp do danych, aby zagłębić się w strukturę danych i zbudować modele. Mają dobrą znajomość języka SQL. Które z poniższych narzędzi wybierzesz, aby zapewnić im bezpośredni dostęp do danych i zmniejszyć narzut infrastrukturalny i konserwacyjny, jednocześnie zapewniając dostęp do danych w Amazon S3? Które z poniższych poleciłbyś im? (Wybierz jedną odpowiedź).

A. Amazon S3 Select
B. Amazon Athena
C. Amazon Redshift
D. Apache Presto w Amazon EMR

4. Które z poniższych formatów plików są obsługiwane przez Amazon Athena? (Wybierz trzy odpowiedzi).

A. Apache Parquet
B. CSV
C. DAT
D. Apache ORC
E. Apache AVRO
F. TIFF

5. Pracujesz dla dużej firmy użyteczności publicznej, która wdrożyła inteligentne liczniki w całej swojej bazie klientów. Otrzymują niemal w czasie rzeczywistym dane o użytkowaniu od swoich klientów i wprowadzają je do Amazon S3 za pośrednictwem Amazon Kinesis. Wcześniej przeprowadzali transformacje na dużą skalę przy użyciu PySpark w swoim lokalnym klastrze Hadoop. Mają dostępną aplikację PySpark i nie oczekują żadnych zmian poza parametrami wejściowymi i wyjściowymi podczas wykonywania zadania. Chcą jak najczęściej ponownie wykorzystywać swój kod, jednocześnie rozważając możliwość dostrojenia środowiska do swojego obciążenia. Która z poniższych opcji jest właściwym wyborem przetwarzania danych dla ich obciążenia, który spełnia wymagania klientów przy najniższym koszcie? (Wybierz jedną odpowiedź.)

A. Uruchom przetwarzanie danych w AWS Glue przy użyciu kodu PySpark.
B. Uruchom przetwarzanie danych w Amazon EMR przy użyciu trybu klastra.
C. Uruchom przetwarzanie danych w Amazon EMR przy użyciu trybu wykonywania kroków przy użyciu wystąpień na żądanie.
D. Uruchom przetwarzanie danych w Amazon EMR przy użyciu trybu wykonywania kroków w celu wykorzystania wystąpień Spot.

6. Chcesz uruchamiać zadania przetwarzania danych na dużą skalę w Amazon EMR w trybie wykonywania kroków. Zadania przetwarzania danych mogą być uruchamiane w dowolnym momencie, a dane wejściowe są dostępne w Amazon S3. Która z poniższych opcji zapewni, że dane pozostaną dostępne, zapewnią spójny widok i będą szyfrowane w celu ochrony podczas i po zakończeniu klastra po zakończeniu kroków? (Wybierz jedną odpowiedź.)

A. Użyj HDFS.
B. Użyj EMRFS.
C. Użyj dysku lokalnego na instancjach EMR EC2.
D. Użyj woluminów EBS.

7. Pracujesz dla dużego sprzedawcy detalicznego e-commerce, który chciałby przeszukać dzienniki internetowe pod kątem określonych kodów błędów i ich numerów referencyjnych. Masz możliwość wyboru dowolnego narzędzia ze stosu AWS. Które z poniższych narzędzi zdecydowanie poleciłbyś w tym przypadku użycia? (Wybierz jedną odpowiedź.)

A. Amazon Redshift
B. Apache Hive w Amazon EMR
C. Apache Presto w Amazon EMR
D. Amazon Elastic Search

8. Twój klient korzysta wyłącznie z AWS, a większość danych ma dużą prędkość przesyłania danych za pomocą Amazon S3, Amazon Kinesis Data Streams, Amazon Kinesis Data Fireshose i Amazon DynamoDB. Chce analizować te przesyłane strumieniowo dane i rozważa wybór usługi ze stosu AWS. Którą z poniższych usług poleciłbyś do analizy tych danych? (Wybierz jedną odpowiedź.)

A. Amazon Redshift
B. Apache Hive w Amazon EMR
C. Apache Pig w Amazon EMR
D. Amazon Elastic Search

9. Chcesz zbudować rozwiązanie Datawarehouse z możliwością elastycznego przesyłania danych między jeziorem danych a Datawarehouse. Która z poniższych opcji jest najbardziej opłacalna, aby spełnić Twoje wymagania? (Wybierz jedną odpowiedź).

A. Użyj S3 jako Datalake i Amazon EMR jako atawarehouse.
B. Użyj HDFS jako Datalake i Amazon Redshift jako Datawarehouse.
C. Użyj S3 jako Datalake i Amazon Redshift jako Datawarehouse.
D. Użyj HDFS jako Datalake i Amazon EMR jako Datawarehouse.

10. Które z poniższych stwierdzeń są prawdziwe w odniesieniu do węzłów Redshift Leader? (Wybierz dwie odpowiedzi).

A. Klaster Redshift może mieć jeden węzeł wiodący.
B. Klaster Redshift może mieć więcej niż jeden węzeł wiodący.
C. Węzeł Redshift Leader powinien mieć więcej pamięci niż węzły obliczeniowe.
D. Węzeł Redshift Leader ma dokładnie takie same specyfikacje jak węzły obliczeniowe. E. Możesz wybrać własny rozmiar węzła Leader, który jest wyceniany osobno.
F. Węzeł lidera Redshift jest wybierany automatycznie i jest bezpłatny dla użytkowników.

Odpowiedzi



1. B. AWS Glue to najprostszy sposób na osiągnięcie transformacji danych przy użyciu głównie interfejsu point-and-click i wykorzystujący wbudowaną opcję deduplikacji przy użyciu FindMatches ML Transform.

2. A. Opcja A jest poprawna, ponieważ Map Reduce był domyślnym silnikiem przetwarzania w Hadoop do czasu pojawienia się Hadoop 2.0.
Opcja B jest niepoprawna, ponieważ YARN jest menedżerem zasobów dla aplikacji w Hadoop.
Opcja C jest niepoprawna, ponieważ Hive jest warstwą SQL, która wykorzystuje silniki przetwarzania, takie jak Map Reduce, Spark, Tez itp.
Opcja D jest niepoprawna, ponieważ ZooKeeper jest rozproszoną usługą konfiguracji i synchronizacji, która działa jako rejestr nazw dla dużych rozproszonych systemów.

3. B. Amazon Athena to interaktywna usługa zapytań, która ułatwia analizę danych w Amazon S3 przy użyciu standardowego SQL. Athena jest bezserwerowa, więc nie ma infrastruktury do zarządzania, a płacisz tylko za zapytania, które uruchamiasz. https://aws.amazon.com/athena

4. A, B, D. Amazon Athena obsługuje szeroką gamę formatów danych, takich jak CSV, TSV, JSON lub pliki tekstowe, a także obsługuje formaty kolumnowe typu open source, takie jak Apache ORC i Apache Parquet. Athena obsługuje również skompresowane dane w formatach Snappy, Zlib, LZO i GZIP. Kompresując, partycjonując i używając formatów kolumnowych możesz poprawić wydajność i obniżyć koszty. https://aws.amazon.com/athena/faqs

5. D.

A - niepoprawne, ponieważ Glue oferuje ograniczone opcje konfiguracji niestandardowych.
B - niepoprawne, ponieważ EMR korzystający z trybu klastra jest droższy.
C - niepoprawne, ponieważ EMR korzystający z trybu krokowego jest tańszy niż tryb klastra, ale droższy w przypadku wystąpień na żądanie.
D - Poprawnie

6. B. System plików EMR (EMRFS) to implementacja HDFS, której wszystkie klastry Amazon EMR używają do odczytu i zapisu zwykłych plików z Amazon EMR bezpośrednio do Amazon S3. EMRFS zapewnia wygodę przechowywania trwałych danych w Amazon S3 do użytku z Hadoop, a także zapewnia funkcje, takie jak spójny widok i szyfrowanie danych. https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-fs.html

7. D. Elasticsearch zapewnia szybkie, spersonalizowane wyszukiwanie w aplikacjach, witrynach i katalogach jezior danych, umożliwiając użytkownikom szybkie znajdowanie odpowiednich danych. Uzyskujesz dostęp do wszystkich interfejsów API wyszukiwania Elasticsearch, obsługujących wyszukiwanie w języku naturalnym, automatyczne uzupełnianie, wyszukiwanie fasetowe i wyszukiwanie uwzględniające lokalizację. Możesz go również używać do przechowywania, analizowania i korelowania danych dziennika aplikacji i infrastruktury w celu szybszego znajdowania i rozwiązywania problemów oraz poprawy wydajności aplikacji. https://aws.amazon.com/elasticsearch-service

8. D. Możesz załadować strumieniowe dane do swojej domeny Amazon Elasticsearch Service z wielu różnych źródeł. Niektóre źródła, takie jak Amazon Kinesis Data Firehose i Amazon CloudWatch Logs, mają wbudowaną obsługę Amazon ES. Inne, takie jak Amazon S3, Amazon Kinesis Data Streams i Amazon DynamoDB, używają funkcji AWS Lambda jako obsługi zdarzeń. Funkcje Lambda reagują na nowe dane, przetwarzając je i przesyłając strumieniowo do Twojej domeny :
https://docs.aws.amazon.com/elasticsearch-service/latest/developerguide/es-aws-integrations.html

9. C. Zapoznaj się z następującą dokumentacją.
https://aws.amazon.com/redshift

10. A, D, F.




[ 2926 ]