Matrica e rrallë e transformimit të grupit me AWS SageMaker Python SDK

Unë kam trajnuar me sukses një model Scikit-Learn LSVC me AWS SageMaker.
Unë dua të bëj parashikimin e grupit (aka. transformimi i grupit) në një grup të dhënash relativisht të madhe, e cila është një matricë e rrallë me formë 252772 x 185128. (Numri i veçoritë janë të larta sepse ekziston një kodim i vetëm i veçorive të çantës së fjalëve dhe ngrams).

Unë luftoj për shkak të:

madhësia e të dhënave
formatin e të dhënave

Bëra disa eksperimente për të parë se çfarë po ndodhte:

1. parashikoni lokalisht në mostër të dhëna të matricës së rrallë

Funksionon
Deserializoni objektin e modelit lokalisht në një fletore SageMaker dhe parashikoni në një mostër të matricës së rrallë.
Kjo ishte vetëm për të kontrolluar nëse modeli mund të parashikojë në këtë lloj të dhënash.

2. Transformimi i grupit në një mostër të të dhënave csv

Funksionon
Hapni një punë të transformimit të grupeve në SageMaker dhe kërkoni të transformoni një mostër të vogël në format të dendur csv: funksionon, por padyshim që nuk shkallëzohet.
Kodi është:

sklearn_model = SKLearnModel(
    model_data=model_artifact_location_on_s3,
    entry_point='my_script.py',
    role=role,
    sagemaker_session=sagemaker_session)

transformer = sklearn_model.transformer(
   instance_count=1, 
   instance_type='ml.m4.xlarge', 
   max_payload=100)

transformer.transform(
   data=batch_data, 
   content_type='text/csv',
   split_type=None)   

print('Waiting for transform job: ' + transformer.latest_transform_job.job_name)
transformer.wait()

ku:

'my_script.py' zbaton një model_fn të thjeshtë për të deserializuar artifaktin e modelit:

def model_fn(model_dir):
    clf = joblib.load(os.path.join(model_dir, "model.joblib"))
    return clf

batch_data është shtegu s3 për skedarin csv.

3. Transformimi i grupit të një grupi të dhënash të dendura të mostrës.

Funksionon
Përgatita një mostër të të dhënave dhe e ruajta në s3 në formatin Numpy .npy. Sipas ky dokumentacion, SageMaker Serveri i modelit Scikit-learn mund të deserializojë të dhënat e formatuara me NPY (së bashku me të dhënat JSON dhe CSV).
I vetmi ndryshim me eksperimentin e mëparshëm (2) është argumenti content_type='application/x-npy' në transformer.transform(...).

Kjo zgjidhje nuk shkallëzohet dhe ne do të donim të kalonim një matricë të rrallë Scipy:

4. Transformimi i grupit të një matrice të madhe të rrallë.

Këtu është problemi
SageMaker Python SDK nuk e mbështet formatin e rrallë të matricës jashtë kutisë.
Pas kësaj:

Kam përdorur write_spmatrix_to_sparse_tensor për të shkruar të dhënat në formatin protobuf në s3. Funksioni që kam përdorur është:

def write_protobuf(X_sparse, bucket, prefix, obj):
    """Write sparse matrix to protobuf format at location bucket/prefix/obj."""
    buf = io.BytesIO()
    write_spmatrix_to_sparse_tensor(file=buf, array=X_sparse, labels=None)
    buf.seek(0)
    key = '{}/{}'.format(prefix, obj)
    boto3.resource('s3').Bucket(bucket).Object(key).upload_fileobj(buf)
    return 's3://{}/{}'.format(bucket, key)

Atëherë kodi i përdorur për nisjen e punës së transformimit të grupit është:

sklearn_model = SKLearnModel(
    model_data=model_artifact_location_on_s3,
    entry_point='my_script.py',
    role=role,
    sagemaker_session=sagemaker_session)

transformer = sklearn_model.transformer(
   instance_count=1, 
   instance_type='ml.m4.xlarge', 
   max_payload=100)

transformer.transform(
   data=batch_data, 
   content_type='application/x-recordio-protobuf',
   split_type='RecordIO')   

print('Waiting for transform job: ' + transformer.latest_transform_job.job_name)
transformer.wait()

Unë marr gabimin e mëposhtëm:

sagemaker_containers._errors.ClientError: Content type application/x-recordio-protobuf is not supported by this framework.

Pyetjet:
(Dokumenti referues për Transformer: https://sagemaker.readthedocs.io/en/stable/transformer.html)

Nëse content_type='application/x-recordio-protobuf' nuk lejohet, çfarë duhet të përdor?
A është split_type='RecordIO' vendosja e duhur në këtë kontekst?
A duhet të siguroj një funksion input_fn në skriptin tim për të deserializuar të dhënat?
A ka një qasje tjetër më të mirë për të trajtuar këtë problem?

16.10.2019

problemi përkatës në github me reagime: github.com/aws/sagemaker-python-sdk /issues/1093 17.10.2019

Materiale të reja

Masterclass Coroutines: Kapitulli-3: Anulimi i korutinave dhe trajtimi i përjashtimeve.

Mirë se vini në udhëzuesin gjithëpërfshirës mbi Kotlin Coroutines! Në këtë seri artikujsh, unë do t'ju çoj në një udhëtim magjepsës, duke filluar nga bazat dhe gradualisht duke u thelluar në..

Faketojeni derisa ta arrini me të dhënat false

A e gjeni ndonjëherë veten duke ndërtuar një aplikacion të ri dhe keni nevojë për të dhëna testimi që duken dhe duken më realiste ose një grup i madh të dhënash për performancën e ngarkesës...

Si të përdorni kërkesën API në Python

Kërkesë API në GitHub për të marrë depot e përdoruesve duke përdorur Python. Në këtë artikull, unë shpjegoj procesin hap pas hapi për të trajtuar një kërkesë API për të marrë të dhëna nga..

Një udhëzues hap pas hapi për të zotëruar React

Në këtë artikull, do të mësoni se si të krijoni aplikacionin React, do të mësoni se si funksionon React dhe konceptet thelbësore që duhet të dini për të ndërtuar aplikacione React. Learning..

AI dhe Psikologjia — Pjesa 2

Në pjesën 2 të serisë sonë të AI dhe Psikologji ne diskutojmë se si makineritë mbledhin dhe përpunojnë të dhëna për të mësuar emocione dhe ndjenja të ndryshme në mendjen e njeriut, duke ndihmuar..

Esencialet e punës ditore të kodit tim VS

Shtesat e mia të preferuara - Git Graph 💹 Kjo shtesë është vërtet e mahnitshme, e përdor përpara se të filloj të punoj për të kontrolluar dy herë ndryshimet dhe degët më të fundit, mund të..

Pse Python? Zbulimi i fuqisë së gjithanshme të një gjiganti programues

Në peizazhin gjithnjë në zhvillim të gjuhëve të programimit, Python është shfaqur si një forcë dominuese. Rritja e tij meteorike nuk është rastësi. Joshja e Python qëndron në thjeshtësinë,..

Etiketa

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Programming Languages Nodejs Algorithms Front End Development Java Data Computer Science Tech Development AWS HTML Angular CSS Neural Networks ChatGPT Python Programming Learning To Code Developer Code Typescript Tutorial NLP Open Source Productivity Computer Vision Learning