Unë kam trajnuar me sukses një model Scikit-Learn LSVC me AWS SageMaker.
Unë dua të bëj parashikimin e grupit (aka. transformimi i grupit) në një grup të dhënash relativisht të madhe, e cila është një matricë e rrallë me formë 252772 x 185128. (Numri i veçoritë janë të larta sepse ekziston një kodim i vetëm i veçorive të çantës së fjalëve dhe ngrams).
Unë luftoj për shkak të:
madhësia e të dhënave
formatin e të dhënave
Bëra disa eksperimente për të parë se çfarë po ndodhte:
1. parashikoni lokalisht në mostër të dhëna të matricës së rrallë
Funksionon
Deserializoni objektin e modelit lokalisht në një fletore SageMaker dhe parashikoni në një mostër të matricës së rrallë.
Kjo ishte vetëm për të kontrolluar nëse modeli mund të parashikojë në këtë lloj të dhënash.
2. Transformimi i grupit në një mostër të të dhënave csv
Funksionon
Hapni një punë të transformimit të grupeve në SageMaker dhe kërkoni të transformoni një mostër të vogël në format të dendur csv: funksionon, por padyshim që nuk shkallëzohet.
Kodi është:
sklearn_model = SKLearnModel(
model_data=model_artifact_location_on_s3,
entry_point='my_script.py',
role=role,
sagemaker_session=sagemaker_session)
transformer = sklearn_model.transformer(
instance_count=1,
instance_type='ml.m4.xlarge',
max_payload=100)
transformer.transform(
data=batch_data,
content_type='text/csv',
split_type=None)
print('Waiting for transform job: ' + transformer.latest_transform_job.job_name)
transformer.wait()
ku:
- 'my_script.py' zbaton një
model_fn
të thjeshtë për të deserializuar artifaktin e modelit:
def model_fn(model_dir):
clf = joblib.load(os.path.join(model_dir, "model.joblib"))
return clf
batch_data
është shtegu s3 për skedarin csv.
3. Transformimi i grupit të një grupi të dhënash të dendura të mostrës.
Funksionon
Përgatita një mostër të të dhënave dhe e ruajta në s3 në formatin Numpy .npy
. Sipas ky dokumentacion, SageMaker Serveri i modelit Scikit-learn mund të deserializojë të dhënat e formatuara me NPY (së bashku me të dhënat JSON dhe CSV).
I vetmi ndryshim me eksperimentin e mëparshëm (2) është argumenti content_type='application/x-npy'
në transformer.transform(...)
.
Kjo zgjidhje nuk shkallëzohet dhe ne do të donim të kalonim një matricë të rrallë Scipy:
4. Transformimi i grupit të një matrice të madhe të rrallë.
Këtu është problemi
SageMaker Python SDK nuk e mbështet formatin e rrallë të matricës jashtë kutisë.
Pas kësaj:
- https://aws.amazon.com/blogs/machine-learning/build-a-movie-recommender-with-factorization-machines-on-amazon-sagemaker/
- Gabimet në ekzekutimin e Sagemaker Batch Transformation me modelin LDA
Kam përdorur write_spmatrix_to_sparse_tensor
për të shkruar të dhënat në formatin protobuf në s3. Funksioni që kam përdorur është:
def write_protobuf(X_sparse, bucket, prefix, obj):
"""Write sparse matrix to protobuf format at location bucket/prefix/obj."""
buf = io.BytesIO()
write_spmatrix_to_sparse_tensor(file=buf, array=X_sparse, labels=None)
buf.seek(0)
key = '{}/{}'.format(prefix, obj)
boto3.resource('s3').Bucket(bucket).Object(key).upload_fileobj(buf)
return 's3://{}/{}'.format(bucket, key)
Atëherë kodi i përdorur për nisjen e punës së transformimit të grupit është:
sklearn_model = SKLearnModel(
model_data=model_artifact_location_on_s3,
entry_point='my_script.py',
role=role,
sagemaker_session=sagemaker_session)
transformer = sklearn_model.transformer(
instance_count=1,
instance_type='ml.m4.xlarge',
max_payload=100)
transformer.transform(
data=batch_data,
content_type='application/x-recordio-protobuf',
split_type='RecordIO')
print('Waiting for transform job: ' + transformer.latest_transform_job.job_name)
transformer.wait()
Unë marr gabimin e mëposhtëm:
sagemaker_containers._errors.ClientError: Content type application/x-recordio-protobuf is not supported by this framework.
Pyetjet:
(Dokumenti referues për Transformer: https://sagemaker.readthedocs.io/en/stable/transformer.html)
- Nëse
content_type='application/x-recordio-protobuf'
nuk lejohet, çfarë duhet të përdor? - A është
split_type='RecordIO'
vendosja e duhur në këtë kontekst? - A duhet të siguroj një funksion
input_fn
në skriptin tim për të deserializuar të dhënat? - A ka një qasje tjetër më të mirë për të trajtuar këtë problem?