Unë kam qenë duke testuar Tensorflow Data Validation (versioni 0.22.0) për t'u përdorur në tubacionet e mia aktuale ML dhe vura re se nuk ka ndonjë anomali në veçoritë numerike. Për shembull,
> import pandas as pd
> import pyarrow
> import tensorflow as tf
> import apache_beam as beam
> import apache_beam.io.iobase
> import tensorflow_data_validation as tfdv
> print('TFDV version: {}'.format(tfdv.version.__version__))
>
> train_df = pd.DataFrame({
> 'FeatA' : ['A'] * 1000,
> 'FeatB' : ['B'] * 1000,
> 'FeatC' : [10] * 1000,
> 'FeatD' : [50.2] * 1000 })
>
> eval_df = pd.DataFrame({
> 'FeatA' : ['A1'] * 1000,
> 'FeatB' : ['B1'] * 1000,
> 'FeatC' : [4] * 1000,
> 'FeatD' : [200.43] * 1000 })
>
> train_stats = tfdv.generate_statistics_from_dataframe(train_df)
> schema = tfdv.infer_schema(statistics = train_stats)
> eval_stats = tfdv.generate_statistics_from_dataframe(eval_df)
> anomalies = tfdv.validate_statistics(statistics = eval_stats, schema = schema)
> tfdv.display_anomalies(anomalies)
Anomalitë u zbuluan vetëm në FeatA dhe FeatB të cilat janë kategorike. Por në FeatC dhe FeatD, TFDV nuk zbulon asgjë.
Rezultati shfaqet në këtë imazh
Kam provuar gjithashtu të vendos krahasues të animit dhe driftit, por nuk ka ndryshime. Mendoj se ka të bëjë me skemën e gjeneruar automatikisht e cila nuk ka domen të përcaktuar për veçoritë numerike.
Dikush ka ndonjë ide se si të funksionojë TFDV për veçoritë numerike?