Spaces:

ml-jku
/

tox21_rf_classifier

Sleeping

App Files Files Community

antoniaebner commited on Nov 11

Commit

136540f

1 Parent(s): 3fd3838

cleanup and train without train/val overlapping samples

Browse files

Files changed (2) hide show

predict.py +1 -16
train.py +19 -16

predict.py CHANGED Viewed

@@ -47,7 +47,7 @@ def predict(
     model_path = "checkpoints/rf_alltasks.joblib"
     model.load_model(model_path)
-    # print(f"Loaded model from {model_path}")
     # make predicitons
     predictions = defaultdict(dict)
@@ -59,21 +59,6 @@ def predict(
         preds = np.empty_like(is_clean, dtype=np.float64)
         preds[~is_clean] = default_prediction
-        # selected_feat = X[:, rdkit_desc_idx].copy()
-        # quantiles = np.zeros_like(selected_feat)
-        # for column in range(selected_feat.shape[1]):
-        #     raw_values = selected_feat[:, column].reshape(-1)
-        #     ecdf = ecdfs[target][column]
-        #     q = ecdf(raw_values)
-        #     quantiles[:, column] = q
-        # X[:, rdkit_desc_idx] = quantiles
-        # X = X[:, feat_selec[target]]
-        # X = scalers[target].transform(X)
-        # preds[is_clean] = model[target].predict_proba(X)[:, 1]
         preds[is_clean] = model.predict(target, X)
         for smiles, pred in zip(smiles_list, preds):

     model_path = "checkpoints/rf_alltasks.joblib"
     model.load_model(model_path)
+    print(f"Loaded model from {model_path}")
     # make predicitons
     predictions = defaultdict(dict)
         preds = np.empty_like(is_clean, dtype=np.float64)
         preds[~is_clean] = default_prediction
         preds[is_clean] = model.predict(target, X)
         for smiles, pred in zip(smiles_list, preds):

train.py CHANGED Viewed

@@ -3,6 +3,7 @@ Script for fitting and saving any preprocessing assets, as well as the fitted RF
 """
 import os
 import logging
 import argparse
@@ -44,8 +45,6 @@ parser.add_argument(
 ECFP_RADIUS = 3
 ECFP_FPSIZE = 8192
-FEATURE_SELECTION_PATH = "data/feat_selection.npz"
-ECDFS_PATH = "data/ecdfs.pkl"
 task_config = {
     "NR-AR": {
@@ -158,19 +157,23 @@ def main(args):
     logger.info(args)
     # seeding
-    # random.seed(args.seed)
-    # np.random.seed(args.seed)
-    # train_data = np.load(os.path.join(args.data_folder, "tox21_train_cv4.npz"))
-    # train_X = np.concatenate([train_data[descr] for descr in KNOWN_DESCR], axis=1)
-    # train_y = train_data["labels"]
-    # val_data = np.load(os.path.join(args.data_folder, "tox21_validation_cv4.npz"))
-    # val_X = np.concatenate([val_data[descr] for descr in KNOWN_DESCR], axis=1)
-    # val_y = val_data["labels"]
-    # train_X = np.concatenate([train_X, val_X], axis=0)
-    # train_y = np.concatenate([train_y, val_y], axis=0)
     # # remove molecules that couldn't be sanitized
     # mask = ~np.isnan(train_X).any(axis=1)
@@ -178,13 +181,13 @@ def main(args):
     # train_y = train_y[mask]
     full_data = np.load(
-        os.path.join(args.data_folder, "tox21_descriptors.npz"),
         allow_pickle=True,
     )
-    train_val_mask = full_data["sets"] != "test"
-    data = full_data["features"][train_val_mask]
-    labels = full_data["labels"][train_val_mask]
     print("Train data shape:", data.shape)
     test_mask = full_data["sets"] == "test"

 """
 import os
+import random
 import logging
 import argparse
 ECFP_RADIUS = 3
 ECFP_FPSIZE = 8192
 task_config = {
     "NR-AR": {
     logger.info(args)
     # seeding
+    random.seed(args.seed)
+    np.random.seed(args.seed)
+    train_data = np.load(os.path.join(args.data_folder, "tox21_train_cv4.npz"))
+    train_X = train_data[
+        "features"
+    ]  # np.concatenate([train_data[descr] for descr in KNOWN_DESCR], axis=1)
+    train_y = train_data["labels"]
+    val_data = np.load(os.path.join(args.data_folder, "tox21_validation_cv4.npz"))
+    val_X = val_data[
+        "features"
+    ]  # np.concatenate([val_data[descr] for descr in KNOWN_DESCR], axis=1)
+    val_y = val_data["labels"]
+    data = np.concatenate([train_X, val_X], axis=0)
+    labels = np.concatenate([train_y, val_y], axis=0)
     # # remove molecules that couldn't be sanitized
     # mask = ~np.isnan(train_X).any(axis=1)
     # train_y = train_y[mask]
     full_data = np.load(
+        "data/tox21_descriptors.npz",
         allow_pickle=True,
     )
+    # train_val_mask = full_data["sets"] != "test"
+    # data = full_data["features"][train_val_mask]
+    # labels = full_data["labels"][train_val_mask]
     print("Train data shape:", data.shape)
     test_mask = full_data["sets"] == "test"