make script one hot compatible (#5)

niklexical · jannisborn · web-flow · commit 06aaf701d221 · 2021-09-18T02:15:32.000+02:00
* feat: one-hot encoding compatible

* fix: send weight tensor to device

* chore: comments added

* fix:removed build testing

* chore: deepchem,tensorflow dependency bump

* update: pip version &gt;19.3

* fix: relaxed scikit-learn dependency

* Update mca.py

Co-authored-by: Jannis Born &lt;jannis.born@gmx.de&gt;
diff --git a/.travis.yml b/.travis.yml
@@ -4,6 +4,9 @@ services:
 before_script:
   - docker pull drugilsberg/rdkit-ubuntu:latest
   - docker build -f .travis/Dockerfile -t toxsmi .
+branches:
+  except:
+    - testing
 script:
   - docker run -it toxsmi python3 -c "import toxsmi"
   - docker run -it toxsmi python3 scripts/train_baselines.py -h
diff --git a/conda.yml b/conda.yml
@@ -1,4 +1,4 @@
-name: toxsmi
+name: toxsmi_test
 channels:
  - https://conda.anaconda.org/rdkit
 dependencies:
@@ -10,9 +10,9 @@ dependencies:
     - paccmann_predictor @ git+https://github.com/PaccMann/paccmann_predictor@0.0.2  
     - numpy>=1.14.3
     - torch==1.5.1
-    - deepchem==2.2.1.dev54
+    - deepchem>=2.4
     - six==1.15.0
-    - scikit-learn==0.21.3
-    - tensorflow<2.0
+    - scikit-learn>=0.21.3
+    - tensorflow>=2.0
     - Pillow==7.1.0
 
diff --git a/requirements.txt b/requirements.txt
@@ -2,8 +2,8 @@ pytoda @ git+https://github.com/PaccMann/paccmann_datasets@0.1.1
 paccmann_predictor @ git+https://github.com/PaccMann/paccmann_predictor@0.0.2  
 numpy>=1.14.3
 torch==1.5.1
-deepchem==2.2.1.dev54
+deepchem>=2.4
 six==1.15.0
-scikit-learn==0.21.3
-tensorflow<2.0
+scikit-learn>=0.21.3
+tensorflow>=2.0
 Pillow==7.1.0
diff --git a/scripts/train_tox.py b/scripts/train_tox.py
@@ -134,6 +134,7 @@ def smiles_tensor_batch_to_fp(smiles):
         sanitize=params.get('sanitize', True)
     )
 
+    # include arg label_columns if data file has any unwanted columns (such as index) to be ignored.
     train_dataset = AnnotatedDataset(
         annotations_filepath=train_scores_filepath,
         dataset=smiles_dataset,
@@ -183,6 +184,7 @@ def smiles_tensor_batch_to_fp(smiles):
     logger.info(smiles_dataset._dataset.transform)
     logger.info(smiles_test_dataset._dataset.transform)
 
+    # include arg label_columns if data file has any unwanted columns (such as index) to be ignored.
     test_dataset = AnnotatedDataset(
         annotations_filepath=test_scores_filepath,
         dataset=smiles_test_dataset,
@@ -241,6 +243,7 @@ def smiles_tensor_batch_to_fp(smiles):
 
     model = MODEL_FACTORY[params.get('model_fn', 'mca')](params).to(device)
     logger.info(model)
+    logger.info(model.loss_fn.class_weights)
 
     logger.info('Parameters follow')
     for name, param in model.named_parameters():
diff --git a/setup.py b/setup.py
@@ -34,7 +34,7 @@ def get_version(rel_path):
     ),
     install_requires=[
         'paccmann_predictor @ git+https://github.com/PaccMann/paccmann_predictor',
-        'torch', 'deepchem', 'tensorflow<2.0', 'Pillow', 'six'
+        'torch', 'deepchem>=2.4', 'tensorflow>=2.0', 'Pillow', 'six'
     ],
     packages=find_packages('.'),
     zip_safe=False
diff --git a/toxsmi/models/mca.py b/toxsmi/models/mca.py
@@ -84,33 +84,11 @@ def __init__(self, params: dict, *args, **kwargs):
         # Model architecture (hyperparameter)
         self.multiheads = params.get('multiheads', [4, 4, 4, 4])
         self.filters = params.get('filters', [64, 64, 64])
-        self.hidden_sizes = (
-            [
-                self.multiheads[0] * params['smiles_embedding_size'] + sum(
-                    [h * f for h, f in zip(self.multiheads[1:], self.filters)]
-                )
-            ] + params.get('stacked_hidden_sizes', [1024, 512])
-        )
 
         self.dropout = params.get('dropout', 0.5)
         self.use_batch_norm = self.params.get('batch_norm', True)
         self.act_fn = ACTIVATION_FN_FACTORY[
             params.get('activation_fn', 'relu')]
-        self.kernel_sizes = params.get(
-            'kernel_sizes', [
-                [3, params['smiles_embedding_size']],
-                [5, params['smiles_embedding_size']],
-                [11, params['smiles_embedding_size']]
-            ]
-        )
-        if len(self.filters) != len(self.kernel_sizes):
-            raise ValueError(
-                'Length of filter and kernel size lists do not match.'
-            )
-        if len(self.filters) + 1 != len(self.multiheads):
-            raise ValueError(
-                'Length of filter and multihead lists do not match'
-            )
 
         # Build the model. First the embeddings
         if params.get('embedding', 'learned') == 'learned':
@@ -159,6 +137,31 @@ def __init__(self, params: dict, *args, **kwargs):
         else:
             raise ValueError(f"Unknown embedding type: {params['embedding']}")
 
+        self.kernel_sizes = params.get(
+            'kernel_sizes', [
+                [3, self.smiles_embedding.weight.shape[1]],
+                [5, self.smiles_embedding.weight.shape[1]],
+                [11, self.smiles_embedding.weight.shape[1]]
+            ]
+        )
+
+        self.hidden_sizes = (
+            [
+                self.multiheads[0] * self.smiles_embedding.weight.shape[1] + sum(
+                    [h * f for h, f in zip(self.multiheads[1:], self.filters)]
+                )
+            ] + params.get('stacked_hidden_sizes', [1024, 512])
+        )
+
+        if len(self.filters) != len(self.kernel_sizes):
+            raise ValueError(
+                'Length of filter and kernel size lists do not match.'
+            )
+        if len(self.filters) + 1 != len(self.multiheads):
+            raise ValueError(
+                'Length of filter and multihead lists do not match'
+            )
+
         self.convolutional_layers = nn.Sequential(
             OrderedDict(
                 [
@@ -177,7 +180,7 @@ def __init__(self, params: dict, *args, **kwargs):
             )
         )
 
-        smiles_hidden_sizes = [params['smiles_embedding_size']] + self.filters
+        smiles_hidden_sizes = [self.smiles_embedding.weight.shape[1]] + self.filters
         self.smiles_projections = nn.Sequential(
             OrderedDict(
                 [
diff --git a/toxsmi/utils/wrappers.py b/toxsmi/utils/wrappers.py
@@ -73,7 +73,7 @@ def forward(self, yhat: torch.Tensor, y: torch.Tensor) -> torch.Tensor:
         weight_tensor[y == 0.0] = self.class_weights[0]
         weight_tensor[y == 1.0] = self.class_weights[1]
 
-        out = loss * weight_tensor
+        out = loss * weight_tensor.to(DEVICE)
 
         if self.reduction == 'mean':
             return torch.mean(out)