- Dehydration

2005/02/22/Tue.Dehydration

「DNA to Protein」に少し手を加えた T です。こんばんは。

主な変更は以下の通り。

  1. 「W, R, M, K, Y, S, H, B, V, D, N」を塩基として認識する。
  2. 上記の塩基を含むコドンはアミノ酸「X (Any)」に翻訳される。
  3. 「X」の分子質量は 136.4 Da(20種類のアミノ酸の平均値)。
  4. マルチフレームに対応。
  5. アンチセンスに対応。
  6. 分子質量の計算ミスを修正。

問題点もある。例えば、「N」は「A or T or G or C」を意味するが、「N」を含むコドンでもアミノ酸を特定できる場合がある(「CTN」は「N」が何であろうとロイシン、など)。しかし今のところ、そういう判断をせず強制的に「X」へと翻訳している。コドンのマッチングに関しては対処できないこともないが、そうすると今度はアウトプットがややこしい。上記の例では複数のコドンが単一のアミノ酸と対応していたが、「TTN」なんかは「フェニルアラニンもしくはロイシン」を意味するわけで、この場合、アミノ酸配列としてどう表現したものか悩んでしまう。結局、面倒臭いので全て「X」へ翻訳することにした。

分子質量の計算ミスは、完全に俺のポカである。昨日アップしたバージョンでは、

タンパク質の分子質量 = ∑ アミノ酸の分子質量

として計算していたが、これは大きな間違い。各アミノ酸はアミノ基 (NH2) とカルボキシル基 (COOH) のペプチド結合よってつながるが、その際に脱水が起こる。従って、n個のアミノ酸からなるタンパク質の分子質量は、

タンパク質の分子質量 = ∑ アミノ酸の分子質量 - 18 × (n - 1)

である。恥ずかしい。知識として知っていても、日々の仕事ではコンピュータに頼り切って使うことがないという実体が、図らずも露呈してしまったわけだ。まァ実際には、タンパク質の分子質量を自分で求める人なんていないだろうけれど。