Frage:
Wie wähle ich hochwertige Strukturen aus der Proteindatenbank aus?
marcin
2017-06-01 18:04:41 UTC
view on stackexchange narkive permalink

Modelle von Strukturen, die in der Proteindatenbank hinterlegt sind, unterscheiden sich in der Qualität, abhängig von der Datenqualität und dem Fachwissen und der Geduld der Person, die das Modell erstellt hat. Gibt es eine gut akzeptierte Teilmenge der PDB-Einträge, die nur "qualitativ hochwertige" Strukturen aufweist? Idealerweise wären diese Strukturen repräsentativ für Proteinklassen im gesamten PDB.

basierend auf einer realen Frage aus der Biologie.SE sub>

Zwei antworten:
#1
+9
Davidmh
2017-06-01 18:55:33 UTC
view on stackexchange narkive permalink

Es gibt eine sehr schöne Datenbank, pdbcull (in der Literatur auch als PISCES-Server bekannt). Es filtert den PDB nach hoher Auflösung und reduzierter Sequenzidentität. Es scheint auch regelmäßig aktualisiert zu werden. Abhängig von den Grenzwerten erhalten Sie zwischen 3000 und 35000 Strukturen.

Wenn Sie speziell an Rotameren interessiert sind, sollten Sie sich stattdessen top8000 ansehen, wo sie überprüft wurden für hohe Auflösung und gute MolProbity-Werte. Sie stellen auch eine Rotamer-Datenbank bereit.

PDB stellt auch ihr eigenes Clustering bereit. Sie gruppieren zuerst die Sequenzen und extrahieren dann eine repräsentative Struktur für jede einzelne, basierend auf dem Qualitätsfaktor ( 1 / Auflösung - R_value ). Dies hat den Vorteil, dass es umfassend ist, aber Sie werden schlechte Strukturen haben, wenn keine guten jemals erhalten wurden.

#2
+5
Rosalind Was Robbed
2017-06-15 03:56:46 UTC
view on stackexchange narkive permalink

Wenn Sie sich dafür entscheiden, das PDB selbst auszusortieren, ist die Auflösung wahrscheinlich das erste, was Sie sich ansehen möchten, was, wie Davidmh erwähnt, das Hauptauswahlkriterium für PISCES ist. Hochwertige Strukturen haben auch bessere R-Faktor-Werte. Sie können auch basierend auf experimentellen Techniken in absteigender Reihenfolge der Qualität Präferenzen geben:

Neutronenbeugung, Röntgenbeugung, Lösungs- / Festkörper-NMR, Elektronenmikroskopie / Kristallographie, Faserbeugung, Lösungsstreuung.

Ja, dies sind Kriterien von PISCES, obwohl sie ziemlich simpel erscheinen. Der R-Faktor wird verwendet, aber die Lücke zwischen dem R-Faktor und Rfree wird ignoriert. Die Auflösung (druckbar d_min) ist das einzige Kriterium für die Datenqualität (Datenvollständigkeit wird ignoriert). Keine Geometrievalidierung.
R-Faktor und R-freie Diskrepanz sind eine großartige Sache, aber meiner Erfahrung nach ist die Anzahl der Strukturen, die beide auf standardisierte Weise melden, eher gering. BioJava hat beide erst kürzlich verfügbar gemacht, IIRC, und das ist normalerweise das Tool, das ich verwende.
[80,7%] (http://mmcif.wwpdb.org/dictionaries/mmcif_pdbx_v50.dic/Items/_refine.ls_R_factor_R_free.html) von PDB-Strukturen meldet R-frei, etwas weniger als [86,8%] (http: // mmcif .wwpdb.org / dictionaries / mmcif_pdbx_v50.dic / Items / _refine.ls_d_res_high.html), das die Auflösung meldet.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...