Rabu, 26 Juni 2013

Single Precision dan Double Precision

Single Precision
Format tunggal-presisi floating-point format angka komputer yang menempati 4 byte (32 bit) dalam memori komputer dan merupakan dynamic range yang lebar dari nilai-nilai dengan menggunakan floating point.

Dalam IEEE 754-2008 basis 2 format 32-bit secara resmi disebut sebagai binary32. Itu disebut tunggal dalam IEEE 754-1985. Pada komputer lama, format floating-point lain dari 4 byte yang digunakan.

Salah satu bahasa pemrograman pertama yang menyediakan tipe data tunggal dan double-presisi floating-point adalah Fortran. Sebelum adopsi IEEE 754-1985, representasi dan sifat ganda tipe data float tergantung pada produsen komputer dan model komputer.

Single-presisi biner floating-point digunakan karena jangkauan luas atas titik tetap (yang sama-bit lebar), bahkan jika pada biaya presisi.

Presisi tunggal dikenal sebagai nyata dalam Fortran, [1] sebagai pelampung di C, C + +, C #, Java [2] dan Haskell, dan sebagai single di Delphi (Pascal), Visual Basic, dan MATLAB. Namun, mengambang di Python, Ruby, PHP, dan OCaml dan satu di versi Oktaf sebelum 3.2 merujuk pada nomor presisi ganda. Dalam PostScript hanya presisi floating-point tunggal.
Dalam contoh ini:

\ text {} tanda = 0
1 + \ sum_ {i = 1} ^ {23} b_ {23}-i 2 ^ {-i} = 1 + 2 ^ {-2} = 1,25
2 ^ {(e-127)} = 2 ^ {} 124-127 = 2 ^ {-3}

demikian:

\ text {value} = 1,25 \ kali 2 ^ {-3} = 0,15625

Double Precision

Dalam komputasi, presisi ganda adalah format nomor komputer yang menempati dua lokasi penyimpanan yang berdekatan dalam memori komputer. Sejumlah presisi ganda, kadang-kadang hanya disebut ganda, dapat didefinisikan sebagai integer, titik tetap, atau floating point (dalam hal ini sering disebut sebagai FP64).

Komputer modern dengan lokasi penyimpanan 32-bit menggunakan dua lokasi memori untuk menyimpan nomor presisi ganda 64-bit (lokasi penyimpanan tunggal dapat menampung sejumlah presisi tunggal). Presisi ganda floating-point merupakan standar IEEE 754 untuk pengkodean biner atau desimal angka floating-point 64 bit (8 byte).
The presisi ganda biner eksponen floating-point dikodekan menggunakan representasi offset-biner, dengan offset nol menjadi 1023, juga dikenal sebagai Bias eksponen dalam standar IEEE 754. Contoh representasi tersebut akan menjadi:

Emin (1) = -1.022
E (50) = -973
Emax (2046) = 1023

Dengan demikian, seperti yang didefinisikan oleh representasi offset-biner, untuk mendapatkan eksponen benar bias eksponen 1023 harus dikurangkan dari eksponen tertulis.

Para eksponen 00016 dan 7ff16 memiliki arti khusus:

00016 digunakan untuk mewakili nol (jika M = 0) dan subnormals (jika M ≠ 0), dan
7ff16 digunakan untuk mewakili ∞ (jika M = 0) dan NaN (jika M ≠ 0),

di mana M adalah mantissa fraksi. Semua pola bit encoding yang valid.

Kecuali untuk pengecualian atas, jumlah presisi ganda seluruh digambarkan oleh:

(-1) ^ {\ Text {tanda}} \ kali 2 ^ {\ text {} eksponen - \ text {eksponen Bias}} \ kali 1 \ text {} mantissa.

Tidak ada komentar:

Posting Komentar