© Reuters. Kumpulan data AI terbaik menampilkan situs web cryptocurrency dalam umpan datanya
- Colossal Clean Crawled Corpus bergantung pada beberapa platform kriptografi untuk data.
- Analisis menunjukkan bahwa beberapa fragmen teks C4 diekstraksi dari situs web berbasis crypto.
- Kehadiran situs kriptografi dalam kumpulan data C4 dapat memengaruhi tingkat biasnya.
Alat AI terkemuka, Colossal Clean Crawled Corpus (C4), bergantung pada beberapa platform kriptografi untuk sebagian besar datanya. Analisis menunjukkan bahwa C4 menambang jutaan cuplikan teks dari situs web berbasis cryptocurrency atau platform web yang terkait erat dengan cryptocurrency.
Menurut laporan, Komisi Sekuritas dan Pertukaran AS (SEC), yang sekarang memegang sejumlah besar informasi terkait cryptocurrency, menyumbang 36 juta token C4, yang merupakan 0,02% dari kumpulan data platform. Situs web SEC (sec.gov), tempat C4 mengambil data, menduduki peringkat ke-39 di antara situs web yang terpengaruh oleh C4.
Bitcointalk.org Satoshi Nakamoto menyumbang 6,1 juta token C4, atau 0,004% dari total token. Itu peringkat sebagai situs web ke-780 yang digunakan oleh platform.
Platform crypto lain yang digunakan oleh C4 untuk akuisisi data termasuk situs web berita crypto, Cointelegraph, dan platform agregasi token, CoinmarketCap. Ini dan enam situs web terkait lainnya menyumbang 0,008% dari semua token C4, sementara situs web lain yang terkait dengan cryptocurrency tertentu merupakan bagian yang dapat diabaikan dari representasi.
Fitur IPFS (ipfs.io) dan Steemit (steemit.com) secara signifikan dalam kumpulan data C4. IPFS peringkat 16, sedangkan Steemit peringkat 594. Kedua situs ini tidak terlibat langsung dalam cryptocurrency tetapi memiliki kecenderungan yang signifikan terhadap industri cryptocurrency.
Keterlibatan platform terkait cryptocurrency dalam proses pelatihan AI C4 memaparkan perambahan cryptocurrency ke arus utama. Tingkat representasi situs web crypto cukup signifikan untuk memengaruhi hasil C4, meskipun situs web tradisional seperti Google (NASDAQ:) dan Facebook (NASDAQ:) secara signifikan melebihi jumlah mereka.
C4 telah dikritik karena data bajakan dan ujaran kebencian, meskipun ada laporan bahwa kumpulan data sedang “dibersihkan”. Dengan hanya 400 kata dalam daftarnya untuk menyensor konten tertentu, ini menunjukkan bahwa mungkin masih ada konten kontroversial di dalam C4. Kehadiran situs kriptografi dalam kumpulan datanya juga dapat memengaruhi tingkat biasnya.
Posting Dataset AI Teratas Menampilkan Situs Web Cryptocurrency di Datafeed-nya pertama kali muncul di Edisi Koin.