Tegin katsetuse 11.03.2025.
Kontrollisin hulka tabelite loomise lauseid (MS Accessi SQL murdes) 37 erinevat tüüpi üldise (st mitte Accessi-spetsiifilise) vea suhtes. Keelemudelile esitatud küsimus moodustus prompt + laused.
Kontrollitud lausetesse olid meelega tehtud vigu nii, et esindatud olid kõik 37 vigade tüüpi.
Laused, prompti ning testi detailsed tulemused saab alla laadida SIIT. Vastuste juures vaadati seda, kui mitut erinevat vea tüüpi tuvastati, kuid ei kontrollitud seda, kas tulemus oli õige. Samas näiteks ChatGPT-l hakkas pealiskaudsel silmitsemisel silma vähemalt üks viga vastuses (osutati kohale koodis, kus viga ei olnud, kuid ei leitud kohta koodis, kus viga oli).
Tulemused:
Kontrollisin hulka tabelite loomise lauseid (MS Accessi SQL murdes) 37 erinevat tüüpi üldise (st mitte Accessi-spetsiifilise) vea suhtes. Keelemudelile esitatud küsimus moodustus prompt + laused.
Kontrollitud lausetesse olid meelega tehtud vigu nii, et esindatud olid kõik 37 vigade tüüpi.
Laused, prompti ning testi detailsed tulemused saab alla laadida SIIT. Vastuste juures vaadati seda, kui mitut erinevat vea tüüpi tuvastati, kuid ei kontrollitud seda, kas tulemus oli õige. Samas näiteks ChatGPT-l hakkas pealiskaudsel silmitsemisel silma vähemalt üks viga vastuses (osutati kohale koodis, kus viga ei olnud, kuid ei leitud kohta koodis, kus viga oli).
Tulemused:
- Google Gemini 2.5 Pro - leidis 37 tüüpi vigu (100% vigade tüüpidest)
- DeepSeek V3 (0324) - leidis 33 tüüpi vigu (89% vigade tüüpidest)
- Reasoning pole sisse lülitatud; mudeli versioon 2025. aasta märtsi lõpust
- DeepSeek R1 - leidis 32 tüüpi vigu (86% vigade tüüpidest)
- xAI Grok 3 (DeepSearch ei olnud valitud ja Think olid valitud) - leidis 30 tüüpi vigu (81% vigade tüüpidest)
- Aega kulus 121 sekundit
- xAI Grok 3 (DeepSearch ja Think olid valitud) - leidis 29 tüüpi vigu (78% vigade tüüpidest)
- Aega kulus 71 sekundit
- xAI Grok 3 (DeepSearch oli valitud, kuid Think ei olnud) - leidis 28 tüüpi vigu (76% vigade tüüpidest)
- Aega kulus 156 sekundit
- Alibaba Qwen2.5 Turbo (Thinking) - leidis 28 tüüpi vigu (73% vigade tüüpidest)
- Claude 3.7 Normal - leidis 25 tüüpi vigu (68% vigade tüüpidest)
- Alibaba Qwen2.5 Max (Thinking) - leidis 24 tüüpi vigu (65% vigade tüüpidest)
- xAI Grok 3 (DeepSearch ja Think ei olnud valitud) - leidis 21 tüüpi vigu (57% vigade tüüpidest)
- ChatGPT 4o - leidis 16 tüüpi vigu (43% vigade tüüpidest)
- Google Gemini 2.0 Flash - leidis 14 tüüpi vigu (38% vigade tüüpidest)
- Erinevalt kõigist teistest mudelitest viitas ainult tabelile, mitte täpsemale asukohale
- Google Gemini 2.0 Flash Thinking Experimental - leidis 13 tüüpi vigu (35% vigade tüüpidest)
- Iga vea tüübi kohta oli vähemalt üks katse, kus see oli leitud.
- Katsetasin Grok 3 ilma DeepSearchita ja ilma mõtlemiseta ka teist korda ja tulemusena leiti 22 tüüpi vigu (esimesel katsel 21), kusjuures mõnda vigade tüüpi, mida esimesel katsel märgati, teisel katsel ei märgatud ning vastupidi.
- Grok 3 puhul tasub valida (Think) ning lisaks tasuks tulemust kontrollida veel vähemalt ühe mõne teise ettevõtte mudeliga ja/või Grok 3 (DeepSearch+Think).
- Viga 2 (Andmebaasis ei ole ühist klassifikaatorite tabelit ), 5 (Klassifikaatorite tabelites sisaldub primaarvõtme veergude nimedes sõna kood või code, mitte id) ja 21 (Kui välisvõti viitab klassifikaatori tabelile, siis ei ole sellel välisvõtmel kompenseerivat tegevust ON DELETE CASCADE) märgati kõigil katsetustel ning viga 12 (Igas tabelis on defineeritud primaarvõtme kitsendus) ainult viies (Google Gemini 2.5Pro, DeepSeek V3, DeepSeek R1, Grok 3 + Think, Claude 3.7 Normal).
- Grok 3 eelisele ChatGPT tasuta mudelite ees viitab ka näiteks see pingerida.
Hinda postitust:
Keskmine hinne : 5.0