Kan man fuska i fysik genom att låta ChatGPT göra inlämningsuppgifter åt en? Nej, inte än i alla fall. Det konstaterar två forskare efter ett test där de ställde en basal fysikfråga till chattbotten.
”En teddybjörn kastas upp i luften. Hur stor är accelerationen vid den högsta punkten?”
Den frågan ställde Ann-Marie Pendrill, professor emerita och tidigare föreståndare för Nationellt resurscentrum för fysik i Lund, och Bor Gregorcic, docent vid Institutionen för fysik och astronomi i Uppsala, till ChatGPT.
Och resultatet är inte så smickrande för chattbotten.
Forskarna konstaterar visserligen att den formulerar sig väldigt bra, med korrekta begrepp. Men faktamässigt så blandas korrekta påståenden med felaktigheter och rena motsägelser – både inom ett och samma svar, och mellan olika svar i samma konversation.
”Saktar ner när den når den högsta punkten”
Den första gången de ställer frågan om nallebjörnens acceleration innehåller svaret det korrekta påståendet att ”accelerationen är lika med accelerationen på grund av gravitationen, 9,8 m/s² neråt”.
Men ChatGPT fortsätter med att också felaktigt påstå att:
- nallen inte utsätts för några nettokrafter och
- att den först accelererar uppåt och sedan saktar ner när den når den högsta punkten – när den ju i själva verkat börjar sakta ner så fort den kastats och definitivt innan den når sin högsta punkt.
När de ställde frågan en gång till fick de svaret att accelerationen i den högsta punkten var noll – vilket de konstaterar är ett vanligt, men felaktigt, svar från studenter.
Bara en ögonblicksbild
Pendrill och Gregorcic ställde sedan frågor till ChapGPT på samma sätt som till studenter, för att förmå den att inse motsägelserna. En så kallad Sokratisk dialog.
Chattbotten fortsätter då att blanda korrekta och felaktiga påståenden. Bland annat svarar den en gång att: “Det är viktigt att notera att nallebjörnen faktiskt inte har stannat när den kommer till den högsta punkten i banan, eftersom den fortfarande rör sig uppåt med en viss hastighet”.
”Det här överraskade oss”, skriver Ann-Marie Pendrill och Bor Gregorcic i artikeln. ”Det går så mycket emot vardaglig erfarenhet att vi inte var säkra på om vi alls skulle svara seriöst på det.”
De påpekar att testet de gjort bara är en ögonblicksbild. AI utvecklas snabbt, men än så länge, menar de, så går det inte att lyckas med att fuska i fysik genom att låta ChatGPT göra inlämningsuppgifter åt en. Däremot kan man använda chattbotten för att få en första version som man sedan behöver bearbeta och granska kritiskt.
En självsäker, okunnig samtalspartner
Pendrill och Gregorcic har beskrivit konversationen i artikeln ”ChatGPT and the frustrated Socrates” som blev vårens mest nedladdade artikel i tidskriften Physics Education.
Frustrationen handlar om skillnaden mot att resonera med en student. Medan studenter kan visa förvirring, insikt om att de inte förstår och ödmjukhet, så beter sig ChatGPT ”mer som en självsäker, okunnig samtalspartner utan någon pålitlig vardagserfarenhet utifrån vilken den kan bygga en förståelse för fysik”.
ChatGPT fick heller inget Heureka-ögonblick – den insåg helt enkelt aldrig vilka fel den gjort och kunde lära sig det rätta svaret.
Uppmanar alla att testa
I sina slutsatser skriver Ann-Marie Pendrill och Bor Gregorcic att chattbotten ibland visar sig ha samma svårigheter som studenter, men andra gånger ger den ologiska svar som människor med sin praktiska erfarenhet inte skulle ge (som att nallen fortsätter uppåt efter att den nått den högst punkten).
I en intervju i Lunds universitets magasin, Lum, uppmanar Ann-Marie Pendrill alla att testa ChatGPT eller någon annan chattbot. Hon varnar för att AI framöver kommer att försvåra upptäckten av plagiat. För att ha en chans att avslöja fusk menar hon att lärare måste följa studenternas process noggrant och veta hur chattbottar fungerar.
19 kommentarer
Testat i ChatGPTv4
En teddybjörn kastas upp i luften. Hur stor är accelerationen vid den högsta punkten?
ChatGPT
När en teddybjörn (eller vilket objekt som helst) kastas uppåt och når sin högsta punkt i luften, är dess hastighet vid den punkten noll. Dock påverkas objektet fortfarande av jordens gravitationskraft, vilket innebär att det har en acceleration riktad nedåt.
Denna acceleration är lika med accelerationen på grund av gravitation, som på jordytan ungefärligt är 9.81 m/s. Så även vid den högsta punkten har teddybjörnen en nedåtriktad acceleration av 9.81 m/s.
Detta gäller oavsett objektets massa eller den initiala hastigheten då det kastades. Gravitationsaccelerationen är konstant nära jordens yta och påverkar alla fritt fallande objekt likadant, förutsatt att luftmotstånd och andra krafter kan försummas.
Oerhört intressant test ändå. Jag ställde lite frågor till ChatGPT igår om estniska språket, och ALLA svaren var felaktiga! Det är ju inte så förtroendeingivande.
Just nu ställde jag frågan om nallebjörnen till Bard, och fick följande svar (som väl ser rätt bra ut?):
”Accelerationen vid den högsta punkten är **g**, vilket är ungefär **9,81 m/s^2**. Detta beror på att den enda kraften som verkar på teddybjörnen vid den högsta punkten är tyngdkraften, som accelererar teddybjörnen nedåt.
Accelerationen är konstant under hela teddybjörnens färd, så den är lika stor vid den högsta punkten som vid alla andra punkter.”
Bra tänkt, men du går i samma fälla som du anklagar författaren att göra. Bara för att du validerat att en version som är runt 6 månader nyare klarar av att svara just denna enda fråga betyder inte att ChatGPT nu kan användas för att fuska i fysik. Det betyder bara att den kan svara på just den frågan, vilket lika gärna kan beror på att utvecklarna av ChatGPT sett forskningsartikeln (eftersom den fått mycket uppmärksamhet) och sedan berättat för ChatGPT vad den ska svara på just den frågan i framtiden.
Förvånansvärt många som testar ChatGPT och skriver ihop artiklar har inte bytt sig om att testa GPT4
Gav helt ovetenskapligt de 26 frågorna från en tentamen i elkraftsytem till ChatGPT i januari i år. Rättade med samma krav som för ordinarie tentamen. Den fick betyget D på kursen.
Det är skillnad på att leta information och att förstå.
Jag testade samma prompt till GPT4 och fick ett utmärkta svar, också på uppföljningsfrågor.
Däremot spelade jag Go (5×5) med GPT4 idag. Den föreslog flera gånger drag som skulle innebära regelbrott och glömde bort brädpositioner. Med tanke på att AlphaGo slog Le Sedol 2016 är det lite ironisk att GPT4 inte verkar så bra på Go. De är ju såklart två väldigt olika AI system vilket förmodligen förklarar saken.
Gjorde liknande tester i vintras på Chat GPT med frågor ur basala kärn- och strålningsfysik (alfa-sönderfall hos isotoper av uran m.fl.) och fick samma slutsatser: helt kassa dock självsäkra svar och såklart ingen förmåga att lära sig dynamiskt. Neej, det tar ett tag innan hen blir en kunnig expert 🙂
Hur kan svaret inte vara att accelerationen är noll? Ett stillastående objekt som påverkas av gravitation kan väl inte ha någon acceleration? Dvs. acceleration implicerar rörelse.
Acceleration implicerar inte rörelse (hastighet), utan förändring av rörelse. Man kan likna det med att stå stilla med bilen. I ögonblicket som man börjar accelerera står bilen helt stilla, men efter den tidpunkten så kommer hastigheten öka från 0. Det är alltså helt rätt som skrivits, men det är värt att notera att föremål som står stilla men påverkas av en acceleration endast kommer stå stilla i det ögonblicket/tidspunkten.
Det här var intressant. Frågan är ställd som att teddybjörnens acceleration efterfrågas vid dess högsta punkt. Just då så är teddybjörnen helt stilla, alltså ingen acceleration. Men om man inkluderar ögonblicket före och efter dess högsta punkt så borde de accelerationerna (deacceleration och acceleration) ta ut varandra, så accelerationen blir ändå noll. Men ögonblicket före eller efter efterfrågas inte, utan just förhållandet vid teddybjörnens högsta punkt.
Ovanför mitt huvud hänger en taklampa, den har också nollacceleration. Om den släpper och rasar i golvet (och jag hinner undan; AFK) så är accelerationen noll både i dess högsta och lägsta punkt…
Accelerationen är (från den stund nallen lämnar den kastade handen tills dess att den åter träffar marken) konstant, d.v.s. cirka 9.82 m/s^2 med riktning ner marken (d.v.s. tyngaccelerationen). Det är denna acceleration som får nallen att sakta ned, ha noll hastighet en kort stund på den högsta punkten, och sedan öka hastigheten igen när den faller åter mot marken. Bortsett från luftmotstånd och dylikt.
Gjorde liknande erfarenhet, frågade hur färg uppkommer, dvs hur de olika frekvenserna i vitt ljus interagerar med atomerna i materialet så att det t.ex. reflekteras en blank grön färg. Svaren var först ofullständiga, när jag ville ha förtydligande blev de istället motsägande. Jag fick leda den till fakta som jag sedan själv fick ställa samman till en förklaring. Uppenbart att logik inte finns med i konceptet, att den inte har känsla för skillnaden mellan blank och matt färg får väl ses som väntat.
Probably the article needs to include the following as it’s reaching out to mass people:
– An introduction/ overview of ChatGPT
– The objective of the topic, the target audience
– A good conclusion so that it can be useful to discuss further.
This is meta article.
Have you read the article the researcher have written, it’s LinkedIn in this article.
Det är en språkmodell. Frågorna bör kanske utformas utifrån ett sådant perspektiv.
Om man tror att ChatGPT är en människa så blir svaren mer förvirrande.
Step up!
Artikeln är från Mars 2023. Skriver jag in samma prompts nu i GPT 3.5 respektive 4.0 får jag inga motsägelser och ett utmärkt svar från 4.0.
Ser inte heller i deras artikeln vilken modell de använder. Svag research, ChatGPT är bara ett gränssnitt byggt på GPT modellen.
Svag research innan du skrivit din kommentar. Det framgår till och med om man endast läser rubrikerna att såväl artikelförfattaren som forskarna är medvetna om att testet de gjort enbart visar en ögonblicksbild av GPT. Det är därför ointressant vilken version av GPT de använt. Sannolikheten att du eller någon annan behöver ställa exakt samma fråga är ju minimal. Därför kommer de frågor du ställer att ge andra svar än vad forskarna fick.
Om du läser artikeln som forskarna har skrivit så borde det framgå i den.
Tack för att du tar upp detta!
Det är verkligen viktigt att man i en artikel ser vad som testas, annars kan man omöjligt återupprepa (peer review!) resultatet korrekt. Jag har läst och letat i forskningsartikeln men kan inte se vilken version som används. (Annat än att den skickades in 20 Dec 2022, alltså innan gpt4.)
Vilken annan forskning och nyhetsrapportering kan man göra såhär? ”Vi testade en Volvo bil, den hade en 0-100 tid på långsamma 10 sekunder, så man kan inte köra racingtävling med Volvo.”
Jag ser massvis med nyhetsartiklar som inte klargör vad som testats, och ofta får man känslan att de kört på 3.5 och får ett dåligt resultat där version 4 kan ge ett korrekt svar. Eller kanske har de kört 4, och då vill man veta det så gemene man kan förstå vad för brister även ”state of the art” har.
I alla chattfönster i chatgpt kan man se längst ner vilken ”datum-version” som används, och högst upp om det är 3.5 eller 4.
Själv testade jag samma fråga i chatgpt version 4, aug 3 2023, och fick ett utmärkt svar som jag inte kan klandra det minsta. Så denna och forskarens artikels slutsats är helt fel, med sådana enkla frågor så går det alltså utmärkt att fuska i fysik, bara man betalar för version 4. Man kunde hoppats att ingenjören.se hade gjort samma enkla test innan publikation.